当前位置: 首页 > article >正文

llama.cpp部署QWEN3.5-9B和Gemma4-e4b,用Claude Code对比测试

昨天部署了Gemma4:26B和E4B一是自己显存不够部署的时候总是爆显存。二是claude code与Gemma4配合有问题claude爆内存任务进行不下去。所以今天我又通过llama.cpp部署了QWEN3.9-9B并做了些测试。结论llama.cpp性能比Ollama强很多我没做量化测试网上其他博主给的数据显示llama.cpp是Ollama的1.8倍。Qwen3.5-9B效果比Gemma4-e4b要好些能跟Claude配合做一些相对复杂的事情。12GB显存的RTX5070 Ti 移动版只能用量化版本最终我选的是Qwen3.5-9B-GGUF:UD-Q4_K_XL。运行QWEN3.5-9B在上一篇的基础上我只要执行下面的命令就可以顺利运行大模型。Q8版本显存爆了。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q8_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ6版本占用显存8G左右勉强能跑所剩显存很少。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q6_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ4版本占用显存6G左右能顺利执行且剩余空间足够。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinja小诀窍可以登录HuggingFace添加自己的显卡设备就可以看到官方给的建议哪些模型能顺利执行。与Claude Code对接还是通过CC Switch配置让claude创建一个多Agent协作机制下面的内容是我发给Claude的内容我用Qwen3.5-9B和Gemma4-34b各做了一遍提示词有细微差别。## 用户提出的问题/需求 ### 1. 初始询问 你是谁 ### 2. 查看配置 查看 claude.md ### 3. 创建工作流机制 创建一个新工作流机制有 4 个 Agent每个 agent 负责一项工作 ### 4. 确认 Agent 职责 选题 研究 写稿 校对这样 4 步用来编写文章、博客 ### 5. 确认实现方式 先创建完整的方案并与我确认然后再规划并实施 ### 6. 确认方案 确认 ### 7. 询问启动方式 我该怎么启动这 4 个 agent ### 8. 询问协作机制 解释一下他们协作的机制 ### 9. 询问任务派发 我该怎么给他们派发任务 ### 10. 提出多文章管理需求 如果有很多文章怎么管理 ### 11. 提出机制不足 感觉这个机制还不够啊 ### 12. 确认改进方式痛点选择 选择了以下痛点 - 手动复制指令太麻烦 - 无法批量处理文章 - 无法查看文章状态 - 数据无法复用 ### 13. 确认系统功能需求 选择了以下功能 - 文章列表管理 - 批量任务派发 - 状态自动追踪 - 结果复用、 ### 14. 选择管理方式 混合模式按项目分类每个文章独立工作区 ### 15. 整理会话记录 把我这轮沟通我发的消息整理下来写入一个 md 文件 --- ## 最终确认的需求总结 ### 核心功能 1. **4-Agent 顺序工作流** - Agent 1: 选题策划 - Agent 2: 研究调研 - Agent 3: 写作执行 - Agent 4: 校对审核 1. **混合模式管理** - 按项目分类如保险智能营销系列 - 每个文章独立工作区 1. **改进机制** - 自动显示指令无需手动复制 - 批量处理支持 - 状态自动追踪 - 数据可复用 --- ## 已创建的脚本文件 | 文件 | 用途 | |------|------| | workflows/article-writing/run-all.ps1 | 总启动脚本 | | workflows/article-writing/start-topic-planner.ps1 | Agent 1 启动脚本 | | workflows/article-writing/start-researcher.ps1 | Agent 2 启动脚本 | | workflows/article-writing/start-writer.ps1 | Agent 3 启动脚本 | | workflows/article-writing/start-reviewer.ps1 | Agent 4 启动脚本 | | workflows/article-writing/run.ps1 | 快捷启动脚本 | | workflows/article-writing/new-project.ps1 | 创建新项目 | | workflows/article-writing/new-article.ps1 | 创建新文章 | | workflows/article-writing/view-status.ps1 | 查看状态 | | workflows/article-writing/README.md | 使用说明 | | workflows/article-writing/state.json | 全局状态索引 | ## 下一步 等待用户开始使用新创建的工作流系统。两次运行的结果对比Gemma4-E4B也能正常干下去没有昨天26B-A3B那样的问题估计是爆显存导致Claude也爆内存了。主要对比点Qweb3.5-9BGemma4-E4B回复语言默认是中文默认是英文即使我让它用中文回复也会用英文长任务良好会不断问我问题直到任务完成偶尔会中断也不会发出“下一步继续要做什么这类问题。所以我会按照第一遍的流程直接发指示给如下图所示每次回复完就不动了。看llama.cpp的控制台日志也不打GPU也是0%。对比来看用Qwen3.5-9B的时候基本都能一直往下执行。修改上下文大小我设置的上下文大小是128k在claude界面显示的是200k用的Claude-hud插件。网上说可以在~/.claude/settings.json加上环境变量CLAUDE_CODE_AUTO_COMPACT_WINDOW: 131072但我配置之后还是这样。调用过程中的问题只是记录下来应该不需要我处理系统自动修复了。⎿ Error: [Fact-Forcing Gate] Before creating \bandcompany2\workflows\article-writing\start-topic-planner.ps1, present these facts: 1. Name the file(s) and line(s) that will call this new file 2. Confirm no existing file serves the same purpose (use Glob) 3. If this file reads/writes data files, show field names, structure, and date format (use redacted or synthetic values, not raw production data) 4. Quote the users current instruction verbatim Present the facts, then retry the same operation.

相关文章:

llama.cpp部署QWEN3.5-9B和Gemma4-e4b,用Claude Code对比测试

昨天部署了Gemma4:26B和E4B,一是自己显存不够,部署的时候总是爆显存。二是claude code与Gemma4配合有问题,claude爆内存,任务进行不下去。 所以今天我又通过llama.cpp部署了QWEN3.9-9B,并做了些测试。 结论&#xff1a…...

HASH、MAC、HMAC 对比

对比汇总表--**Hash(散列)****MAC(消息认证码)****HMAC(哈希MAC)**全称Hash FunctionMessage Authentication CodeHash-based MAC输入任意长度消息消息 密钥消息 密钥输出固定长度摘要固定长度认证码固定…...

如何在3天内快速上手OpenSPG知识图谱引擎?完整实战指南 [特殊字符]

如何在3天内快速上手OpenSPG知识图谱引擎?完整实战指南 🚀 【免费下载链接】openspg OpenSPG is a Knowledge Graph Engine developed by Ant Group in collaboration with OpenKG, based on the SPG (Semantic-enhanced Programmable Graph) framework.…...

UnSHc深度解析:Shell脚本安全审计与逆向工程的技术实现

UnSHc深度解析:Shell脚本安全审计与逆向工程的技术实现 【免费下载链接】UnSHc UnSHc - How to decrypt SHc *.sh.x encrypted file ? 项目地址: https://gitcode.com/gh_mirrors/un/UnSHc 在Shell脚本安全领域,SHc加密工具因其强大的保护能力而…...

手机银行App模拟器

分享一款银行模拟器,农业银行模拟器,装逼娱乐神器,安卓苹果都支持!功能: 修改余额,自由修改数据,也可以模拟余额冻结和转出失败,功能多多,使用起来也是非常的方便,看图片…...

文件上传1

在日常使用各类网站、APP 的过程中,文件上传是我们每天都会接触的基础功能:更换社交账号头像、发布朋友圈配图、上传学习文档、提交作业文件、上传博客封面图…… 这些场景背后,都是Web 文件上传技术在支撑。一、文件上传核心原理解读在动手写…...

LVGL + SquareLine:嵌入式里「中英两套字串」怎么做(无需完整 i18n 框架)

LVGL + SquareLine:嵌入式里「中英两套字串」怎么做(无需完整 i18n 框架) 适用场景:ESP-IDF + LVGL,界面由 SquareLine Studio 生成;不想维护字符串 ID、gettext、.po 那一套,只希望 中文默认 UI + NVS 记忆语言 + 进屏刷新,英文尽量短以适应小屏。 1. 为什么不搞「正经…...

招聘类 Android 应用开发全栈实践与性能优化

引言 移动互联网时代,招聘平台已成为连接人才与企业的核心桥梁。作为 Android 开发工程师,负责招聘类应用的研发工作,不仅要求扎实的底层技术功底,更需要深刻理解招聘场景下的业务逻辑、用户交互特性以及对性能与稳定性的极致追求。本文将围绕一个招聘类 Android 应用从 0…...

Windows系统安装Node.js教程

Windows系统安装Node.js教程 本文档详细介绍了在Windows系统上安装Node.js的完整步骤,包括下载、安装和验证过程,帮助用户快速搭建Node.js开发环境。 一、Node.js 简介 Node.js 是一个基于 Chrome V8 引擎构建的开源、跨平台 JavaScript 运行时环境,它允许开发者在服务器…...

tinyalsa(0)

先给你一个完整配置 采样率(rate) 48000 声道数(channels) 2(左右声道) 采样格式 16bit(2字节) period_size 480 period_count 4一、先从“声音本…...

数据科学中的Pandas数据框扩展

在数据科学和机器学习的领域中,处理数据结构往往是日常工作的一部分。尤其是当我们需要处理图结构数据时,构建和操作邻接矩阵是常见任务之一。Pandas作为Python中处理数据的强大工具,提供了许多便捷的方法来操作数据框(DataFrame)。本文将探讨如何使用Pandas高效地扩展数据…...

龙虾量化实战法(QClaw)

龙虾量化上手法 如果你只是想快速搭一套能用的量化分析流程,这篇文章就是写给你的。最近市面上这类量化课程真的很多,讲得热闹,卖得也凶,但我个人一直不觉得这东西有多大价值。原因很简单,很多课讲到最后,还…...

关于FLOPs与MACs的说明

关于FLOPs与MACs的说明: 尽管通常被称为"FLOPs",但fvcore的FlopCountAnalysis返回的值实际上代表的是MACs(乘加运算次数)。 正如FlopCountAnalysis的文档字符串(第53行)所述:“我们将…...

算法学习第七天

1. 环形链表 II 总结链表与数组的适用场景差异,提交第一周学习小结 题意: 给定一个链表,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 为了表示给定链表中的环,使用整数 pos…...

OpenCore Legacy Patcher终极解决方案:4步完整技术指南让旧Mac焕发新生

OpenCore Legacy Patcher终极解决方案:4步完整技术指南让旧Mac焕发新生 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher是…...

Unity URP 实战:基于Kajiya-Kay与Marschner的头发着色器深度解析

1. 头发渲染为什么这么难? 第一次尝试做头发渲染的时候,我对着屏幕发呆了整整一天。为什么游戏里的头发看起来总是那么假?这个问题困扰了我很久。后来才发现,头发的光学特性比我们想象中复杂得多 - 每根头发实际上是个微型圆柱体&…...

基于c/c++实现linux/windows跨平台ntp时间戳服务器

目录使用场景c/c源码结果验证windows编译命令linux编译命令服务器输出结果客户端输出结果使用场景 在某些严格要求时间同步很精准的项目中,获取网络ntp时间的时间延时比较大,做滤波处理可能效果也不理想。因此可以搭建一个本地ntp服务器,这样…...

如何快速上手NVIDIA Profile Inspector:新手必看的完整显卡优化教程

如何快速上手NVIDIA Profile Inspector:新手必看的完整显卡优化教程 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 想彻底释放你的NVIDIA显卡性能吗?NVIDIA Profile Inspector正…...

做再生牛津布出口的靠谱公司有哪些?

做再生牛津布出口,想找个靠谱的伙伴,这事儿我太有感触了。 在这个行业里泡了五年,看过太多品牌方和采购朋友踩坑。要么是环保认证搞不定,货到了港口被卡住;要么是面料性能不达标,看着挺“绿”,用…...

对话式革新:OpenClaw全场景实战指南(含CloudBase开发全流程\+生态深度解析)

在AI原生工具爆发的2026年,鹅厂OpenClaw以“文本驱动、本地优先、事件编排”的核心优势,打破了传统AI助手“只建议、不执行”的局限,从单一工具升级为覆盖办公、创作、学习、研发等多场景的生态体系。它并非简单的对话机器人,而是…...

大学生如何准备AI面试

前两天一个学弟找我,说他投了十几家AI公司的算法岗,全军覆没。 他简历上写的是「熟悉Transformer架构」、「掌握PyTorch」、「参与过NLP相关项目」,看起来没什么毛病,但面试官一开口就问,「你训练过一个模型从零到上线…...

在国产麒麟系统上,手把手教你离线搞定osg3.4.0和osgEarth2.9的编译(附完整依赖包)

国产麒麟系统离线编译OSG 3.4.0与osgEarth 2.9全流程指南 在信创产业快速发展的背景下,国产操作系统与硬件平台正逐步成为关键基础设施的核心选择。银河麒麟作为国产操作系统的代表之一,其稳定性和安全性已得到广泛验证。然而,在三维地理信息…...

大模型时代最后的符号堡垒,正在崩塌?——全球首份AGI融合技术成熟度评估报告(Gartner未发布版节选)

第一章:大模型时代最后的符号堡垒,正在崩塌? 2026奇点智能技术大会(https://ml-summit.org) 符号主义曾是人工智能的基石——逻辑推理、形式化验证、可解释规则系统,构成了人类对“智能”的最初建模。然而,当大语言模…...

【2024 AGI迁移学习权威白皮书】:基于172个跨模态任务实测数据,揭示仅12.6%模型具备真正泛化迁移能力

第一章:AGI跨领域迁移学习能力的定义与核心挑战 2026奇点智能技术大会(https://ml-summit.org) AGI跨领域迁移学习能力,指通用人工智能系统在未经历显式训练的前提下,将从源任务(如自然语言理解)中习得的抽象表征、推…...

AGI武器化临界点已至:全球7国军方内部评估报告泄露,5个致命伦理漏洞亟待封堵

第一章:AGI武器化临界点的现实判定与战略警示 2026奇点智能技术大会(https://ml-summit.org) 当前,AGI武器化已脱离理论推演阶段,进入可实证观测的临界演化窗口。多国军事AI项目披露的自主决策延迟数据、开源大模型在红蓝对抗环境中生成战术…...

自指宇宙学研究大纲:存在如何通过自我描述而实在化(世毫九实验室原创理论)

自指宇宙学研究大纲:存在如何通过自我描述而实在化 作者:方见华 单位:世毫九实验室 1. 引言与理论背景 1.1 研究动机与问题提出 当代物理学面临着前所未有的理论困境。粒子物理标准模型与广义相对论在各自领域取得了极致成功,却始…...

Switch手柄在电脑上玩转PC游戏:BetterJoy功能详解与实战指南

Switch手柄在电脑上玩转PC游戏:BetterJoy功能详解与实战指南 【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcod…...

【maaath】Flutter for OpenHarmony 国际化集成指南:实现中英文动态切换

Flutter for OpenHarmony 国际化集成指南:实现中英文动态切换 欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net作者:maaath一、背景介绍 在移动应用开发中,国际化(Internationalization&#x…...

面试官:Skills是什么?讲一讲它的工作原理

一、标准答案参考 直接上答案:Skills本质是结构化的本地文件夹,用来补充某个领域的流程、知识和工具,让模型在相关场景下自动或按需调用,是面向大模型的能力封装。 二、扩展问题 1、Skills 和 Prompt 的区别是什么? …...

CLIP-GmP-ViT-L-14效果展示:同一张图在不同语义层级(物体/属性/关系)的排序对比

CLIP-GmP-ViT-L-14效果展示:同一张图在不同语义层级(物体/属性/关系)的排序对比 1. 模型简介 CLIP-GmP-ViT-L-14是一个经过几何参数化(GmP)微调的CLIP模型,在ImageNet和ObjectNet数据集上达到了约90%的准确率。这个模型继承了CL…...