当前位置：首页 > article >正文

llama.cpp部署QWEN3.5-9B和Gemma4-e4b，用Claude Code对比测试

article 2026/4/20 4:54:57

昨天部署了Gemma4:26B和E4B一是自己显存不够部署的时候总是爆显存。二是claude code与Gemma4配合有问题claude爆内存任务进行不下去。所以今天我又通过llama.cpp部署了QWEN3.9-9B并做了些测试。结论llama.cpp性能比Ollama强很多我没做量化测试网上其他博主给的数据显示llama.cpp是Ollama的1.8倍。Qwen3.5-9B效果比Gemma4-e4b要好些能跟Claude配合做一些相对复杂的事情。12GB显存的RTX5070 Ti 移动版只能用量化版本最终我选的是Qwen3.5-9B-GGUF:UD-Q4_K_XL。运行QWEN3.5-9B在上一篇的基础上我只要执行下面的命令就可以顺利运行大模型。Q8版本显存爆了。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q8_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ6版本占用显存8G左右勉强能跑所剩显存很少。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q6_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ4版本占用显存6G左右能顺利执行且剩余空间足够。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinja小诀窍可以登录HuggingFace添加自己的显卡设备就可以看到官方给的建议哪些模型能顺利执行。与Claude Code对接还是通过CC Switch配置让claude创建一个多Agent协作机制下面的内容是我发给Claude的内容我用Qwen3.5-9B和Gemma4-34b各做了一遍提示词有细微差别。## 用户提出的问题/需求 ### 1. 初始询问你是谁 ### 2. 查看配置查看 claude.md ### 3. 创建工作流机制创建一个新工作流机制有 4 个 Agent每个 agent 负责一项工作 ### 4. 确认 Agent 职责选题研究写稿校对这样 4 步用来编写文章、博客 ### 5. 确认实现方式先创建完整的方案并与我确认然后再规划并实施 ### 6. 确认方案确认 ### 7. 询问启动方式我该怎么启动这 4 个 agent ### 8. 询问协作机制解释一下他们协作的机制 ### 9. 询问任务派发我该怎么给他们派发任务 ### 10. 提出多文章管理需求如果有很多文章怎么管理 ### 11. 提出机制不足感觉这个机制还不够啊 ### 12. 确认改进方式痛点选择选择了以下痛点 - 手动复制指令太麻烦 - 无法批量处理文章 - 无法查看文章状态 - 数据无法复用 ### 13. 确认系统功能需求选择了以下功能 - 文章列表管理 - 批量任务派发 - 状态自动追踪 - 结果复用、 ### 14. 选择管理方式混合模式按项目分类每个文章独立工作区 ### 15. 整理会话记录把我这轮沟通我发的消息整理下来写入一个 md 文件 --- ## 最终确认的需求总结 ### 核心功能 1. **4-Agent 顺序工作流** - Agent 1: 选题策划 - Agent 2: 研究调研 - Agent 3: 写作执行 - Agent 4: 校对审核 1. **混合模式管理** - 按项目分类如保险智能营销系列 - 每个文章独立工作区 1. **改进机制** - 自动显示指令无需手动复制 - 批量处理支持 - 状态自动追踪 - 数据可复用 --- ## 已创建的脚本文件 | 文件 | 用途 | |------|------| | workflows/article-writing/run-all.ps1 | 总启动脚本 | | workflows/article-writing/start-topic-planner.ps1 | Agent 1 启动脚本 | | workflows/article-writing/start-researcher.ps1 | Agent 2 启动脚本 | | workflows/article-writing/start-writer.ps1 | Agent 3 启动脚本 | | workflows/article-writing/start-reviewer.ps1 | Agent 4 启动脚本 | | workflows/article-writing/run.ps1 | 快捷启动脚本 | | workflows/article-writing/new-project.ps1 | 创建新项目 | | workflows/article-writing/new-article.ps1 | 创建新文章 | | workflows/article-writing/view-status.ps1 | 查看状态 | | workflows/article-writing/README.md | 使用说明 | | workflows/article-writing/state.json | 全局状态索引 | ## 下一步等待用户开始使用新创建的工作流系统。两次运行的结果对比Gemma4-E4B也能正常干下去没有昨天26B-A3B那样的问题估计是爆显存导致Claude也爆内存了。主要对比点Qweb3.5-9BGemma4-E4B回复语言默认是中文默认是英文即使我让它用中文回复也会用英文长任务良好会不断问我问题直到任务完成偶尔会中断也不会发出“下一步继续要做什么这类问题。所以我会按照第一遍的流程直接发指示给如下图所示每次回复完就不动了。看llama.cpp的控制台日志也不打GPU也是0%。对比来看用Qwen3.5-9B的时候基本都能一直往下执行。修改上下文大小我设置的上下文大小是128k在claude界面显示的是200k用的Claude-hud插件。网上说可以在~/.claude/settings.json加上环境变量CLAUDE_CODE_AUTO_COMPACT_WINDOW: 131072但我配置之后还是这样。调用过程中的问题只是记录下来应该不需要我处理系统自动修复了。⎿ Error: [Fact-Forcing Gate] Before creating \bandcompany2\workflows\article-writing\start-topic-planner.ps1, present these facts: 1. Name the file(s) and line(s) that will call this new file 2. Confirm no existing file serves the same purpose (use Glob) 3. If this file reads/writes data files, show field names, structure, and date format (use redacted or synthetic values, not raw production data) 4. Quote the users current instruction verbatim Present the facts, then retry the same operation.

llama.cpp部署QWEN3.5-9B和Gemma4-e4b，用Claude Code对比测试

相关文章：

llama.cpp部署QWEN3.5-9B和Gemma4-e4b，用Claude Code对比测试

HASH、MAC、HMAC 对比

如何在3天内快速上手OpenSPG知识图谱引擎？完整实战指南 [特殊字符]

UnSHc深度解析：Shell脚本安全审计与逆向工程的技术实现

手机银行App模拟器

文件上传1

LVGL + SquareLine：嵌入式里「中英两套字串」怎么做（无需完整 i18n 框架）

招聘类 Android 应用开发全栈实践与性能优化

Windows系统安装Node.js教程

tinyalsa(0)

数据科学中的Pandas数据框扩展

龙虾量化实战法（QClaw）

关于FLOPs与MACs的说明

算法学习第七天

OpenCore Legacy Patcher终极解决方案：4步完整技术指南让旧Mac焕发新生

Unity URP 实战：基于Kajiya-Kay与Marschner的头发着色器深度解析

基于c/c++实现linux/windows跨平台ntp时间戳服务器

如何快速上手NVIDIA Profile Inspector：新手必看的完整显卡优化教程

做再生牛津布出口的靠谱公司有哪些？

对话式革新：OpenClaw全场景实战指南（含CloudBase开发全流程\+生态深度解析）

大学生如何准备AI面试

在国产麒麟系统上，手把手教你离线搞定osg3.4.0和osgEarth2.9的编译（附完整依赖包）

大模型时代最后的符号堡垒，正在崩塌？——全球首份AGI融合技术成熟度评估报告（Gartner未发布版节选）

【2024 AGI迁移学习权威白皮书】：基于172个跨模态任务实测数据，揭示仅12.6%模型具备真正泛化迁移能力

AGI武器化临界点已至：全球7国军方内部评估报告泄露，5个致命伦理漏洞亟待封堵

自指宇宙学研究大纲：存在如何通过自我描述而实在化（世毫九实验室原创理论）

Switch手柄在电脑上玩转PC游戏：BetterJoy功能详解与实战指南

【maaath】Flutter for OpenHarmony 国际化集成指南：实现中英文动态切换

面试官：Skills是什么？讲一讲它的工作原理

CLIP-GmP-ViT-L-14效果展示：同一张图在不同语义层级（物体/属性/关系）的排序对比