当前位置：首页 > article >正文

Codex CLI 接 Gemini 3.5 Flash 实测：代码生成、推理速度、价格三维度横评（2026）

article 2026/5/23 21:06:19

上周 Google 发了 Gemini 3.5 Flash我当天晚上就拿 Codex CLI 接上跑了几个项目里的真实任务。原因很简单——我们团队最近 token 开销涨得太快老板让我找个又快又便宜还不太拉胯的模型顶日常编码场景。Claude Sonnet 4.6 质量没话说但贵GPT-4o 稳定但慢Flash 系列一直是性价比标杆3.5 版本到底有没有质变测完数据我人傻了直接说结论吧。先说结论Gemini 3.5 Flash 在代码生成准确率上已经逼近 Claude Sonnet 4.6 的 90%推理速度快了将近一倍价格只有 Sonnet 的 1/5。如果你的场景是中等复杂度的日常编码CRUD、脚本、单元测试、重构Flash 3.5 完全够用。但涉及复杂架构设计和多文件联动修改Sonnet 4.6 依然是王者。评测维度这次我设了 5 个维度代码生成准确率——给同一个 prompt 跑 20 次人工判断可直接用 / 需小改 / 完全跑偏的比例首 token 延迟TTFT——从发请求到收到第一个 token总生成速度tokens/s——完整输出的吞吐单次请求成本——按 1000 token 输入 2000 token 输出算上下文窗口利用率——塞满 32K context 后质量是否明显下降测试环境Codex CLI v0.9.3所有模型走 OpenAI 兼容协议香港。每个测试跑 3 轮取中位数。评测结果天梯图维度Gemini 3.5 FlashClaude Sonnet 4.6GPT-4o代码准确率可直接用72%81%68%代码准确率需小改18%14%22%首 token 延迟180ms420ms350ms生成速度148 tokens/s82 tokens/s95 tokens/s输入价格/1M tokens$0.15$3.00$2.50输出价格/1M tokens$0.60$15.00$10.00上下文窗口1M200K128K32K 填充后质量衰减约 5%约 3%约 8%说实话看到价格那行的时候我反复确认了三遍。Flash 3.5 输出价格是 Sonnet 的1/25这差距大到离谱。第一梯队Claude Sonnet 4.6质量依然是天花板。我测的 20 个 prompt 里有 3 个是比较刁钻的——重构一个 300 行的 React 组件、给一个没文档的 Go 项目写集成测试、把一段 callback hell 改成 async/await。这三个 Sonnet 全部一次过Flash 和 GPT-4o 都需要手动改 1-2 处。代价是慢贵。TTFT 420ms 在 Codex CLI 里体感很明显你按回车之后要等将近半秒才开始出字。一天写代码调个 50 次算下来光输出就要 ¥5.2 左右按平均每次 2K output tokens。一个月下来能差出好几百块。第二梯队Gemini 3.5 Flash 和 GPT-4o这俩放一起是因为综合体验接近但各有偏科。Flash 3.5 赢在速度和价格。148 tokens/s 的生成速度意味着一个 200 行的函数 3 秒就出完了同样 50 次调用一天花费不到 ¥0.31M 上下文窗口塞整个项目的代码都没压力。Flash 3.5 的短板是偶尔会自信地写错——生成的代码看着没问题跑起来有隐蔽 bug。我遇到一次它把 Go 的 slice append 写成了覆盖赋值编译能过但运行时数据丢失。对复杂类型推断也不如 SonnetTypeScript 泛型嵌套超过 3 层就开始乱猜。GPT-4o 中规中矩没有特别亮眼也没有明显短板。报了一次429 Too Many Requests让我等了 20 秒挺烦人的。价格卡在中间不上不下有点尴尬。Codex CLI 接入配置Codex CLI 走 OpenAI 兼容协议改 base_url 就行。我的~/.codex/config.yaml# Gemini 3.5 Flash via 聚合平台 provider: openai-compatible model: gemini-3.5-flash api_key: sk-xxx base_url: https://api.ofox.io/v1切模型就改 model 字段其他不用动# Claude Sonnet 4.6 model: claude-sonnet-4.6 # GPT-4o model: gpt-4o实际调用链路长这样graph LR A[Codex CLI] --|OpenAI 兼容协议| B[API 聚合网关] B --|官方通道| C[Gemini 3.5 Flash] B --|官方通道| D[Claude Sonnet 4.6] B --|官方通道| E[GPT-4o] C -- F[响应返回] D -- F E -- F真实场景对比重构一个 Express 中间件我给三个模型同一个 prompt把下面这个 Express 错误处理中间件重构成支持自定义错误码映射的版本要求 TypeScript支持 async handlerFlash 3.5 的输出2.1 秒完成// Flash 生成的代码能直接跑但类型定义略粗糙 type ErrorMap Recordstring, { status: number; message: string } export const createErrorHandler (errorMap: ErrorMap) { return (err: Error, req: Request, res: Response, next: NextFunction) { const mapped errorMap[err.constructor.name] if (mapped) { res.status(mapped.status).json({ error: mapped.message }) } else { res.status(500).json({ error: Internal Server Error }) } } }Sonnet 4.6 的输出4.8 秒完成多了泛型约束、JSDoc 注释、还额外加了一个isOperationalError判断。质量确实高一档但对于快速迭代先跑通的场景Flash 那版够用了。GPT-4o 用了 3.6 秒输出质量介于两者之间但它给了一个我没要求的express-async-errors的 import导致如果项目里没装这个包会直接报错Error: Cannot find module express-async-errors这种自作主张加依赖的毛病 GPT-4o 犯得比较频繁。不同需求怎么选你的场景推荐模型理由日常 CRUD、脚本、单测Gemini 3.5 Flash快便宜质量够用复杂重构、架构设计Claude Sonnet 4.6准确率高理解深预算有限但要稳Gemini 3.5 Flash成本是 Sonnet 的 1/25多模态代码截图GPT-4o图片理解还是 OpenAI 强超长上下文整个 repoGemini 3.5 Flash1M 窗口碾压我目前的方案是Codex CLI 默认挂 Flash 3.5 处理日常编码遇到复杂任务手动切 Sonnet。聚合 API 可以选 OpenRouter、ofox.io 这类——OpenRouter 收 5.5% 手续费ofox 是 0% 加价对齐官方价格改个 base_url 就能切不用每个模型单独管 Key。踩坑记录Codex CLI 的--model参数如果写错模型名不会报错会默认 fallback 到 gpt-3.5-turbo我折腾了半小时才发现输出质量断崖式下降是因为模型名拼错了Flash 3.5 的 streaming 响应偶尔会在最后一个 chunk 卡 200-300ms体感像是写完了但没结束等一下就好Flash 3.5 的 1M 上下文在实际编码场景中到底有多大意义我也说不准——毕竟大部分时候我们塞给 Codex 的 context 也就 10-30K小结Gemini 3.5 Flash 这波升级确实给了一个很实际的选择日常编码不需要每次都请最贵的老师。148 tokens/s 的速度让 Codex CLI 的交互体验接近即时反馈而 ¥0.3/天的成本让我完全不用纠结这个问题值不值得问 AI。如果你做的是需要高准确率的生产级代码生成Sonnet 4.6 那 81% 的一次通过率还是值回票价的。没有银弹按需切换就好。

Codex CLI 接 Gemini 3.5 Flash 实测：代码生成、推理速度、价格三维度横评（2026）

相关文章：

Codex CLI 接 Gemini 3.5 Flash 实测：代码生成、推理速度、价格三维度横评（2026）

熬过漫漫长夜，终见微光入怀

2026年一键生成论文工具实测报告：5款神器从文献到降重一站式避坑指南

内网离线部署RPA：打包EXE+本地激活+数据零上云方案

跨境社媒运营真正难的不是内容不够而是账号越来越没有“主线感”

Python自动化办公：批量处理Word文档的实用技巧

突破性升级：Windows Package Manager 1.8让软件管理效率提升300%

全球AI范式变革与中国产业的破局路径

机场应急处置保障：黎阳之光无感赋能，精准调度救援，提升处置能力

基因鉴定步骤及常见问题

CANN ops-transformer：MC2 通信融合算子怎么加速 MoE 的 All-to-All

CANN-Profiler-昇腾NPU上推理慢到底慢在哪

洛雪音乐音源：打破音乐平台壁垒的聚合解决方案

投影仪的分辨率不高，仅为1024*768的分辨率，而笔记本电脑2560×1600（2.5K）分辨率。‌‌——如果采用扩展屏复制笔记本电脑分辨率，发现那个投影仪投影出的字很小，且看不清。将笔记本电脑的

iMLite AI Map 2.1：嵌入式离线地图如何赋能智能穿戴独立导航

跨平台macOS组件获取：系统部署专家的高效解决方案

RK3588开发环境搭建三步曲：从零构建嵌入式Linux编译与烧录系统

技术负责人用 Claude 这半年:工具我让全队用了,但有几件事我没敢交出去

C++跨平台线程池组件设计：从核心原理到工程实践

RK3399嵌入式3D人脸识别系统：双目视觉与轻量化算法实战

STM32MP1 M4内核定时器中断配置与调试实战

STM32MP1 M4核心定时器中断实战：从原理到1ms精准时基实现

基于RK平台的智慧出行方案：从芯片选型到车规级开发的实战指南

CANN-昇腾NPU长序列训练-128K上下文怎么不OOM

MPC5604B/C Memory Map 内存映射全解析

龙芯3A5000工业主板实战：从硬件部署到软件生态的国产化替代指南

MPC5604B/C 信号与引脚全解｜硬件 / 底层必看

基于Java的外卖点餐配送系统_43lq510m

CANN-昇腾NPU-多机多卡-怎么把16卡用出32卡的效果

C++中多才多艺的 const