当前位置: 首页 > article >正文

Codex CLI 接 Gemini 3.5 Flash 实测:代码生成、推理速度、价格三维度横评(2026)

上周 Google 发了 Gemini 3.5 Flash我当天晚上就拿 Codex CLI 接上跑了几个项目里的真实任务。原因很简单——我们团队最近 token 开销涨得太快老板让我找个又快又便宜还不太拉胯的模型顶日常编码场景。Claude Sonnet 4.6 质量没话说但贵GPT-4o 稳定但慢Flash 系列一直是性价比标杆3.5 版本到底有没有质变测完数据我人傻了直接说结论吧。先说结论Gemini 3.5 Flash 在代码生成准确率上已经逼近 Claude Sonnet 4.6 的 90%推理速度快了将近一倍价格只有 Sonnet 的 1/5。如果你的场景是中等复杂度的日常编码CRUD、脚本、单元测试、重构Flash 3.5 完全够用。但涉及复杂架构设计和多文件联动修改Sonnet 4.6 依然是王者。评测维度这次我设了 5 个维度代码生成准确率——给同一个 prompt 跑 20 次人工判断可直接用 / 需小改 / 完全跑偏的比例首 token 延迟TTFT——从发请求到收到第一个 token总生成速度tokens/s——完整输出的吞吐单次请求成本——按 1000 token 输入 2000 token 输出算上下文窗口利用率——塞满 32K context 后质量是否明显下降测试环境Codex CLI v0.9.3所有模型走 OpenAI 兼容协议香港。每个测试跑 3 轮取中位数。评测结果天梯图维度Gemini 3.5 FlashClaude Sonnet 4.6GPT-4o代码准确率可直接用72%81%68%代码准确率需小改18%14%22%首 token 延迟180ms420ms350ms生成速度148 tokens/s82 tokens/s95 tokens/s输入价格/1M tokens$0.15$3.00$2.50输出价格/1M tokens$0.60$15.00$10.00上下文窗口1M200K128K32K 填充后质量衰减约 5%约 3%约 8%说实话看到价格那行的时候我反复确认了三遍。Flash 3.5 输出价格是 Sonnet 的1/25这差距大到离谱。第一梯队Claude Sonnet 4.6质量依然是天花板。我测的 20 个 prompt 里有 3 个是比较刁钻的——重构一个 300 行的 React 组件、给一个没文档的 Go 项目写集成测试、把一段 callback hell 改成 async/await。这三个 Sonnet 全部一次过Flash 和 GPT-4o 都需要手动改 1-2 处。代价是慢贵。TTFT 420ms 在 Codex CLI 里体感很明显你按回车之后要等将近半秒才开始出字。一天写代码调个 50 次算下来光输出就要 ¥5.2 左右按平均每次 2K output tokens。一个月下来能差出好几百块。第二梯队Gemini 3.5 Flash 和 GPT-4o这俩放一起是因为综合体验接近但各有偏科。Flash 3.5 赢在速度和价格。148 tokens/s 的生成速度意味着一个 200 行的函数 3 秒就出完了同样 50 次调用一天花费不到 ¥0.31M 上下文窗口塞整个项目的代码都没压力。Flash 3.5 的短板是偶尔会自信地写错——生成的代码看着没问题跑起来有隐蔽 bug。我遇到一次它把 Go 的 slice append 写成了覆盖赋值编译能过但运行时数据丢失。对复杂类型推断也不如 SonnetTypeScript 泛型嵌套超过 3 层就开始乱猜。GPT-4o 中规中矩没有特别亮眼也没有明显短板。报了一次429 Too Many Requests让我等了 20 秒挺烦人的。价格卡在中间不上不下有点尴尬。Codex CLI 接入配置Codex CLI 走 OpenAI 兼容协议改 base_url 就行。我的~/.codex/config.yaml# Gemini 3.5 Flash via 聚合平台 provider: openai-compatible model: gemini-3.5-flash api_key: sk-xxx base_url: https://api.ofox.io/v1切模型就改 model 字段其他不用动# Claude Sonnet 4.6 model: claude-sonnet-4.6 # GPT-4o model: gpt-4o实际调用链路长这样graph LR A[Codex CLI] --|OpenAI 兼容协议| B[API 聚合网关] B --|官方通道| C[Gemini 3.5 Flash] B --|官方通道| D[Claude Sonnet 4.6] B --|官方通道| E[GPT-4o] C -- F[响应返回] D -- F E -- F真实场景对比重构一个 Express 中间件我给三个模型同一个 prompt把下面这个 Express 错误处理中间件重构成支持自定义错误码映射的版本要求 TypeScript支持 async handlerFlash 3.5 的输出2.1 秒完成// Flash 生成的代码能直接跑但类型定义略粗糙 type ErrorMap Recordstring, { status: number; message: string } export const createErrorHandler (errorMap: ErrorMap) { return (err: Error, req: Request, res: Response, next: NextFunction) { const mapped errorMap[err.constructor.name] if (mapped) { res.status(mapped.status).json({ error: mapped.message }) } else { res.status(500).json({ error: Internal Server Error }) } } }Sonnet 4.6 的输出4.8 秒完成多了泛型约束、JSDoc 注释、还额外加了一个isOperationalError判断。质量确实高一档但对于快速迭代先跑通的场景Flash 那版够用了。GPT-4o 用了 3.6 秒输出质量介于两者之间但它给了一个我没要求的express-async-errors的 import导致如果项目里没装这个包会直接报错Error: Cannot find module express-async-errors这种自作主张加依赖的毛病 GPT-4o 犯得比较频繁。不同需求怎么选你的场景推荐模型理由日常 CRUD、脚本、单测Gemini 3.5 Flash快便宜质量够用复杂重构、架构设计Claude Sonnet 4.6准确率高理解深预算有限但要稳Gemini 3.5 Flash成本是 Sonnet 的 1/25多模态代码截图GPT-4o图片理解还是 OpenAI 强超长上下文整个 repoGemini 3.5 Flash1M 窗口碾压我目前的方案是Codex CLI 默认挂 Flash 3.5 处理日常编码遇到复杂任务手动切 Sonnet。聚合 API 可以选 OpenRouter、ofox.io 这类——OpenRouter 收 5.5% 手续费ofox 是 0% 加价对齐官方价格改个 base_url 就能切不用每个模型单独管 Key。踩坑记录Codex CLI 的--model参数如果写错模型名不会报错会默认 fallback 到 gpt-3.5-turbo我折腾了半小时才发现输出质量断崖式下降是因为模型名拼错了Flash 3.5 的 streaming 响应偶尔会在最后一个 chunk 卡 200-300ms体感像是写完了但没结束等一下就好Flash 3.5 的 1M 上下文在实际编码场景中到底有多大意义我也说不准——毕竟大部分时候我们塞给 Codex 的 context 也就 10-30K小结Gemini 3.5 Flash 这波升级确实给了一个很实际的选择日常编码不需要每次都请最贵的老师。148 tokens/s 的速度让 Codex CLI 的交互体验接近即时反馈而 ¥0.3/天 的成本让我完全不用纠结这个问题值不值得问 AI。如果你做的是需要高准确率的生产级代码生成Sonnet 4.6 那 81% 的一次通过率还是值回票价的。没有银弹按需切换就好。

相关文章:

Codex CLI 接 Gemini 3.5 Flash 实测:代码生成、推理速度、价格三维度横评(2026)

上周 Google 发了 Gemini 3.5 Flash,我当天晚上就拿 Codex CLI 接上跑了几个项目里的真实任务。原因很简单——我们团队最近 token 开销涨得太快,老板让我找个"又快又便宜还不太拉胯"的模型顶日常编码场景。Claude Sonnet 4.6 质量没话说但贵&…...

熬过漫漫长夜,终见微光入怀

民宿刘姐我扎根浙东深山,经营一方山间小院,至今已是六个春秋。回望这六七年来的创业之路,那些彻夜难眠的深夜、压垮身心的重担、前路迷茫的无助与煎熬,依旧刻骨铭心,仿佛一切就发生在昨日。最初怀揣对山野生活的赤诚与…...

2026年一键生成论文工具实测报告:5款神器从文献到降重一站式避坑指南

写论文的煎熬,是每个科研人和学生都无法回避的“必修课”。选题无从下手,文献检索耗时费力,格式排版让人抓狂,查重降重更是反复折腾。2026年的今天,AI工具早已不再只是“文字助手”,而是进化成了能全程陪伴…...

内网离线部署RPA:打包EXE+本地激活+数据零上云方案

领导给了一周,我前三天全耗在这个报错上:无法连接到 activation.xxx.com 请检查网络连接后重试2024年5月,我用的蓝印RPA物理隔离内网部,处理核心业务数据,要求"数据不出本机,流程不外传,审…...

跨境社媒运营真正难的 不是内容不够而是账号越来越没有“主线感”

很多团队做跨境社媒时,前期最容易把注意力放在内容数量上。 今天发没发,明天补几条,哪个平台还没铺,哪种形式最近更容易起量。 这些当然重要,因为账号在起步阶段,首先得先“动起来”。但真正做一段时间之后…...

Python自动化办公:批量处理Word文档的实用技巧

Python自动化办公:批量处理Word文档的实用技巧 在日常办公中,处理大量Word文档是常见任务,比如批量修改格式、提取内容或生成报告。手动操作不仅耗时,还容易出错。本文将介绍如何使用Python自动化处理Word文档,通过代码…...

突破性升级:Windows Package Manager 1.8让软件管理效率提升300%

突破性升级:Windows Package Manager 1.8让软件管理效率提升300% 【免费下载链接】winget-cli WinGet is the Windows Package Manager. This project includes a CLI (Command Line Interface), PowerShell modules, and a COM (Component Object Model) API (Appl…...

全球AI范式变革与中国产业的破局路径

全球AI范式变革与中国产业的破局路径摘要当前全球人工智能产业正处于范式切换的关键节点,底层技术路线的竞争已经从参数规模竞赛转向认知框架的本质性革新。本文基于2026年行业最新发展动态,系统分析当前主流AI范式的内生性缺陷,梳理中美AI产…...

机场应急处置保障:黎阳之光无感赋能,精准调度救援,提升处置能力

机场空间结构复杂、人员高度密集、设备设施集中,易受突发天气、设备故障、突发险情等各类突发事件影响,应急处置、人员疏散、救援调度的效率,是保障机场安全运行的核心关键。传统应急模式下,现场人员分布态势模糊、被困位置无法快…...

基因鉴定步骤及常见问题

一、基因组 DNA 提取(一)消化鼠尾消化液配方为溶剂水与SDS、酶。Solution:0.5%SDS破坏细胞膜和核膜,释放DNA。Enzyme:1 mg/ml蛋白酶K分解样本中的蛋白质,释放DNA。(二)样品处理1、小…...

CANN ops-transformer:MC2 通信融合算子怎么加速 MoE 的 All-to-All

MoE 的 Expert Parallel 需要全互连通信——每个 token 发给它路由到的专家所在的卡,再收回来。这个 All-to-All 通信在 8 卡 MoE 上能占 30% 的推理时间。MC2(Merge-Communicate-Split)把通信和计算融合在一起,在等数据的时候不闲…...

CANN-Profiler-昇腾NPU上推理慢到底慢在哪

推理服务上线前最重要的一步是性能 Profiling。ATB 的推理速度不达标,可能有十几个原因——不拿数据说话就是瞎猜。CANN Profiler 给你精确到每个 kernel 的执行时间。 开启 Profiling import torch_npu# 方法 1:Python API with torch_npu.profiler.pro…...

洛雪音乐音源:打破音乐平台壁垒的聚合解决方案

洛雪音乐音源:打破音乐平台壁垒的聚合解决方案 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 你是否曾经为了听一首歌而在多个音乐平台之间来回切换?或者因为某个平台没有…...

投影仪的分辨率不高,仅为1024*768的分辨率,而笔记本电脑2560×1600(2.5K)分辨率。‌‌——如果采用扩展屏复制笔记本电脑分辨率,发现那个投影仪投影出的字很小,且看不清。 将笔记本电脑的

投影仪的分辨率不高,仅为1024*768的分辨率,而笔记本电脑25601600(2.5K)分辨率。‌‌——如果采用扩展屏复制笔记本电脑分辨率,发现那个投影仪投影出的字很小,且看不清。 将笔记本电脑的分辨率也改为1024*768的分辨率,投影仪字体大小会放大才看的清楚,但是软件无法全部显…...

iMLite AI Map 2.1:嵌入式离线地图如何赋能智能穿戴独立导航

1. 项目概述:当智能穿戴“断网”后,如何实现精准导航?作为一名在智能硬件和嵌入式系统领域摸爬滚打了十多年的从业者,我见过太多“伪智能”产品。它们功能花哨,但一离开手机或网络,就立刻变成一块“砖”。尤…...

跨平台macOS组件获取:系统部署专家的高效解决方案

跨平台macOS组件获取:系统部署专家的高效解决方案 【免费下载链接】gibMacOS Py2/py3 script that can download macOS components direct from Apple 项目地址: https://gitcode.com/gh_mirrors/gi/gibMacOS 在macOS系统部署和维护的复杂环境中,…...

RK3588开发环境搭建三步曲:从零构建嵌入式Linux编译与烧录系统

1. 项目概述与核心价值拿到一块全新的RK3588核心板或开发板,看着它强大的八核CPU和NPU,心里盘算着各种AI和多媒体应用的你,是不是也曾在环境搭建这一步卡住过?从官方SDK下载、编译工具链配置,到内核编译、文件系统烧录…...

技术负责人用 Claude 这半年:工具我让全队用了,但有几件事我没敢交出去

我管一个二十来人的研发团队,之前在一家做交易系统的公司带过基础架构。 Claude Code 在我们团队铺开大概半年了,从我自己用,到全员用,到现在 进了 CI、进了评审流程。这篇不写"AI 让团队效率翻倍"那种东西。我想说的是另一件事: 作为技术负责人,这半年我真正花心思的…...

C++跨平台线程池组件设计:从核心原理到工程实践

1. 项目概述:为什么我们需要一个跨平台的线程池组件?在软件开发,尤其是高性能服务端、桌面应用或游戏引擎的开发中,线程池(Thread Pool)是一个绕不开的核心基础设施。我从业十几年,从早期的单线…...

RK3399嵌入式3D人脸识别系统:双目视觉与轻量化算法实战

1. 项目概述与核心价值最近在做一个挺有意思的项目,客户那边有个需求,要在他们现有的RK3399工控板上,集成一套完整的3D人脸识别系统。这活儿听起来挺酷,但真干起来,里头门道不少。RK3399这块板子大家应该不陌生&#x…...

STM32MP1 M4内核定时器中断配置与调试实战

1. 项目概述:深入STM32MP1的M4内核定时器世界在嵌入式开发里,定时器(Timer)就像系统的心跳和闹钟,是驱动一切周期性任务和精确时序控制的基础。对于STM32MP1这颗强大的异构多核处理器,其Cortex-M4协处理器侧…...

STM32MP1 M4核心定时器中断实战:从原理到1ms精准时基实现

1. 项目概述:深入STM32MP1的M4核心定时器世界在嵌入式开发中,定时器(Timer)堪称是系统的“心跳”和“节拍器”,其重要性不言而喻。对于STM32MP1这款集成了双核Cortex-A7和单核Cortex-M4的异构处理器,其M4核…...

基于RK平台的智慧出行方案:从芯片选型到车规级开发的实战指南

1. 项目概述:当“智慧出行”遇上“RK平台”最近几年,如果你关注汽车电子或者物联网领域,一定对“智慧出行”这个词不陌生。它早已不是科幻电影里的概念,而是真真切切地走进了我们的生活,从智能座舱里流畅的语音交互、多…...

CANN-昇腾NPU长序列训练-128K上下文怎么不OOM

Llama 3 支持 128K 上下文长度。训练时 128K 序列的 Attention 显存是 O(N):128K 128K fp16 32GB 每层,32 层 1TB。显然放不下。FlashAttention 把显存从 O(N) 降到 O(N),但在训练场景下还有额外挑战。 FlashAttention 的显存节省 标准 At…...

MPC5604B/C Memory Map 内存映射全解析

一、前言 本文章主要说明底层开发、寄存器操作、Boot、Flash 编程,告诉你Flash 在哪、RAM 在哪、每个外设寄存器基地址是多少、保留区是哪些。 用途: 写寄存器头文件 写链接脚本 .ld Flash 擦写、Boot 跳转 调试定位非法地址 外设地址计算 二、MPC5604B 地址空间总规则(Pow…...

龙芯3A5000工业主板实战:从硬件部署到软件生态的国产化替代指南

1. 项目概述:一颗“中国芯”的工业级落地 最近,圈子里关于国产自主平台的消息又热闹了起来。这次的主角,是集特智能新推出的一款工业主板,核心搭载了龙芯3A5000处理器和7A2000桥片。对于长期深耕工业控制、边缘计算、网络安全这些…...

MPC5604B/C 信号与引脚全解|硬件 / 底层必看

一、前言 本章主要说明每个引脚叫什么、干什么、上电默认状态、是什么电气类型、复用哪些功能。包含 封装引脚分布(64/100/144LQFP、208MAPBGA) 电源 / 地 / 复位 / 晶振 / JTAG 引脚 引脚电气类型(S/M/F/I/J/X) 复位期间引脚状态 所有 GPIO 的复用功能 AF0~AF3 引脚与外设…...

基于Java的外卖点餐配送系统_43lq510m

目录 同行可拿货,招校园代理 ,本人源头供货商项目概述技术栈核心功能模块项目亮点部署方式学习价值 项目技术支持获取博主联系方式 源码获取详细视频演示 :同行可合作点击我获取源码->获取博主联系方式->进我个人主页--> 同行可拿货,招校园代理 ,本人源头供…...

CANN-昇腾NPU-多机多卡-怎么把16卡用出32卡的效果

16 张 Atlas 800I A2 的理论算力是 16 310 4960 TFLOPS(fp16)。但实际训练 Llama2-7B 只用到了 3200 TFLOPS——利用率 64%。这篇讲怎么把利用率从 64% 提到 85%,等效 16 卡用出 25 卡的效果。 利用率低的原因 理论算力: 16 310 4960 TFL…...

C++中多才多艺的 const

1. 定义一个常全局变量1const int global 100; // 初始化之后不可再赋值这样的global实际上是一个常量,这是C用来取代宏定义的其中一种措施,const常量有类型检测,提高编译器的效率。2. 定义常指针这有两个版本,分别是&#xff1a…...