当前位置: 首页 > article >正文

技术速递|GitHub Copilot CLI 结合多模型能力提供“第二视角”

作者Nick McKenna Bartek Perz排版Alan Wang了解 Rubber Duck 如何为 GitHub Copilot CLI 带来不同的思路与视角。当你让一个编码智能体构建数据管道时它未必会采用最优结构。但如果在执行方案之前让它先获得“第二视角”呢今天在 GitHub Copilot CLI 中我们以实验模式引入Rubber Duck。它利用来自不同 AI 模型家族的第二个模型作为独立评审者在关键时刻对智能体的计划与执行进行评估与反馈。为了捕捉不同类型的错误引入不同视角至关重要。我们的评估显示Claude Sonnet Rubber Duck 能弥补 Sonnet 与 Opus 之间 74.7% 的性能差距在处理复杂的多文件、长流程任务时表现更佳。你可以通过在 Copilot CLI 中使用/experimental来启用 Rubber Duck 及其他实验特性。问题自信的错误会被不断放大当前的编码智能体通常遵循一个清晰的循环分析任务 → 制定计划 → 实现 → 测试 → 迭代。这一流程强大且高效但也存在盲点。早期尤其是规划阶段的决策会成为后续所有工作的基础。一旦存在假设偏差或效率问题就会逐步演变为依赖等你发现时往往已经不只是修复一个小错误那么简单。运用自我反思机制让智能体在推进任务前先审视自身的输出内容是一种经过验证的有效方法。然而模型对自身工作成果进行审核时仍会受限于其自身的训练偏差相同的数据来源、相同的训练方法也意味着相同的盲点仍然存在。Rubber Duck引入第二种视角Rubber Duck 是一个专注于评审的智能体由与你当前 Copilot 会话“互补”的模型驱动。例如当你选择 Claude 作为主调度模型时Rubber Duck 会使用 GPT-5.4。在我们对 Rubber Duck 进行试验的同时也在为编排器和 Rubber Duck 本身探索其他模型系列。Rubber Duck 的职责是核查主智能体的工作并输出一份简短且高价值的问题清单包括主智能体可能忽略的细节值得质疑的假设需要考虑的边界情况何时跨模型评审最有效我们在开源代码库中选取了规模庞大、难度较高且源自真实场景的编程问题构建了 SWE-Bench Pro 基准测试集并基于该数据集对 Rubber Duck 进行了评估。结果如下Claude Sonnet 4.6 搭配运行 GPT-5.4 的 Rubber Duck其解决率接近单独运行的 Claude Opus 4.6填补了 Sonnet 与 Opus 之间 74.7% 的性能差距。我们发现Rubber Duck 在处理复杂难题时助力更为显著这类问题涉及 3 个以上文件通常需要 70 个以上步骤才能解决。在这类问题上Sonnet 搭配 Rubber Duck 的表现比 Sonnet 基准模型高出 3.8%而在三次测试中筛选出的最难问题上这一优势提升至 4.8%。以下是 Rubber Duck 所发现问题的几个示例架构问题OpenLibrary / 异步调度器Rubber Duck 发现所设计的调度器在启动后会立即退出导致没有任何任务被执行即便修复该问题其中一个被调度的任务本身也是一个无限循环。**单行代码引发的严重漏洞OpenLibrary / Solr**Rubber Duck 发现一个循环在每次迭代时都会悄无声息地覆盖同一个dict键导致四个 Solr 分面类别中有三个在每次搜索查询中被丢弃且没有任何错误提示。跨文件冲突NodeBB / 邮件确认Rubber Duck 发现有三个文件都在读取同一个 Redis 键而新代码已经不再向该键写入数据导致确认界面和清理流程在部署后会悄然失效。Rubber Duck 何时触发GitHub Copilot 可以自动调用 Rubber Duck既可以主动触发也可以在需要时被动触发同时用户也可以在任意时刻手动发起评审让其对结果进行检查和优化。对于复杂任务GitHub Copilot 通常会在“反馈价值最高”的关键节点自动请求评审制定计划之后这是最关键的阶段因为尽早发现不合理的决策可以避免后续错误不断放大完成复杂实现之后此时通过“第二双眼睛”审查复杂代码有助于发现边界情况问题编写测试之后、执行测试之前可以提前发现测试覆盖不足或断言错误避免误以为“一切正常”当智能体陷入循环或无法继续推进时也会被动触发评审通过咨询 Rubber Duck 来打破僵局。作为用户你可以在任何时候请求评审。Copilot 会调用 Rubber Duck对反馈进行分析并清晰展示修改内容及其原因。在设计上我们刻意让 Rubber Duck 低频但高价值地介入只在最关键的时刻提供帮助而不会打断整体工作流。对于技术细节感兴趣的用户Rubber Duck 是通过 Copilot 现有的任务工具机制调用的与其他子智能体使用相同的基础设施。目前Rubber Duck 已支持在模型选择器中作为“主调度模型”的所有 Claude 系列模型Opus、Sonnet 和 Haiku。同时我们也在探索更多模型组合例如让 GPT-5.4 作为主模型时的搭配方案。开始使用Rubber Duck 现已以实验模式提供。要开始使用只需安装 GitHub Copilot CLI并运行/experimental命令。当你在模型选择器中选择任意 Claude 模型并且已开通 GPT-5.4 权限时即可使用 Rubber Duck。你将通过两种方式看到评审结果自动触发当 Copilot 判断某个关键节点需要“第二视角”时例如在制定计划后、完成复杂实现后或编写测试后按需触发在任何时候你都可以让 Copilot 对其工作进行评审它会调用 Rubber Duck整合反馈并清晰展示具体改动内容Rubber Duck 最适合的使用场景复杂重构与架构调整高风险任务错误代价较高确保测试覆盖的完整性在执行方案前获取“第二意见”GitHub Copilot CLI 中的 Rubber Duck 现已开放实验模式欢迎在社区讨论中分享你的使用反馈。

相关文章:

技术速递|GitHub Copilot CLI 结合多模型能力提供“第二视角”

作者:Nick McKenna & Bartek Perz 排版:Alan Wang 了解 Rubber Duck 如何为 GitHub Copilot CLI 带来不同的思路与视角。 当你让一个编码智能体构建数据管道时,它未必会采用最优结构。但如果在执行方案之前,让它先获得“第二视…...

【一文搞懂本地模型调用-AI知识点】

还在傻傻分不清?一文带你彻底搞懂“本地调用”与“调用本地API” 摘要 本地调用大模型是“自己在家做饭”的战略选择,而调用本地API是“通过传菜口点菜”的具体方法。本文通过生动的比喻、实战代码及与云端API的深度对比,帮你彻底分清这两个易混概念,并解析了为何“本地化…...

用Python脚本解放双手:Epson V370扫描仪批量处理老照片实战

Python自动化扫描:Epson V370老照片数字化全攻略 每次翻看泛黄的老照片时,你是否想过把这些珍贵的记忆永久保存下来?但面对堆积如山的相册,手动一张张扫描又让人望而却步。作为一名经历过这个痛苦过程的开发者,我想分享…...

FSA-Net轻量化实战:在Android端实现实时头部姿态估计

1. 为什么要在Android端实现头部姿态估计? 想象一下这样的场景:你正在用手机视频通话,当你转头时,屏幕上的虚拟形象也能同步转动头部;或者玩AR游戏时,游戏角色能实时模仿你的表情和头部动作。这些酷炫功能的…...

如何在 Go 中安全高效地比较两个 map 的对应值

本文介绍如何遍历 map[string]float64 并基于共享键安全比较两 map 中的浮点数值(如 m1[k]/m2[k] > 1),重点解决零值访问、键缺失和除零风险等常见陷阱。 本文介绍如何遍历 map[string]float64 并基于共享键安全比较两 map 中的浮点数…...

如何在 WooCommerce 后台按订单总金额精准筛选订单

本文详解如何在 WooCommerce 管理后台为「订单列表」添加基于固定价格(如 $0、$18、$36)的下拉筛选器,通过正确挂钩 restrict_manage_posts 和 request 钩子,并使用 _order_total 元字段进行精确匹配,实现高效、稳定的…...

C#怎么操作Redis缓存 C#如何用StackExchange.Redis连接和操作Redis数据【数据库】

StackExchange.Redis连接字符串错误会导致线程阻塞5秒而非报错,需设connectTimeout/syncTimeout、用ConnectAsync()、全局单例ConnectionMultiplexer、正确判断RedisValue.IsNull、批量操作用MGET、复杂逻辑用Lua、Cluster下禁用SELECT。StackExchange.Redis 连接字…...

CSS移动端实现自适应图片比例_设置height auto保证等比缩放

Max-Age 优先级高于 Expires,覆盖其设置;Expires 依赖客户端时间且需 GMT 格式,省略则为会话 Cookie;Max-Age 以秒为单位、不依赖本地时间,值为 0 或负数时立即删除。Cookie 的生命周期由 Expires 和 Max-Age 两个属性…...

立体仓库组态王6.55与三菱OPC仿真程序:带IO表接线图CAD与OPC操作步骤视频详解

3行3列9仓位立体仓库组态王6.55和三菱OPC仿真带io表接线图cad,带OPC操作步骤视频最近在折腾一个3x3立体仓库的仿真项目,用的是组态王6.55和三菱FX系列的OPC通讯。这玩意儿看着简单,真动起手来光通讯联调就够喝一壶的。先说仓库布局&#xff0…...

mysql数据库表名区分大小写问题_调整lower_case_table_names

MySQL表名大小写敏感由lower_case_table_names变量决定,Linux默认0(区分),macOS/Windows默认1(不区分);该值启动时读取且不可动态修改,改为1需重命名文件、清理元数据并重启。MySQL …...

AGI不是更大参数的大模型:3个被主流忽略的底层范式差异,决定你是否还在伪智能赛道

第一章:AGI与当前大模型的本质区别 2026奇点智能技术大会(https://ml-summit.org) 当前主流大语言模型(LLM)如GPT-4、Claude 3或Qwen2,本质上是高度优化的统计模式匹配系统——它们在海量文本上通过自回归预测实现“表观智能”&a…...

python skopeo

# 聊聊Python Skopeo:容器镜像搬运工的另一面 如果你在容器技术领域工作过一段时间,大概率听说过Skopeo这个工具。它是个命令行工具,专门用来操作容器镜像和镜像仓库。但今天要聊的不是那个命令行工具,而是Python Skopeo——一个用…...

Spring Boot 自动配置机制剖析

Spring Boot 自动配置机制剖析 Spring Boot凭借其"约定优于配置"的理念,极大简化了Spring应用的开发流程,而其核心能力之一便是自动配置机制。这一机制通过智能推断和预置规则,减少了开发者手动编写样板配置的工作量。本文将深入剖…...

python buildah

# 聊聊Python和Podman那点事儿 最近几年容器技术火得不行,Docker几乎成了标配。但如果你在Python开发圈子里待得够久,可能会注意到另一个名字开始频繁出现——Podman。这东西到底是个什么来头,和咱们Python开发又有什么关系?今天就…...

Elasticsearch 极速查询:通过ID精准检索文档(最全语法+流程图+避坑指南)

Elasticsearch 极速查询:通过ID精准检索文档(最全语法流程图避坑指南)一、前言二、根据ID检索文档:核心原理与流程图2.1 核心原理2.2 检索流程图2.3 核心优势三、根据ID检索文档:标准语法(必掌握&#xff0…...

链动1+1模式系统 - 土土哥

链动11模式是一种基于社交裂变的营销模式,通过用户推荐用户的方式实现快速推广。该模式的核心在于用户通过推荐新用户加入,从而获得相应的奖励或收益。以下是开发链动11模式系统的关键要点:系统功能模块设计用户管理模块:包括用户…...

【AGI测试验证黄金法则】:20年AI系统工程师首曝7大不可绕过的验证陷阱

第一章:AGI测试验证的范式革命 2026奇点智能技术大会(https://ml-summit.org) 传统AI系统测试依赖静态数据集、预设指标与确定性边界,而AGI具备跨域泛化、自主目标建模与持续元认知能力,使黑盒评估、对抗扰动鲁棒性测试和价值对齐验证面临根…...

为什么92%的AGI项目卡在SITS2026 Stage 3?:揭秘跨模态世界模型中隐式信念漂移的3种数学表征

第一章:SITS2026深度解析:AGI的关键技术挑战 2026奇点智能技术大会(https://ml-summit.org) SITS2026作为全球首个聚焦通用人工智能(AGI)工程化落地的旗舰级技术峰会,其核心议程《SITS2026 AGI Stack白皮书》系统性揭…...

KICS:把每把锁变成一行代码——每一个文明角色疑虑拆弹方案

KICS:把每把锁变成一行代码——每一个文明角色疑虑拆弹方案摘要: 政客怕主权沦丧、标准被武器化,KICS 以地理分布式节点、主权规则适配层、非对称共识及紧急熔断机制回应;资本怕没有护城河与需求缺失,KICS 锁定 AI 保险…...

KICS 认知公尺:一把无法拒绝的公尺与人类规则意志的复活

KICS 认知公尺:一把无法拒绝的公尺与人类规则意志的复活摘要: 面对 AI 幻觉泛滥与全球监管真空,KICS 以四封密函向权力心脏精准喊话——给政客监管抓手以填补主权真空,给资本万亿美元基础设施以锚定未来关税区,给学界规…...

3分钟搞定B站缓存视频转换:m4s转MP4完整教程

3分钟搞定B站缓存视频转换:m4s转MP4完整教程 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站视频下架而心痛&#xff1…...

【行业首份智能编码故障白皮书】:基于178万行AI生成代码的故障热力图与根因诊断模型

第一章:智能代码生成代码故障诊断 2026奇点智能技术大会(https://ml-summit.org) 现代智能代码生成系统(如Copilot、CodeWhisperer、Tabnine)在提升开发效率的同时,也引入了新型故障模式:语义正确但逻辑错误、上下文…...

代码冲突率飙升47%?从LLM生成逻辑到Git三路合并,一文讲透智能编码时代的冲突根因与防御体系

第一章:代码冲突率飙升47%?从LLM生成逻辑到Git三路合并,一文讲透智能编码时代的冲突根因与防御体系 2026奇点智能技术大会(https://ml-summit.org) LLM生成代码的“语义相似性陷阱” 大型语言模型在补全函数或重构模块时,常基于…...

模拟社会:在虚拟环境中训练AI Agent

模拟社会:在虚拟环境中训练AI Agent 关键词:多智能体强化学习(MARL)、社会模拟引擎、认知架构涌现、通用人工智能(AGI)预训练、社会契约理论AI化、零样本社会能力迁移、仿真伦理对齐 摘要 从AlphaGo在棋盘上的单一博弈胜利,到GPT系列在语言符号上的通用能力涌现,人工…...

3步重塑工作流:用douyin-downloader开启抖音素材管理新纪元

3步重塑工作流:用douyin-downloader开启抖音素材管理新纪元 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback …...

如何快速掌握Comics Downloader:漫画离线阅读的终极解决方案

如何快速掌握Comics Downloader:漫画离线阅读的终极解决方案 【免费下载链接】comics-downloader tool to download comics and manga in pdf/epub/cbr/cbz from a website 项目地址: https://gitcode.com/gh_mirrors/co/comics-downloader 还在为在线漫画加…...

MATLAB与RobotStudio Socket通信实战:从零搭建机器人实时运动控制链路

1. 为什么需要MATLAB与RobotStudio通信? 在工业机器人开发中,我们经常遇到这样的场景:需要根据实时计算的结果动态调整机器人运动轨迹。比如视觉引导的抓取任务中,摄像头识别到物体位置后,需要立即将坐标偏移量发送给机…...

雷达信号处理实战:用MATLAB复现线性调频信号的脉冲压缩(附完整代码)

雷达信号处理实战:用MATLAB复现线性调频信号的脉冲压缩(附完整代码) 在雷达信号处理领域,脉冲压缩技术堪称"分辨率与信噪比的平衡大师"。想象一下,当两个相距仅几十米的飞行器同时出现在雷达视野中&#xff…...

从DLRM看工业级推荐系统:特征嵌入与交叉的工程实践

1. DLRM模型的核心价值与工业落地挑战 推荐系统在互联网产品中扮演着关键角色,从电商平台的商品推荐到内容平台的信息流排序,背后都离不开高效的算法模型支撑。DLRM(Deep Learning Recommendation Model)作为Facebook开源的推荐模…...

【仅限首批教育决策者获取】:2026奇点大会AGI教育实施框架V2.3(含政策适配矩阵+师资再培训SOP)

第一章:2026奇点智能技术大会:AGI的教育变革 2026奇点智能技术大会(https://ml-summit.org) AGI驱动的自适应学习引擎 大会首次公开展示了基于通用人工智能(AGI)内核构建的教育操作系统EduOS v3.1,该系统可实时解析学…...