当前位置: 首页 > article >正文

腾讯混元 Hy3 preview 开源上线 AtomGit AI 社区,Agent 能力大幅提升

4 月 23 日腾讯混元 Hy3 preview 语言模型开源并上线 AtomGit Ai。这是一个快慢思考融合的混合专家模型总参数295B激活参数21B最大支持256K上下文长度。这是混元重建后训练的第一个模型也是混元迄今最智能的模型在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。 模型开源地址https://ai.atomgit.com/tencent_hunyuan/Hy3-previewhttps://ai.atomgit.com/tencent_hunyuan/Hy3-preview-Base2026 年 2 月腾讯混元重建了预训练和强化学习的基础设施以及模型追求实用性的三个原则1、能力体系化不推崇“偏科”因为即使是代码智能体的单一应用也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。2、评测真实性主动跳出易被“刷榜”的公开榜单通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。3、性价比追求实用性离不开商业合理性深度协同模型架构和推理框架的设计大幅降低任务成本让智能用得起、用得好。Hy3 preview 可以视为混元快速探索实用性大模型、解决真实世界问题的一个开端。腾讯首席 AI 科学家姚顺雨表示Hy3 preview 是混元大模型重建的第一步。我们希望通过这次开源和发布获得来自开源社区和用户的真实反馈帮助我们提升 Hy3 正式版的实用性。与此同时我们也在继续扩大预训练和强化学习的规模提升模型的智能上限并通过与腾讯众多产品的深度 Co-Design持续提升模型在真实场景中的综合表现并开始探索特色模型能力。目前Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外Hy3 preview 支持接入流行的开源智能体产品如 OpenClaw、OpenCode、KiloCode 等并已上架腾讯云大模型服务平台 TokenHub。Hy3 preview 主打全面实用性Agent能力大幅提升。多个测评结果显示Hy3 preview 模型能力全面提升。1出色的上下文学习和指令遵循能力在各种真实的生产与生活场景理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于腾讯业务场景的灵感腾讯混元提出了CL-bench和CL-bench-Life来创新性地评估模型的上下文学习能力并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。2复杂推理能力突出清华数学博士资格考试国内分数最高复杂推理能力是模型解决各种问题的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出并在最新的清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩展现了可泛化的强推理能力。3代码与智能体提升最为显著展现出高性价比代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升腾讯混元以较快的速度在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准以及BrowseComp、WideSearch等主流搜索智能体基准中取得了有竞争力的结果。在数字世界中代码关注的是模型在开发环境中的执行能力搜索则聚焦于开放信息空间中的检索、筛选与整合能力两者共同决定了模型在复杂智能体场景例如 OpenClaw中是否真正具备可用性。Hy3 preview 在ClawEval和WildClawBench等评测中表现突出表明我们的智能体能力正在稳步走向全面与实用。除了公开榜单腾讯混元还进一步构建了多个内部的评测集对模型在真实开发场景中的表现进行评估。结果表明无论是在后端工程任务集Hy-Backend贴近真实用户开发交互的Hy-Vibe Bench还是高难度软件工程开发任务集Hy-SWE Max上Hy3 preview 均体现出了强竞争力。比较各个开源模型的大小与智能体综合表现Hy3 preview 展现出高性价比。腾讯核心业务已全面接入多主线AI 产品验证收益明显。正式上线之前Hy3 preview 在腾讯主要 AI 业务进行了产品测试获得明显正收益。在元宝端混元与元宝进行了深度Co-Design。一方面针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现另一方面对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同为用户带来了更智能且更具“活人感”的交互体验。在 ima 知识库问答和通用问答两个场景下测试结果显示Hy3 preview处理长文的能力出色特别是检索类任务在回答信息的准确性、覆盖度和全面性上表现较好。在 CodeBuddy、WorkBuddy 产品上Hy3 preview 首 token 延迟降低54%、端到端时长降低47%、成功率提升至99.99%。实际用户环境中Hy3 preview 已稳定驱动最长495步的复杂 Agent 工作流覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。在公众号AI 分身和 AI 客服的场景专项评测中Hy3 preview 展现出相比 Hy2 更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟面对模糊提问、短句追问和多轮对话时能够更准确地把握用户诉求并输出更清晰、更稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合 AI 分身和 AI 客服的角色过度脑补、主观代入和情绪化表达显著减少使整体交互体验更贴近“可信、自然、高效”的回复目标。在和平精英 AI NPC 场景评测中和平精英团队第一时间在 Hy3 preview 上线后基于 AI NPC 场景中完成接入并开展评测整体表现令人印象深刻。在游戏局外的人设扮演场景中Hy3 Preview 不仅能够精准理解角色设定还能针对开放性问题输出高度关联、富有增量价值的内容带来了更加真实、自然、沉浸的对话体验。而在游戏局内的复杂对战场景中模型回复节奏贴近真实玩家聊天体验展现出优秀的稳定性与出色的拟人化扮演能力整体效果表现亮眼。在腾讯文档 AI PPT 场景较上一版本Hy2取得了显著进步生成成功率提升20%评测得分提升10%同时生成耗时缩短20%。整体而言新模型在评测场景中表现优异在模版选择色彩匹配生成大纲补充内容多个阶段均体现出优秀的表现无幻觉契合主题视觉效果好。在 QQ AI 助手小 Q 产品评测中较上一版本在长文本首字节时延、整体响应速度与流式输出效率方面显著优化核心能力上数学推理表现提升尤为明显多场景指令遵循与泛化能力进一步增强在工具调用推理及多轮指代消解方面表现更稳定高效在OpenClaw官方 PinchBench QQ 智能体场景测试中取得突出效果综合体验实现明显跃升。推理效率提升40%同等成本智能密度最优。得益于模型和推理框架上的深度协同以及在推理框架、算子性能、量化算法等全方面优化整体推理效率提升 40%Hy3 preview 的成本相比上一代模型大幅下降。在腾讯云大模型服务平台 TokenHub 上Hy3 preview 输入价格最低 1.2 元/百万tokens输入命中缓存价格 0.4 元/百万 tokens输出价格最低 4 元/百万 tokens。同时腾讯云联合混元推出定制的 Hy3 preview Token Plan 套餐个人版定价最低 28 元/月为 Agent 开发和打造“龙虾”应用的提供更具性价比选择。目前Hy3 preview 已登陆 AtomGit AI 社区欢迎所有开发者开放体验、下载、二次开发。 模型开源地址https://ai.atomgit.com/tencent_hunyuan/Hy3-previewhttps://ai.atomgit.com/tencent_hunyuan/Hy3-preview-Base

相关文章:

腾讯混元 Hy3 preview 开源上线 AtomGit AI 社区,Agent 能力大幅提升

4 月 23 日,腾讯混元 Hy3 preview 语言模型开源并上线 AtomGit Ai。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。这是混元重建后训练的第一个模型,也是混元迄今最智能的模…...

STM32F103C6T6 PWM+DMA驱动WS2812B全彩LED:固件库实战避坑指南

STM32F103C6T6 PWMDMA驱动WS2812B全彩LED:固件库实战避坑指南 在智能家居和氛围照明项目中,WS2812B全彩LED因其集成驱动芯片和单线控制特性广受欢迎。然而,许多开发者在使用STM32驱动这类LED时,常被其严格的时序要求所困扰。本文将…...

终极Docker镜像优化指南:如何用Dive解决权限难题并提升存储效率

终极Docker镜像优化指南:如何用Dive解决权限难题并提升存储效率 【免费下载链接】dive A tool for exploring each layer in a docker image 项目地址: https://gitcode.com/GitHub_Trending/di/dive Docker镜像优化是每个开发者必须掌握的技能,而…...

终极指南:3个真实场景揭秘AutoGPT如何让AI应用开发效率提升10倍

终极指南:3个真实场景揭秘AutoGPT如何让AI应用开发效率提升10倍 【免费下载链接】AutoGPT AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission is to provide the tools, so that you can focus on what matters. 项目地…...

Ofd2Pdf终极指南:5分钟掌握OFD转PDF的3种高效方法

Ofd2Pdf终极指南:5分钟掌握OFD转PDF的3种高效方法 【免费下载链接】Ofd2Pdf Convert OFD files to PDF files. 项目地址: https://gitcode.com/gh_mirrors/ofd/Ofd2Pdf 在数字办公时代,OFD作为中国自主的电子文档格式标准,在政务、金融…...

解放双手!B站视频一键转文字:bili2text让知识获取效率提升300%

解放双手!B站视频一键转文字:bili2text让知识获取效率提升300% 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 还在为整理B站学习视频…...

手把手教你用分光光度法测植物叶片SOD/POD/CAT活性(附数据处理与避坑指南)

手把手教你用分光光度法测植物叶片SOD/POD/CAT活性(附数据处理与避坑指南) 实验室里那盆萎蔫的拟南芥,让我第一次意识到抗氧化酶测定的重要性。去年夏天,当我发现对照组和处理组的SOD活性数据出现反常交叉时,整整两周的…...

DeepL Chrome扩展:3步打造你的零配置AI翻译助手

DeepL Chrome扩展:3步打造你的零配置AI翻译助手 【免费下载链接】deepl-chrome-extension A DeepL Translator Chrome extension 项目地址: https://gitcode.com/gh_mirrors/de/deepl-chrome-extension 在全球化信息时代,语言障碍是获取知识、沟通…...

告别命令行!3分钟上手spotDL Web UI,轻松下载Spotify音乐

告别命令行!3分钟上手spotDL Web UI,轻松下载Spotify音乐 【免费下载链接】spotify-downloader Download your Spotify playlists and songs along with album art and metadata (from YouTube if a match is found). 项目地址: https://gitcode.com/G…...

告别状态管理混乱:Svelte 5条件绑定与响应式状态实战指南

告别状态管理混乱:Svelte 5条件绑定与响应式状态实战指南 【免费下载链接】svelte web development for the rest of us 项目地址: https://gitcode.com/GitHub_Trending/sv/svelte Svelte 5作为一款革新性的前端框架,以其独特的编译时响应式系统…...

告别卡顿:Svelte 5中$derived与Map类型Store的终极响应式优化指南

告别卡顿:Svelte 5中$derived与Map类型Store的终极响应式优化指南 【免费下载链接】svelte web development for the rest of us 项目地址: https://gitcode.com/GitHub_Trending/sv/svelte Svelte 5作为一款革新性的前端框架,通过其独特的编译时…...

72小时响应!Xiaomi Home Integration安全问题处理全流程优化指南

72小时响应!Xiaomi Home Integration安全问题处理全流程优化指南 【免费下载链接】ha_xiaomi_home Xiaomi Home Integration for Home Assistant 项目地址: https://gitcode.com/GitHub_Trending/ha/ha_xiaomi_home Xiaomi Home Integration是一款为Home Ass…...

Nightingale 夜莺监控系统 - 自愈实战:从告警触发到服务重启的自动化闭环

1. 夜莺监控系统自愈功能的核心价值 第一次接触夜莺(Nightingale)的自愈功能时,我正被半夜的告警电话折磨得苦不堪言。那会儿我们的电商系统频繁出现Nginx服务崩溃的情况,每次都需要人工登录服务器手动重启。直到发现夜莺的Ibex模…...

别再死记硬背Inception了!从VGG到Xception,一文搞懂深度可分离卷积的‘解耦’思想

从VGG到Xception:深度可分离卷积如何重塑现代CNN设计哲学 当你在GitHub上搜索"CNN实现"时,超过70%的代码仍在使用传统卷积操作。但有趣的是,这些项目中90%的性能瓶颈恰恰来自这些"全连接"式的卷积计算。2017年CVPR会议上…...

Remix项目中CSS导入导致页面刷新的3种终极解决方案

Remix项目中CSS导入导致页面刷新的3种终极解决方案 【免费下载链接】remix Build Better Websites. Create modern, resilient user experiences with web fundamentals. 项目地址: https://gitcode.com/GitHub_Trending/re/remix 在Remix项目开发过程中,CSS…...

Windows 11下用NoneBot2 + go-cqhttp rc5搭建QQ机器人,保姆级避坑指南(附最新扫码登录解决方案)

Windows 11下搭建QQ机器人的全流程避坑指南 最近在Windows 11上折腾QQ机器人时,发现不少朋友卡在了各种配置环节。特别是QQ协议更新后,传统的扫码登录方式频频报错,让不少开发者头疼不已。本文将基于NoneBot2框架和go-cqhttp rc5版本&#xf…...

从‘小白’到‘专家’:手把手教你搭建符合ISO 19011的审核员能力评价与持续发展体系

构建卓越审核团队:ISO 19011标准下的能力评价与发展体系实战指南 在当今快速变化的商业环境中,组织对管理体系有效性的需求比以往任何时候都更为迫切。作为确保管理体系持续改进的关键环节,内部审核的质量直接影响着组织的运营效率和风险控制…...

终极光线追踪阴影优化:Genesis如何突破机器人仿真光影瓶颈的完整指南

终极光线追踪阴影优化:Genesis如何突破机器人仿真光影瓶颈的完整指南 【免费下载链接】Genesis A generative world for general-purpose robotics & embodied AI learning. 项目地址: https://gitcode.com/GitHub_Trending/genesi/Genesis Genesis作为面…...

深入ArcGIS数据存储:从Shapefile到GDB,OBJECTID/FID/OID的设计逻辑与日常管理技巧

深入解析ArcGIS数据存储:OBJECTID、FID与OID的设计哲学与实战管理 在GIS数据管理的日常工作中,我们经常需要处理不同格式的空间数据文件。Shapefile、File Geodatabase和dBase表作为ArcGIS生态中最常见的三种数据存储格式,各自采用了一套独特…...

2048.cpp图形渲染技术:从ASCII到现代终端UI设计

2048.cpp图形渲染技术:从ASCII到现代终端UI设计 【免费下载链接】2048.cpp 🎮 Fully featured terminal version of the game "2048" written in C 项目地址: https://gitcode.com/gh_mirrors/20/2048.cpp 2048.cpp是一款用C编写的全功…...

Focus编辑器完全入门指南:从安装到高效使用的10个关键步骤

Focus编辑器完全入门指南:从安装到高效使用的10个关键步骤 【免费下载链接】focus A simple and fast text editor 项目地址: https://gitcode.com/gh_mirrors/fo/focus Focus是一款以简洁高效为核心设计理念的文本编辑器,专为注重输入流畅性和界…...

超神编辑器Lapce:游戏开发效率提升300%的秘密武器

超神编辑器Lapce:游戏开发效率提升300%的秘密武器 【免费下载链接】lapce Lightning-fast and Powerful Code Editor written in Rust 项目地址: https://gitcode.com/GitHub_Trending/la/lapce Lapce是一款用Rust编写的闪电般快速且功能强大的代码编辑器&am…...

Kyoo扫描器工作原理:智能识别动漫名称与媒体文件

Kyoo扫描器工作原理:智能识别动漫名称与媒体文件 【免费下载链接】Kyoo A portable and vast media library solution. 项目地址: https://gitcode.com/gh_mirrors/ky/Kyoo Kyoo是一款功能强大的便携式媒体库解决方案,其核心组件之一——Kyoo扫描…...

Spek Fixtures详解:如何正确使用beforeEachTest和afterEachTest

Spek Fixtures详解:如何正确使用beforeEachTest和afterEachTest 【免费下载链接】spek A specification framework for Kotlin 项目地址: https://gitcode.com/gh_mirrors/spe/spek Spek是一款专为Kotlin设计的规范测试框架,它提供了强大的fixtur…...

OpenDrop:重新定义微观世界的开源数字微流控平台

OpenDrop:重新定义微观世界的开源数字微流控平台 【免费下载链接】OpenDrop Open Source Digital Microfluidics Bio Lab 项目地址: https://gitcode.com/gh_mirrors/ope/OpenDrop 在传统生物实验室中,操控微观世界的液滴需要昂贵的设备和专业的操…...

Omnipay未来蓝图:AI与区块链支付的终极融合指南

Omnipay未来蓝图:AI与区块链支付的终极融合指南 【免费下载链接】omnipay A framework agnostic, multi-gateway payment processing library for PHP 5.6 项目地址: https://gitcode.com/gh_mirrors/om/omnipay Omnipay是一款面向PHP开发者的支付处理库&…...

DTLS 1.3中MAC聚合技术解析与物联网安全优化

1. DTLS 1.3中MAC聚合技术的深度解析在物联网和工业互联网快速发展的今天,无线通信的安全性和效率问题日益突出。作为保障数据完整性的核心技术,消息认证码(MAC)在DTLS 1.3协议中扮演着关键角色。然而,传统的每消息附加…...

MySQL学习日记:关于MVCC及一些八股总结

MySQL事务的二阶段提交是什么 二阶段提交是MySQL用来保证redo log 和binlog数据一致性的机制。redo log属于innodb存储引擎层,binlog属于service层。如果写入过程中宕机,就可能出两边数据不一致的问题。 事务提交的流程是: prepare阶段&#…...

保姆级教程:用Python和VASP模拟金刚石结构各向异性(附代码)

从零构建金刚石结构:Python与VASP实战指南 金刚石不仅是自然界最坚硬的物质之一,其独特的晶体结构更成为凝聚态物理和计算材料学的经典研究对象。对于刚进入计算材料学领域的研究者而言,如何将教科书中的晶体结构理论转化为可执行的代码和可视…...

给工程新人的PID避坑指南:从电厂顶轴油系统图看懂阀门、仪表与管道标注

给工程新人的P&ID避坑指南:从电厂顶轴油系统图看懂阀门、仪表与管道标注 第一次面对P&ID图纸时,那种密密麻麻的符号和编号往往让人望而生畏。记得我刚入职某电力设计院时,导师扔给我一张发电机顶轴油系统的P&ID说:&qu…...