性能高于Transformer模型1.7-2倍,彩云科技发布基于DCFormer架构通用大模型云锦天章
2017年,谷歌发布《Attention Is All You Need》论文,首次提出Transformer架构,掀开了人工智能自然语言处理(NLP)领域发展的全新篇章。Transformer架构作为神经网络学习中最重要的架构,成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。而提升Transformer的运行效率也成为人工智能领域的研究热点,2024年4月,谷歌最近一次更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程中提速50%,成为Transformer架构提速升级的又一重要事件。
同样在今年,一家来自国内的人工智能企业彩云科技,在国际机器学习领域的顶级会议ICML(国际机器学习大会)上,发布全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在该论文中,彩云科技团队首次发布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的提升。
11月13日,彩云科技在北京总部与媒体进行一场主题为“From Paper to App”的沟通会。会上,彩云科技CEO袁行远,就通用大模型未来进化之路,与人工智能的落地场景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。
只有模型效率和智能度提升 才能实现真正的AGI
沟通会现场,袁行远首先向参会者展示了一个ChatGPT o1的问答:“假设ChatGPT4每天响应用户约2亿个请求,消耗超过50万千瓦时的电力。假设全球网络都使用ChatGPT作为访问入口,ChatGPT每天消耗多少电力?另外按照这个速度发展下去,到2050年全球人工智能的耗电量会达到目前地球发电能力的多少倍?”ChatGPT o1给出的答案是,“到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的8倍”。
同样的问题,在今年2月份的世界政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假设计算机的速度永远不会变快,我们可能需要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对能源的强大需求在业内已经是共识,英伟达致力于通过提升硬件来提升AI效率,降低能耗;而袁行远则认为,改善大模型底层架构,提升人工智能运行效率,是改变AI能源困局的更优路径。
“Scaling Law告诉我们,随着算力的提升,模型更大、数据更多,模型效果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,人工智能实现之前,或许我们地球的能源就已经无法支撑了。”袁行远表示,“没有效率的提升,AI就是镜花水月。”
彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力,由此实现了对Transformer架构1.7—2倍的性能提升。
今年的ICML会议上,彩云科技团队的3篇论文,在录用平均分为4.25-6.33的情况下,获得平均7分的高分,并成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业,另一家则是华为。
袁行远表示:我们的工作表明,Transformer架构距离“理想模型架构”还有很大的提升空间,除了堆算力堆数据的“大力出奇迹”路线,模型架构创新同样大有可为。往小了说,在大模型领域,利用效率更高的模型架构,小公司也可以在与世界顶级人工智能企业的对抗中取得优势。往大了说,模型效率的提升,可以有效地降低人工智能升级迭代的成本,加速AI时代的到来。
云锦天章问世 首个基于DCFormer架构的通用大模型
作为国内最早做LLM(大语言模型)的公司之一,彩云科技在2017年就已经开始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,是国内为数不多能够实现盈利的人工智能公司。
“世界最强的小说续写通用模型。”沟通会上,袁行远向大家展示了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高雅、华美,和我们的大模型想要实现的效果有共通之处。”袁行远介绍,云锦天章可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。
而在应用端,拥有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5整体流畅性和连贯性提升了20%,支持前文长度由2000字提升至10000字,故事背景设定最长长度高达10000字。“这意味着,在故事创作或者与人工智能对话中,人工智能能够记住之前发生的事情,记住之前故事里发生的细节,人物记得自己明确的目标,并且会根据剧情及时进行反思修正。在做到自主创作的同时,发散性收敛,不会天马行空,人物性格前后一致,故事逻辑性更强。”
“深度对话,超长记忆,逻辑清晰。”袁行远总结彩云小梦V3.5的特征,“我们的目标是为用户打造指尖伴侣定制梦境。”袁行远表示,彩云小梦的用户单次使用时长,累计使用时长在同类产品中都处于遥遥领先的地位,“对话超过400句,你会发现彩云小梦真正的魅力。”
袁行远介绍,公司接下来将继续加大对DCFormer的研究和投入:“一方面有打破‘国外做技术层,国内做应用层’刻板印象的情怀所在,一方面也是为公司自有产品应对市场竞争,实现快速迭代升级和能力领先的现实需要。”
相关文章:

性能高于Transformer模型1.7-2倍,彩云科技发布基于DCFormer架构通用大模型云锦天章
2017年,谷歌发布《Attention Is All You Need》论文,首次提出Transformer架构,掀开了人工智能自然语言处理(NLP)领域发展的全新篇章。Transformer架构作为神经网络学习中最重要的架构,成为后来席卷全球的一…...
PHP反序列化_3-漏洞利用
1. 信息收集与分析 确定目标应用程序:首先需要找到存在反序列化漏洞的 PHP 应用程序。这可能是一个网站、Web 服务、内部系统等。可以通过网络扫描、漏洞报告、安全评估等方式来发现潜在的目标。分析应用程序逻辑:了解目标应用程序的功能和业务逻辑&…...

2.初始sui move
vscode安装move插件 查看sui 客户端版本号 sui client --version 创建新项目 sui move new <项目名> sui move new hello_world 项目目录结构: hello_world ├── Move.toml ├── sources │ └── hello_world.move └── tests└── hello_world…...
数据结构--排序算法
目录 一.排序相关概念二.常见排序算法1.堆排序2.插入排序3.希尔排序4.选择排序5.冒泡排序6.快速排序1.快速排序--递归(未优化)2.快速排序--递归(优化)3.快速排序--非递归 7.归并排序1.归并排序--递归2.归并排序--非递归 一.排序相关概念 排序:使一串记录按照某个关…...
day60 图论章节刷题Part10(Floyd 算法、A * 算法)
Floyd 算法 思路:本题是多源最短路问题,使用Floyd算法求解。Floyd 算法对边的权值正负没有要求,核心思想是动态规划。 我们使用动规五部曲来理解和应用Floyd算法: 1、确定dp数组(dp table)以及下标的含义…...
UI架构解说
UI(用户界面,User Interface) 是指用户与软件或硬件系统进行交互的界面。 它是用户与系统之间的桥梁,允许用户通过视觉元素、交互组件和反馈机制来操作和控制应用程序或设备。 UI 设计的目标是提供直观、易用和愉悦的用户体验&a…...

车机安装第三方软件实现打开软件全屏教程
简介 越来越多的车友实现安装第三方软件了,但是有的车机的状态栏或者导航栏会遮挡安装的第三方软件。这样的话,第三方软件就会显示不全,体验感非常不好。所以,下面我教一下大家如何使用东君应用管家来实现打开第三方软件全屏。 全…...

八大技术架构与演进2
垂直分库架构 当数据量不断增大,大量的数据都存储在一个库中就已经不太够用了,这时候就可以讲不同的数据分类别存储Mycat也支持在大表拆分为小标的情况下进行访问 但是这种做法其实是增加了数据库的运维难度,这种其实也就叫做分布式数据库&…...

ReactPress技术揭秘
ReactPress Github项目地址:https://github.com/fecommunity/reactpress 欢迎Star。 一、引言 ReactPress是一个基于React构建的开源发布平台,它不仅可以帮助用户在支持React和MySQL数据库的服务器上快速搭建自己的博客或网站,还能作为一个…...
Javascript高级—如何实现一个类型判断函数?
实现一个类型判断函数 判断null判断基础类型使用Object.prototype.toString.call(target)来判断引用类型 [!NOTE] 注意: 一定是使用call来调用,不然是判断的Object.prototype的类型 之所以要先判断是否为基本类型是因为:虽然Object.prototyp…...

asitop macOS 终端 性能监控
macOS 终端 性能监控 安装 pip python3 -m ensurepip# pip3 --version pip 21.2.4安装 asitop pip3 install asitop运行 sudo asitop参考 asitopgithub asitopHow to Install pip on Mac...

Unity学习笔记(4):人物和基本组件
文章目录 前言开发环境新增角色添加组件RigidBody 2D全局项目设置Edit 给地图添加碰撞体 总结 前言 今天不加班,有空闲时间。争取一天学一课,养成习惯 开发环境 Unity 6windows 11vs studio 2022Unity2022.2 最新教程《勇士传说》入门到进阶ÿ…...
【深圳大学/大学物理实验2】弗兰克-赫兹实验预习题参考
一、单选题 共 13 小题 共 78 分 1. (6分)第一栅极电压UG1、第二栅极电压UG2和减速电压UP的作用分别是( ) 学生答案:C √ A. 使电子加速,消除阴极电子散射,使电子减速 B. 产生并加速电子,使电子加速&…...

vue2.7.14 + vant + vue cli脚手架转vite启动运行问题记录
文章目录 前言方案一(借用插件转换)启动命令,转换方案一转换遇到的问题 方案二(手动调整)方案两者对比小结 前言 vue cli 脚手架转成vite启动 简单说说这个项目的一些底层基本结构哈,以及写这篇博客的目的…...

Java基础-内部类与异常处理
(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 一、Java 内部类 什么是内部类? 使用内部类的优点 访问局部变量的限制 内部类和继承 内部…...
vue2或vue3的name属性有什么作用?
在 Vue.js(无论是 Vue 2 还是 Vue 3)中,组件的 name 属性有几个重要的用途。虽然它不是必须的,但在某些情况下非常有用。以下是 name 属性的一些主要作用: 1. 调试工具 Vue Devtools 和其他调试工具会使用组件的 nam…...

【FOC进阶日记】实战篇③ 电机关键数据采集方法
作者 | 量子君 微信公众号 | 极客工作室 【FOC进阶日记】专栏目录 第一章 实战篇① FOC与SVPWM详解 第二章 实战篇② 自发电控制算法 第三章 实战篇③ 电机关键数据采集方法 文章目录 前言一、M法(从路程入手):二、T法(从时间入手)三、M/T测速法:四、实现过程:总结前言…...
XSS安全基础
欢迎关注公众号【测试开发备忘录】,交流学习经验 XSS 类型: 反射型XSS:简单的把用户输入的数据“反射”给浏览器,将恶意链接嵌入,非持久; 存储型XSS:把用户输入的数据“存储”在服务端…...
【计网不挂科】计算机网络期末考试——【选择题&填空题&判断题&简述题】试卷(3)
前言 大家好吖,欢迎来到 YY 滴计算机网络 系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 本博客主要内容,收纳了一部门基本的计算机网络题目,供yy应对期中考试复习。大家可以参考 本章是去答案版本。带答案的版本在下…...
516.最长回文子序列
刷算法题: 第一遍:1.看5分钟,没思路看题解 2.通过题解改进自己的解法,并且要写每行的注释以及自己的思路。 3.思考自己做到了题解的哪一步,下次怎么才能做对(总结方法) 4.整理到自己的自媒体平台。 5.再刷重复的类…...

7.4.分块查找
一.分块查找的算法思想: 1.实例: 以上述图片的顺序表为例, 该顺序表的数据元素从整体来看是乱序的,但如果把这些数据元素分成一块一块的小区间, 第一个区间[0,1]索引上的数据元素都是小于等于10的, 第二…...

让回归模型不再被异常值“带跑偏“,MSE和Cauchy损失函数在噪声数据环境下的实战对比
在机器学习的回归分析中,损失函数的选择对模型性能具有决定性影响。均方误差(MSE)作为经典的损失函数,在处理干净数据时表现优异,但在面对包含异常值的噪声数据时,其对大误差的二次惩罚机制往往导致模型参数…...
C++.OpenGL (14/64)多光源(Multiple Lights)
多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

R语言速释制剂QBD解决方案之三
本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

搭建DNS域名解析服务器(正向解析资源文件)
正向解析资源文件 1)准备工作 服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2)服务端安装软件:bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...
C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...

数据结构:递归的种类(Types of Recursion)
目录 尾递归(Tail Recursion) 什么是 Loop(循环)? 复杂度分析 头递归(Head Recursion) 树形递归(Tree Recursion) 线性递归(Linear Recursion)…...

【UE5 C++】通过文件对话框获取选择文件的路径
目录 效果 步骤 源码 效果 步骤 1. 在“xxx.Build.cs”中添加需要使用的模块 ,这里主要使用“DesktopPlatform”模块 2. 添加后闭UE编辑器,右键点击 .uproject 文件,选择 "Generate Visual Studio project files",重…...

使用SSE解决获取状态不一致问题
使用SSE解决获取状态不一致问题 1. 问题描述2. SSE介绍2.1 SSE 的工作原理2.2 SSE 的事件格式规范2.3 SSE与其他技术对比2.4 SSE 的优缺点 3. 实战代码 1. 问题描述 目前做的一个功能是上传多个文件,这个上传文件是整体功能的一部分,文件在上传的过程中…...

边缘计算网关提升水产养殖尾水处理的远程运维效率
一、项目背景 随着水产养殖行业的快速发展,养殖尾水的处理成为了一个亟待解决的环保问题。传统的尾水处理方式不仅效率低下,而且难以实现精准监控和管理。为了提升尾水处理的效果和效率,同时降低人力成本,某大型水产养殖企业决定…...