大模型训练效率提升至2.6倍,腾讯Angel机器学习框架升级
在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。
11月23日,腾讯披露,腾讯混元大模型背后的自研机器学习框架Angel再次升级,大模型训练效率提升至主流开源框架的2.6倍,千亿级大模型训练可节省50%算力成本。升级后的Angel支持单任务万卡级别超大规模训练,进一步提升腾讯云HCC大模型专属算力集群的性能和效率。
同时,Angel还提供了从模型研发到应用落地的一站式平台,支持用户通过API接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过300个腾讯产品及场景均已接入腾讯混元内测。
目前,相关能力已通过腾讯云对外开放。基于升级后的Angel机器学习框架,腾讯云TI平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。
自研机器学习框架升级,大模型训练推理效率再提升
随着大模型时代到来,模型参数呈指数级增长,达到万亿级别。大模型逐渐从支持单一模态和任务发展为支持多种模态下的多种任务。在这种趋势下,大模型训练所需算力巨大,远超单个芯片的处理速度,而多卡分布式训练通信损耗巨大。如何提高硬件资源利用率,成为影响国产大模型技术发展和实用性的重要前提。
面向大模型训练,腾讯自研了机器学习训练框架AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化。AngelPTM采用最新的FP8混合精度训练技术,结合深度优化后的4D并行和ZeROCache机制优化存储,可兼容适配多款国产化硬件,能够以更少的资源和更快的速度训练更大的模型。
2023年4月,腾讯云面向大模型而生的新一代HCC高性能计算集群正式发布,性能较前代提升3倍。除了硬件的升级,针对大模型训练场景,HCC对网络协议、通信策略、AI框架、模型编译等进行系统级优化,大幅节约训练调优和算力成本。此前AngelPTM就已经通过HCC对外提供服务,本次Angel机器学习框架升级,也将进一步提升HCC大模型专属算力集群的性能,助力企业加速大模型落地。
模型参数的增大不仅给训练带来了挑战,还导致了推理成本的不断上升。为解决这一问题,腾讯自研的大模型推理框架AngelHCF通过扩展并行能力、采用多种Attention优化策略等方式对性能进行了提升。同时,框架还适配了多种压缩算法,以提高吞吐能力,从而实现更快的推理性能和更低的成本,支持大型模型推理服务。
相较于业界主流框架,AngelHCF的推理速度提高了1.3倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的10秒缩短至3至4秒。此外,AngelHCF还支持多种灵活的大模型压缩和量化策略,支持自动压缩。
一站式应用构建,让大模型“开箱即用”
作为实用级大模型,腾讯混元大模型从研发之初就面向应用场景而生,在实践中解决大模型落地难点。腾讯产品及应用种类多、流量大,让模型真正“用起来”挑战很大。基于Angel,腾讯构建了大模型接入和应用开发的一站式平台,包含数据处理、精调、模型评估、一键部署以及提示词调优等服务,让大模型的“开箱即用”成为可能。
模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,充分适配各类应用场景的需求,只需要经过简单微调就能达到满足业务需求的效果,同时降低模型训练和推理服务的资源成本,在问答、内容分类等常见应用场景中具有更高的性价比。
应用开发层面,腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。
2023年9月,腾讯自研的实用级大模型腾讯混元正式亮相并通过腾讯云开放。腾讯混元拥有超千亿参数规模,预训练语料超 2 万亿 tokens,聚合了腾讯在预训练算法、机器学习平台和底层算力资源多个层面的自研技术积累,并在应用中持续迭代,不断优化大模型能力。目前,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户,通过腾讯云接入腾讯混元大模型。
相关文章:
大模型训练效率提升至2.6倍,腾讯Angel机器学习框架升级
在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。 11月23日,腾讯披露,腾讯混元大模型背后的自研机器学习框架Angel再次升级,大模型训练效率提升至主流开源框架的2.6倍…...
【方块消消乐】方块消除游戏-微信小程序开发流程详解
有做过俄罗斯方块游戏小程序的经验,这次有做了一个消灭方块的游戏,实现过程很顺利,游戏看着和之前做的俄罗斯方块游戏很像,这里调整了玩法,试玩感觉还可以,接下来给大家讲一讲消灭方块游戏开发过程。 俄罗斯…...
mybatis配置文件中配置类型别名的方式
在MyBatis配置文件(通常是mybatis-config.xml)中,可以通过以下方式配置类型别名: 1. 使用typeAliases元素配置全局类型别名 <configuration> <typeAliases> <typeAlias alias"YourAlias" type"…...
leetcode目标和
给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 ‘’ 或 ‘-’ ,然后串联起所有整数,可以构造一个 表达式 : 例如,nums [2, 1] ,可以在 2 之前添加 ‘’ ,在 1 之前添加 ‘-…...
2023人形机器人行业海外科技研究:从谷歌看机器人大模型进展
今天分享的是人形机器人系列深度研究报告:《2023人形机器人行业海外科技研究:从谷歌看机器人大模型进展》。 (报告出品方:华鑫证券) 报告共计:26页 大模型是人形机器人的必备要素 长期来看,人…...
【深度学习笔记】01 数据操作与预处理
01 数据操作与预处理 一、数据操作1.1 基本数据操作1.2 广播机制1.3 索引和切片1.4 节省内存1.5 转换为其他Python对象 二、数据预处理读取数据集处理缺失值转换为张量格式练习 一、数据操作 1.1 基本数据操作 导入torch import torch张量表示一个由数值组成的数组ÿ…...
Python与设计模式--门面模式
8-Python与设计模式–门面模式 一、火警报警器(1) 假设有一组火警报警系统,由三个子元件构成:一个警报器,一个喷水器, 一个自动拨打电话的装置。其抽象如下: class AlarmSensor:def run(self):…...
改进YOLOv8 | YOLOv5系列:RFAConv续作,即插即用具有任意采样形状和任意数目参数的卷积核AKCOnv
RFAConv续作,构建具有任意采样形状的卷积AKConv 一、论文yolov5加入的方式论文 源代码 一、论文 基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷:一方面,卷积运算被限制在一个局部窗口,不能从其他位置捕获信息,并且其采样形状是…...
机器学习-激活函数的直观理解
机器学习-激活函数的直观理解 在机器学习中,激活函数(Activation Function)是用于引入非线性特性的一种函数,它在神经网络的每个神经元上被应用。 如果不使用任何的激活函数,那么神经元的响应就是wxb,相当…...
Fedora 36 ARM 镜像源更换与软件安装
1、什么是Fedora Fedora Linux是较具知名度的Linux发行套件之一,由Fedora专案社群开发、红帽公司赞助,目标是建立一套新颖、多功能并且自由的作业系统。 Fedora是商业化的Red Hat Enterprise Linux发行版的上游原始码。 2、Fedora软件安装 64 位 .deb&a…...
多级缓存快速上手
哈喽~大家好,这篇来看看多级缓存。 🥇个人主页:个人主页 🥈 系列专栏:【微服务】 🥉与这篇相关的文章: JAVA进程和线程JAVA进程和线程-CSDN博客Http…...
初始React
<!DOCTYPE html> <html> <head> <meta charset"UTF-8" /> <title>React</title> </head> <body> 了解React <!-- React是一个用于构建web和原生态交互界面的库 相对于传统DOM开发优势:组件化开发…...
2.5 逆矩阵
一、逆矩阵的注释 假设 A A A 是一个方阵,其逆矩阵 A − 1 A^{-1} A−1 与它的大小相同, A − 1 A I A^{-1}AI A−1AI。 A A A 与 A − 1 A^{-1} A−1 会做相反的事情。它们的乘积是单位矩阵 —— 对向量无影响,所以 A − 1 A x x A^{…...
物流实时数仓:数仓搭建(ODS)
系列文章目录 物流实时数仓:采集通道搭建 物流实时数仓:数仓搭建 文章目录 系列文章目录前言一、IDEA环境准备1.pom.xml2.目录创建 二、代码编写1.log4j.properties2.CreateEnvUtil.java3.KafkaUtil.java4.OdsApp.java 三、代码测试总结 前言 现在我们…...
【ARM 嵌入式 编译 Makefile 系列 18 -- Makefile 中的 export 命令详细介绍】
文章目录 Makefile 中的 export 命令详细介绍Makefile 使用 export导出与未导出变量的区别示例:导出变量以供子 Makefile 使用 Makefile 中的 export 命令详细介绍 在 Makefile 中,export 命令用于将变量从 Makefile 导出到由 Makefile 启动的子进程的环…...
【opencv】计算机视觉:停车场车位实时识别
目录 目标 整体流程 背景 详细讲解 目标 我们想要在一个实时的停车场监控视频中,看看要有多少个车以及有多少个空缺车位。然后我们可以标记空的,然后来车之后,实时告诉应该停在那里最方便、最近!!!实现…...
播放器开发(三):FFmpeg与SDL环境配置
学习课题:逐步构建开发播放器【QT5 FFmpeg6 SDL2】 环境配置 我这边的是使用macOS;IDE用的是CLion;CMake构建,除了创建项目步骤、CMakeLists文件有区别之外的代码层面不会有太大区别。 配置上只添加一下CMakeLists中FFmpeg和SD…...
KubeVela核心控制器原理浅析
前言 在学习 KubeVela 的核心控制器之前,我们先简单了解一下 KubeVela 的相关知识。 KubeVela 本身是一个应用交付与管理控制平面,它架在 Kubernetes 集群、云平台等基础设施之上,通过开放应用模型来对组件、云服务、运维能力、交付工作流进…...
迎接“全全闪”时代 XSKY星辰天合发布星海架构和星飞产品
11 月 17 日消息,北京市星辰天合科技股份有限公司(简称:XSKY星辰天合)在北京首钢园举办了主题为“星星之火”的 XSKY 星海全闪架构暨星飞存储发布会。 (图注:XSKY星辰天合 CEO 胥昕) XSKY星辰天…...
[架构相关]基础架构设计原则
基础架构设计原则 文章目录 基础架构设计原则一、可用性(Availability)1.1、引入冗余1.2、负载均衡1.3、故障转移1.4、备份和恢复策略 二、可扩展性(Scalability)2.1 水平扩展2.2 垂直扩展2.3 弹性扩展 三、可靠性(Rel…...
synchronized 学习
学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…...
RocketMQ延迟消息机制
两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后…...
Day131 | 灵神 | 回溯算法 | 子集型 子集
Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣(LeetCode) 思路: 笔者写过很多次这道题了,不想写题解了,大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...
Rust 异步编程
Rust 异步编程 引言 Rust 是一种系统编程语言,以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天,异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。 异步编程基础 什么是异步…...
BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践
6月5日,2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席,并作《智能体在安全领域的应用实践》主题演讲,分享了在智能体在安全领域的突破性实践。他指出,百度通过将安全能力…...
Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
USB Over IP专用硬件的5个特点
USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中,从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备(如专用硬件设备),从而消除了直接物理连接的需要。USB over IP的…...
听写流程自动化实践,轻量级教育辅助
随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...
中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...
