【开源大模型生态7】华为的盘古大模型
鹏程·盘古模型是全球首个全开源2000亿参数的自回归中文预训练语言大模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。


2070亿参数,64层。
这里注意几个概念。
-
参数(Parameters): 参数是指构成模型的所有可学习变量。这些变量通常包括权重矩阵和偏置项。模型的参数越多,理论上它能够拟合的数据分布就越复杂,但也更容易过拟合,即模型可能对训练数据过于敏感而不能很好地泛化到未见过的数据上。
-
层数(Number of Layers): 层数指的是神经网络中隐藏层的数量。对于Transformer模型来说,这通常指的是编码器或解码器堆叠的层数。增加层数可以提高模型的表达能力,但也可能导致梯度消失或爆炸的问题,并且增加了计算成本。
-
内层维度(Hidden Size / Embedding Dimension): 内层维度指的是模型内部向量的大小。例如,在Transformer模型中,输入词嵌入的维度以及每个位置上的表示向量的大小。较大的内层维度可以携带更多的信息,但也需要更多的计算资源。
-
FFN大小(Feed-Forward Network Size / FFN Inner Size): FFN大小指的是Transformer模型中前馈神经网络(Feed-Forward Network, FFN)的中间层大小。前馈神经网络是Transformer架构中的一个组成部分,用于对输入进行非线性变换。更大的FFN层可以提供更强的表达能力,但同样会增加计算负担。
-
头数(Number of Heads): 头数是指多头注意力机制(Multi-Head Attention)中的头的数量。多头注意力允许模型从不同的表示子空间中并行地关注输入的不同位置。增加头数可以让模型捕捉到输入序列中不同粒度的信息依赖关系,但同时也会增加计算开销。

中国工程院院士、鹏程实验室主任高文曾指出,全球通用的50亿大模型数据训练集中,中文语料占比仅为1.3%。这一数字揭示了中文语料在全球范围内的稀缺性。
中文毕竟不是全世界都在用,还有一点,有如下的原因:
-
版权和隐私问题:许多中文文本资源受版权保护,无法轻易获取或使用。此外,涉及到个人隐私的数据受到严格的法律保护,这也限制了可用于训练的数据量。
-
语言和文化的多样性:中文不仅包括普通话,还有多种方言和地区性的语言变体。此外,中文书写系统本身复杂,包含了成千上万的汉字,这使得创建全面且代表性的语料库变得困难。
-
互联网内容的动态变化:虽然互联网上有大量的中文内容,但这些内容通常是动态变化的,并且可能存在质量问题。例如,社交媒体上的帖子可能含有大量的非标准用法或网络俚语,这些内容可能不适合用于训练高质量的语言模型。
-
高质量数据的稀缺:即使存在大量的中文文本,高质量的数据仍然稀缺。高质量的数据通常需要经过清理、标注和分类,而这是一项耗时且昂贵的工作。此外,并非所有文本都适合用于训练语言模型,只有那些语法正确、内容丰富且具有一致性的文本才是理想的训练材料。
-
数据合规监管机制:随着数据保护意识的提高,对于数据的收集、存储和使用有了更为严格的规定。这不仅增加了获取数据的难度,也提高了数据处理的成本。
-
历史因素:一些中文语料因为年代久远,格式不兼容,或者是纸质形式难以数字化,也难以在市场上自由流通。
目前,国家成立了数据局,这比之前的大数据局,顶层设计又高了一个层级。我们国家将全力推动数据要素X行动,大家有兴趣可以了解一下。
相关文章:
【开源大模型生态7】华为的盘古大模型
鹏程盘古模型是全球首个全开源2000亿参数的自回归中文预训练语言大模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。 2070亿参数,64层。 这里注意几个概念。 参数(Parameters): 参数是指构成模…...
SprinBoot+Vue远程教育网站的设计与实现
目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优质…...
docker的基本操作
目录 一,应用部署 创建容器 进入容器 创建有端口的容器 通过ssh进入容器 二、镜像操作 搜索镜像 拉取镜像 查看本地镜像 删除镜像 导入镜像 三、容器操作 创建并启动容器 使用 docker run 命令创建并启动一个容器 创建一个有端口号的容器 查看正在运…...
理解 RabbitMQ:生产者、连接、通道、交换机、队列与消费者的消息流
在分布式消息系统中,RabbitMQ 是一个非常流行的消息代理。它的核心理念是解耦应用程序的生产者和消费者,使得消息能够可靠地从一方传递到另一方。本文将带你深入了解 RabbitMQ 中 生产者、连接、通道、交换机、队列 和 消费者 之间的消息流,并…...
【截图服务 +打包】pkg打包 puppeteer
目录 最后结论 windows打包成服务 定制executablePath 服务遇到的问题 使用java开一个线程启动 遇到的问题与解决 版本匹配问题 打出包后的运行报错问题 linux下的安装 安装n 库缺少 程序运行后的报错 制作 运行报错与修改后成功 参考文档 最后结论 pkg -t win…...
深入理解Servlet的并发处理机制小波制图流程图
在Java Web开发中,Servlet是处理HTTP请求的核心组件。理解Servlet如何处理并发请求对于开发高性能Web应用至关重要。本文将深入探讨Servlet的生命周期、实例化过程以及多线程处理机制。 Servlet的生命周期和实例化 Servlet遵循单例模式,对于每个Servle…...
Ajax和XMLHttpRequest之间的关系
Ajax和XMLHttpRequest之间的关系是非常密切的。Ajax(Asynchronous JavaScript and XML)是一种网页开发技术,用于创建交互式的应用程序或网站。而XMLHttpRequest是Ajax的核心技术之一。 XMLHttpRequest:这是一个JavaScript对象&…...
Linxu系统:kill命令
1、命令详解: kill命令是用于向进程发送信号,通常用来终止某个指定PID服务进程,kill命令可以发送不同的信号给目标进程,来实现不同的操作,如果不指定信号,默认会发送 TERM 信号(15)&…...
解决缺少genconfig
编译鸿蒙L0系统时,遇到报错: [OHOS INFO] Returned 127. [OHOS INFO] stderr: [OHOS INFO] [OHOS INFO] env: “genconfig”: 没有那个文件或目录 [OHOS INFO] [OHOS INFO] See //kernel/liteos_m/BUILD.gn:34:1: whence it was imported. [OHOS INFO] …...
百易云资产管理运营系统 house.save.php SQL注入漏洞
1 产品简介 百易云资产管理运营系统,是专门针对企业不动产资产管理和运营需求而设计的一套综合解决方案。该系统能够覆盖资产的全生命周期管理,包括资产的登记、盘点、评估、处置等多个环节,同时提供强大的运营分析功能,帮助企业…...
【安卓13 源码】Input子系统(3) - EventHub增加设备的流程
由前面的分析知道,在创建inputreader 线程的时候,会去循环执行 looponce 方法。主要的处理工作是: 通过 getEvents() 从 EventHub 获取未处理的事件,这些事件分为两类:一类是原始输入事 件即从设备节点中读取出的原始…...
基于JAVA+SpringBoot+Vue的网上商城系统的设计与实现
基于JAVASpringBootVue的网上商城系统的设计与实现 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接…...
Mysql基础练习题 1729.求关注者的数量 (力扣)
编写解决方案,对于每一个用户,返回该用户的关注者数量。 #按 user_id 的顺序返回结果表 题目链接: https://leetcode.cn/problems/find-followers-count/description/ 建表插入语句: Create table If Not Exists Followers(us…...
【鸿蒙HarmonyOS NEXT】页面和自定义组件生命周期
【鸿蒙HarmonyOS NEXT】页面和自定义组件生命周期 一、环境说明二、页面和自定义组件生命周期三、示例代码加以说明四、小结 一、环境说明 DevEco Studio 版本: API版本:以12为主 二、页面和自定义组件生命周期 需要明确几个概念: 页面…...
Node.js Express 框架
Node.js Express 框架 介绍 Express 是一个快速、开放、极简的 Node.js Web 框架。它为构建 Web 应用程序和服务提供了一个强大的工具集,使得开发过程更加高效和便捷。Express 的设计哲学是提供一个最小的 API,让开发者可以轻松地构建自定义的 Web 应用程序。它被广泛用于构…...
生日贺卡录放音芯片,多段音频录音ic生产厂商,NVF04M-32minute
可以录音播放的生日贺卡与传统的纸质贺卡相比,它有着创意以及个性的特点,仅需少量的电子元器件,即可实现录音功能,搭配上文字,让声音存储在生日贺卡里,让贺卡也变得有温度,祝福我想亲口对TA说。…...
电影《西施新传》首映礼,九月金秋全国正式公映
2024年9月1日,古装谋略情感影片《西施新传》在无锡大世界影城中山路IMAX激光店举办首映礼。电影《西施新传》根据作家沈雅琴、笔名一蝶的同名小说改编,以家喻户晓四大美人之首的西施为主人公,讲述了春秋末期吴越战争的故事。越国败于吴国&…...
【H2O2|全栈】关于CSS(1)CSS基础(一)
目录 CSS基础知识 前言 准备工作 啥是CSS? 如何引用CSS? 选择器 通配符选择器 类名(class)选择器 id选择器 CSS解析顺序(优先级) 常见CSS标签(一) 字体属性 font-style…...
动态规划算法之背包问题详细解读(附带Java代码解读)
动态规划中的背包问题(Knapsack Problem)是经典问题之一,通常用来解决选择一组物品放入背包使得背包的价值最大化的问题。根据问题条件的不同,背包问题有很多种变体,如0-1背包问题、完全背包问题、多重背包问题等。这里…...
Vue3+TypeScript二次封装axios
安装如下 npm install axios 第一步:创建config配置文件,用于存放请求后端的ip地址,用于后期打包后便于修改ip地址。 注:typescript要求参数要有类型。(ES6 定义对象 属性 类型 修改的是属性的值) inte…...
盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...
安宝特方案丨XRSOP人员作业标准化管理平台:AR智慧点检验收套件
在选煤厂、化工厂、钢铁厂等过程生产型企业,其生产设备的运行效率和非计划停机对工业制造效益有较大影响。 随着企业自动化和智能化建设的推进,需提前预防假检、错检、漏检,推动智慧生产运维系统数据的流动和现场赋能应用。同时,…...
从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路
进入2025年以来,尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断,但全球市场热度依然高涨,入局者持续增加。 以国内市场为例,天眼查专业版数据显示,截至5月底,我国现存在业、存续状态的机器人相关企…...
React Native在HarmonyOS 5.0阅读类应用开发中的实践
一、技术选型背景 随着HarmonyOS 5.0对Web兼容层的增强,React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。 二、核心实现方案 1. 环境配置 (1)使用React Native…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...
自然语言处理——Transformer
自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...
【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...
html-<abbr> 缩写或首字母缩略词
定义与作用 <abbr> 标签用于表示缩写或首字母缩略词,它可以帮助用户更好地理解缩写的含义,尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时,会显示一个提示框。 示例&#x…...
基于Java+MySQL实现(GUI)客户管理系统
客户资料管理系统的设计与实现 第一章 需求分析 1.1 需求总体介绍 本项目为了方便维护客户信息为了方便维护客户信息,对客户进行统一管理,可以把所有客户信息录入系统,进行维护和统计功能。可通过文件的方式保存相关录入数据,对…...
