大语言模型学习
大语言模型发展历程

当前国内外主流LLM模型
一、国外主流LLM
-
LLaMA2
- Meta推出的开源模型,参数规模涵盖70亿至700亿,支持代码生成和多领域任务适配57。
- 衍生版本包括Code Llama(代码生成优化)和Llama Chat(对话场景)56。
-
GPT系列(GPT-3.5/GPT-4)
- OpenAI开发的闭源模型,以多模态能力和长文本生成为核心优势,广泛应用于对话、代码生成等场景38。
-
BLOOM
- 由Hugging Face联合多国团队开发,1760亿参数,支持46种自然语言和13种编程语言,强调透明度和开源协作5。
-
PaLM & Claude
- Google的PaLM和Anthropic的Claude均为闭源模型,前者侧重科学计算,后者强化了推理和多模态能力37。
-
BERT
- Google早期基于Transformer架构的模型,虽参数较小(约3.4亿),但在自然语言理解任务中仍具影响力5。
二、国内主流LLM
-
文心一言(ERNIE Bot)
- 百度研发的知识增强模型,融合万亿级数据和千亿级知识图谱,支持复杂问答和创意生成37。
-
通义千问
- 阿里巴巴推出的开源模型(7B版本),基于Transformer架构,优化中英文混合任务处理36。
-
ChatGLM系列
- 包括ChatGLM-6B(62亿参数)和ChatGLM2-6B,支持双语对话,通过量化技术降低部署成本14。
- 衍生模型VisualGLM-6B(78亿参数)整合视觉与语言模态,实现图文交互46。
-
盘古大模型
- 华为开发的多模态模型,覆盖自然语言处理(NLP)、计算机视觉(CV)及科学计算领域7。
-
MiLM-6B
- 小米研发的64亿参数模型,在C-Eval和CMMLU中文评测中表现优异,尤其擅长STEM科目1。
-
MOSS
- 支持中英双语的开源对话模型,通过强化学习优化生成质量,适用于通用问答场景14。
三、其他特色模型
- CodeFuse-13B:专精代码生成,预训练数据覆盖40+编程语言,HumanEval评测准确率达37.1%1。
- 鹏程·盘古α:中文预训练模型,参数规模达千亿级,侧重长文本生成和领域适配6。
- LaWGPT:基于中文法律知识微调的模型,适用于法律咨询和文书生成6。
大模型不足

当前大模型的不足主要体现在以下方面:
一、技术架构缺陷
-
数据与算力依赖过高
大模型训练需消耗海量多模态数据及算力,万亿级参数规模导致资源投入呈指数级增长12。此外,海量小文件存储面临元数据管理挑战,需平衡扩展性与访问延时1。 -
逻辑推理能力薄弱
在处理需逻辑推理、数值计算的复杂问题时表现较差,尤其在多步骤推理场景中准确率显著下降23。例如20步推理后准确率可能低于36%4。 -
灾难性遗忘与无记忆性
训练新任务会损害原有任务性能,且在推理阶段无法记忆历史数据或场景(如自动驾驶需反复重新计算路况)23。多数大模型不具备持续记忆能力,依赖有限上下文窗口38。
二、知识与应用局限
-
知识时效性与领域局限
大模型知识库仅覆盖训练数据截止时间点内容,无法实时更新5。同时缺乏特定领域(如企业私有数据)的专业知识,影响垂直场景应用效果5。 -
幻觉问题频发
生成内容存在事实性错误或虚构信息,例如伪造参考文献、错误解答数学题等。这与基于概率预测的Transformer架构特性直接相关45。
三、模型可控性不足
-
自我纠错能力缺失
无法识别错误来源(如训练数据缺陷或算法漏洞),更缺乏自主修正机制。典型案例包括GPT-4算术错误后无法定位问题根源23。 -
黑箱模型可解释性差
决策过程不透明,导致医疗、法律等关键领域应用受限。调试困难进一步加剧优化挑战46。
四、资源与安全风险
-
计算成本高昂
训练与部署需超大规模算力支持,对普通机构形成技术壁垒16。 -
数据偏见与标注错误
训练数据隐含社会偏见可能被放大,人工标注错误易导致模型认知偏差6。
AIGC产业解析

AIGC基础层
算力基础 数据基础 算法基础
AIGC大模型层
通用基础大模型 行业垂直型基础大模型 业务垂直基础大模型
AIGC工具层
AI Agents 模型平台 模型服务 AutoGPT LangChain
AIGC应用层
相关文章:
大语言模型学习
大语言模型发展历程 当前国内外主流LLM模型 一、国外主流LLM LLaMA2 Meta推出的开源模型,参数规模涵盖70亿至700亿,支持代码生成和多领域任务适配57。衍生版本包括Code Llama(代码生成优化)和Llama Chat(对…...
夜天之书 #106 Apache 软件基金会如何投票选举?
近期若干开源组织进行换届选举。在此期间,拥有投票权的成员往往会热烈讨论,提名新成员候选人和治理团队的候选人。虽然讨论是容易进行的,但是实际的投票流程和运作方式,在一个成员众多的组织中,可能会有不少成员并不清…...
从Aurora看Xanadu可扩展模块化光量子计算机的现状与未来展望
从Aurora看Xanadu可扩展光量子计算机的现状与未来展望 一、引言 1.1 研究背景与意义 随着信息技术的飞速发展,经典计算机在许多领域取得了巨大的成功,但在面对一些复杂问题时,其计算能力逐渐接近极限。量子计算机作为一种新型计算设备,基于量子力学原理,能够实现并行计算…...
WPS如何添加论文中的文献引用右上角小标
给参考文献标号 1、将光标位于参考文献之前,然后点击如下图所示位置 2、点击相应的列表,然后点击确定 然后选中第一行,点击格式刷,刷一下其余行 在原文中插入右上角的引用标 1、使光标位于想插入引用光标处,点击交叉…...
如何理解语言模型
统计语言模型 先看语言模型,语言即自然语言,模型及我们要解决的某个任务。 任务一:判断哪句话出现的概率大 任务二:预判空缺的位置最有可能是哪个词 再看统计,统计即解决上述两个任务的解决方法。先对语句进行分词…...
准确-NGINX 1.26.2配置正向代理并编译安装的完整过程
NGINX 1.26.2 配置正向代理并编译安装的完整过程,使用了 ngx_http_proxy_connect_module 模块。 1. 环境准备 1.1 安装依赖 确保系统安装了以下必要的依赖: sudo yum install -y gcc gcc-c make pcre-devel zlib-devel openssl-devel1.2 下载 NGINX 源…...
企业如何将ERP和BPM项目结合提升核心竞争力
无论是实施ERP项目还是BPM项目,企业变革的根本目的的确是为了让企业变得更加强大,更具竞争力。 这就像是练武功,无论是学习少林拳还是太极拳,最终的目标都是为了强身健体,提升战斗力。 如何将ERP和BPM项目有效结合以及…...
Linux内核以太网驱动分析
1.网络接口卡接收和发送数据在Linux内核中的处理流程如下: 1. 网络接口卡(Network Interface Card, NIC) 作用:负责物理层的数据传输,将数据包从网络介质(如以太网线)读取到内存中,或…...
分布式微服务系统架构第92集:智能健康监测设备Java开发方案
加群联系作者vx:xiaoda0423 仓库地址:https://webvueblog.github.io/JavaPlusDoc/ https://1024bat.cn 嗯,用户需要为血压、血糖、尿酸和血酮测试仪编写产品描述,同时涉及Java开发。首先,我得确定他们的需求是什么。可…...
【推荐项目】023-游泳俱乐部管理系统
023 游泳俱乐部管理系统 游泳俱乐部管理系统概述 前端技术框架: 我们优雅地采用了Vue.js作为游泳俱乐部管理系统的前端基础框架。Vue.js以其轻盈、高效和易于上手的特点,为我们的用户界面带来了极致的流畅性和响应速度。通过Vue.js,我们为…...
Webpack常见配置实例
webpack实例 打包构建流程对应的常见配置 1. mode: development2. entry: ./src/index.js3. output4. module.rules5. Loader6. Plugin7. devServerwebpack.config.js webpack常见配置实例 配置详解 mode: ‘development’: 设置 Webpack 运行模式&am…...
C++核心编程之STL
STL初识:从零开始的奇幻冒险 1 STL的诞生:一场代码复用的革命 很久很久以前,在编程的世界里,开发者们每天都在重复造轮子。无论是数据结构还是算法,每个人都得从头开始写,仿佛在无尽的沙漠中寻找绿洲。直到…...
Mac mini M4安装nvm 和node
先要安装Homebrew(如果尚未安装)。在终端中输入以下命令: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 根据提示操作完成Homebrew的安装。 安装nvm。在终端中输入以下命令…...
Level DB --- 写流程架构
Level DB是高效的k-v数据库,接受多线程写,既要保证多线程写临界区安全,同时又要保证写流程的尽量高效性。 写入数据 Level DB 用一个deque用来衔接生产-消费模型。一个新的kv写入请求,会先将kv封装成Writer结构体。插入之前要先…...
【中等】707.设计链表
题目描述 你可以选择使用单链表或者双链表,设计并实现自己的链表。 单链表中的节点应该具备两个属性:val 和 next 。val 是当前节点的值,next 是指向下一个节点的指针/引用。 如果是双向链表,则还需要属性 prev 以指示链表中的…...
深入理解Reactor Flux的生成方法
在Reactor框架中,Flux 是一个非常重要的概念,它用于表示一个可以产生多个事件的响应式流。通过 Flux 提供的多种生成方法,我们可以灵活地创建各种类型的流。本文将详细介绍 Flux.generate 方法的使用,并通过实例帮助读者更好地理解…...
next实现原理
Next.js 是一个基于 React 的 服务器端渲染(SSR) 和 静态生成(SSG) 框架,它的实现原理涉及多个关键技术点,包括 服务端渲染(SSR)、静态生成(SSG)、客户端渲染…...
LeetCode 热题 100 53. 最大子数组和
LeetCode 热题 100 | 53. 最大子数组和 大家好,今天我们来解决一道经典的算法题——最大子数组和。这道题在 LeetCode 上被标记为中等难度,要求我们找出一个具有最大和的连续子数组,并返回其最大和。下面我将详细讲解解题思路,并…...
DeepSeek 与大数据治理:AI 赋能数据管理的未来
📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 在当今数字化时代,数据已成为企业和机构的重要资产,而大数据治理(Big Data Governan…...
【时时三省】(C语言基础)浮点型数据
山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 浮点型数据 浮点型数据是用来表示具有小数点的实数的,为什么在C中把实数称为浮点数呢?在C语言中,实数是以指数正式存放在在储单元中的。一个实数表示为指数可以有不…...
RestClient
什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端,它允许HTTP与Elasticsearch 集群通信,而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级ÿ…...
idea大量爆红问题解决
问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...
盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...
React第五十七节 Router中RouterProvider使用详解及注意事项
前言 在 React Router v6.4 中,RouterProvider 是一个核心组件,用于提供基于数据路由(data routers)的新型路由方案。 它替代了传统的 <BrowserRouter>,支持更强大的数据加载和操作功能(如 loader 和…...
Java 8 Stream API 入门到实践详解
一、告别 for 循环! 传统痛点: Java 8 之前,集合操作离不开冗长的 for 循环和匿名类。例如,过滤列表中的偶数: List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...
Qt Widget类解析与代码注释
#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码,写上注释 当然可以!这段代码是 Qt …...
Golang dig框架与GraphQL的完美结合
将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用,可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器,能够帮助开发者更好地管理复杂的依赖关系,而 GraphQL 则是一种用于 API 的查询语言,能够提…...
C# SqlSugar:依赖注入与仓储模式实践
C# SqlSugar:依赖注入与仓储模式实践 在 C# 的应用开发中,数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护,许多开发者会选择成熟的 ORM(对象关系映射)框架,SqlSugar 就是其中备受…...
智能仓储的未来:自动化、AI与数据分析如何重塑物流中心
当仓库学会“思考”,物流的终极形态正在诞生 想象这样的场景: 凌晨3点,某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径;AI视觉系统在0.1秒内扫描包裹信息;数字孪生平台正模拟次日峰值流量压力…...
初探Service服务发现机制
1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能:服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源…...
