大语言模型学习
大语言模型发展历程
当前国内外主流LLM模型
一、国外主流LLM
-
LLaMA2
- Meta推出的开源模型,参数规模涵盖70亿至700亿,支持代码生成和多领域任务适配57。
- 衍生版本包括Code Llama(代码生成优化)和Llama Chat(对话场景)56。
-
GPT系列(GPT-3.5/GPT-4)
- OpenAI开发的闭源模型,以多模态能力和长文本生成为核心优势,广泛应用于对话、代码生成等场景38。
-
BLOOM
- 由Hugging Face联合多国团队开发,1760亿参数,支持46种自然语言和13种编程语言,强调透明度和开源协作5。
-
PaLM & Claude
- Google的PaLM和Anthropic的Claude均为闭源模型,前者侧重科学计算,后者强化了推理和多模态能力37。
-
BERT
- Google早期基于Transformer架构的模型,虽参数较小(约3.4亿),但在自然语言理解任务中仍具影响力5。
二、国内主流LLM
-
文心一言(ERNIE Bot)
- 百度研发的知识增强模型,融合万亿级数据和千亿级知识图谱,支持复杂问答和创意生成37。
-
通义千问
- 阿里巴巴推出的开源模型(7B版本),基于Transformer架构,优化中英文混合任务处理36。
-
ChatGLM系列
- 包括ChatGLM-6B(62亿参数)和ChatGLM2-6B,支持双语对话,通过量化技术降低部署成本14。
- 衍生模型VisualGLM-6B(78亿参数)整合视觉与语言模态,实现图文交互46。
-
盘古大模型
- 华为开发的多模态模型,覆盖自然语言处理(NLP)、计算机视觉(CV)及科学计算领域7。
-
MiLM-6B
- 小米研发的64亿参数模型,在C-Eval和CMMLU中文评测中表现优异,尤其擅长STEM科目1。
-
MOSS
- 支持中英双语的开源对话模型,通过强化学习优化生成质量,适用于通用问答场景14。
三、其他特色模型
- CodeFuse-13B:专精代码生成,预训练数据覆盖40+编程语言,HumanEval评测准确率达37.1%1。
- 鹏程·盘古α:中文预训练模型,参数规模达千亿级,侧重长文本生成和领域适配6。
- LaWGPT:基于中文法律知识微调的模型,适用于法律咨询和文书生成6。
大模型不足
当前大模型的不足主要体现在以下方面:
一、技术架构缺陷
-
数据与算力依赖过高
大模型训练需消耗海量多模态数据及算力,万亿级参数规模导致资源投入呈指数级增长12。此外,海量小文件存储面临元数据管理挑战,需平衡扩展性与访问延时1。 -
逻辑推理能力薄弱
在处理需逻辑推理、数值计算的复杂问题时表现较差,尤其在多步骤推理场景中准确率显著下降23。例如20步推理后准确率可能低于36%4。 -
灾难性遗忘与无记忆性
训练新任务会损害原有任务性能,且在推理阶段无法记忆历史数据或场景(如自动驾驶需反复重新计算路况)23。多数大模型不具备持续记忆能力,依赖有限上下文窗口38。
二、知识与应用局限
-
知识时效性与领域局限
大模型知识库仅覆盖训练数据截止时间点内容,无法实时更新5。同时缺乏特定领域(如企业私有数据)的专业知识,影响垂直场景应用效果5。 -
幻觉问题频发
生成内容存在事实性错误或虚构信息,例如伪造参考文献、错误解答数学题等。这与基于概率预测的Transformer架构特性直接相关45。
三、模型可控性不足
-
自我纠错能力缺失
无法识别错误来源(如训练数据缺陷或算法漏洞),更缺乏自主修正机制。典型案例包括GPT-4算术错误后无法定位问题根源23。 -
黑箱模型可解释性差
决策过程不透明,导致医疗、法律等关键领域应用受限。调试困难进一步加剧优化挑战46。
四、资源与安全风险
-
计算成本高昂
训练与部署需超大规模算力支持,对普通机构形成技术壁垒16。 -
数据偏见与标注错误
训练数据隐含社会偏见可能被放大,人工标注错误易导致模型认知偏差6。
AIGC产业解析
AIGC基础层
算力基础 数据基础 算法基础
AIGC大模型层
通用基础大模型 行业垂直型基础大模型 业务垂直基础大模型
AIGC工具层
AI Agents 模型平台 模型服务 AutoGPT LangChain
AIGC应用层
相关文章:

大语言模型学习
大语言模型发展历程 当前国内外主流LLM模型 一、国外主流LLM LLaMA2 Meta推出的开源模型,参数规模涵盖70亿至700亿,支持代码生成和多领域任务适配57。衍生版本包括Code Llama(代码生成优化)和Llama Chat(对…...

夜天之书 #106 Apache 软件基金会如何投票选举?
近期若干开源组织进行换届选举。在此期间,拥有投票权的成员往往会热烈讨论,提名新成员候选人和治理团队的候选人。虽然讨论是容易进行的,但是实际的投票流程和运作方式,在一个成员众多的组织中,可能会有不少成员并不清…...

从Aurora看Xanadu可扩展模块化光量子计算机的现状与未来展望
从Aurora看Xanadu可扩展光量子计算机的现状与未来展望 一、引言 1.1 研究背景与意义 随着信息技术的飞速发展,经典计算机在许多领域取得了巨大的成功,但在面对一些复杂问题时,其计算能力逐渐接近极限。量子计算机作为一种新型计算设备,基于量子力学原理,能够实现并行计算…...

WPS如何添加论文中的文献引用右上角小标
给参考文献标号 1、将光标位于参考文献之前,然后点击如下图所示位置 2、点击相应的列表,然后点击确定 然后选中第一行,点击格式刷,刷一下其余行 在原文中插入右上角的引用标 1、使光标位于想插入引用光标处,点击交叉…...

如何理解语言模型
统计语言模型 先看语言模型,语言即自然语言,模型及我们要解决的某个任务。 任务一:判断哪句话出现的概率大 任务二:预判空缺的位置最有可能是哪个词 再看统计,统计即解决上述两个任务的解决方法。先对语句进行分词…...
准确-NGINX 1.26.2配置正向代理并编译安装的完整过程
NGINX 1.26.2 配置正向代理并编译安装的完整过程,使用了 ngx_http_proxy_connect_module 模块。 1. 环境准备 1.1 安装依赖 确保系统安装了以下必要的依赖: sudo yum install -y gcc gcc-c make pcre-devel zlib-devel openssl-devel1.2 下载 NGINX 源…...

企业如何将ERP和BPM项目结合提升核心竞争力
无论是实施ERP项目还是BPM项目,企业变革的根本目的的确是为了让企业变得更加强大,更具竞争力。 这就像是练武功,无论是学习少林拳还是太极拳,最终的目标都是为了强身健体,提升战斗力。 如何将ERP和BPM项目有效结合以及…...

Linux内核以太网驱动分析
1.网络接口卡接收和发送数据在Linux内核中的处理流程如下: 1. 网络接口卡(Network Interface Card, NIC) 作用:负责物理层的数据传输,将数据包从网络介质(如以太网线)读取到内存中,或…...
分布式微服务系统架构第92集:智能健康监测设备Java开发方案
加群联系作者vx:xiaoda0423 仓库地址:https://webvueblog.github.io/JavaPlusDoc/ https://1024bat.cn 嗯,用户需要为血压、血糖、尿酸和血酮测试仪编写产品描述,同时涉及Java开发。首先,我得确定他们的需求是什么。可…...
【推荐项目】023-游泳俱乐部管理系统
023 游泳俱乐部管理系统 游泳俱乐部管理系统概述 前端技术框架: 我们优雅地采用了Vue.js作为游泳俱乐部管理系统的前端基础框架。Vue.js以其轻盈、高效和易于上手的特点,为我们的用户界面带来了极致的流畅性和响应速度。通过Vue.js,我们为…...
Webpack常见配置实例
webpack实例 打包构建流程对应的常见配置 1. mode: development2. entry: ./src/index.js3. output4. module.rules5. Loader6. Plugin7. devServerwebpack.config.js webpack常见配置实例 配置详解 mode: ‘development’: 设置 Webpack 运行模式&am…...
C++核心编程之STL
STL初识:从零开始的奇幻冒险 1 STL的诞生:一场代码复用的革命 很久很久以前,在编程的世界里,开发者们每天都在重复造轮子。无论是数据结构还是算法,每个人都得从头开始写,仿佛在无尽的沙漠中寻找绿洲。直到…...

Mac mini M4安装nvm 和node
先要安装Homebrew(如果尚未安装)。在终端中输入以下命令: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 根据提示操作完成Homebrew的安装。 安装nvm。在终端中输入以下命令…...

Level DB --- 写流程架构
Level DB是高效的k-v数据库,接受多线程写,既要保证多线程写临界区安全,同时又要保证写流程的尽量高效性。 写入数据 Level DB 用一个deque用来衔接生产-消费模型。一个新的kv写入请求,会先将kv封装成Writer结构体。插入之前要先…...

【中等】707.设计链表
题目描述 你可以选择使用单链表或者双链表,设计并实现自己的链表。 单链表中的节点应该具备两个属性:val 和 next 。val 是当前节点的值,next 是指向下一个节点的指针/引用。 如果是双向链表,则还需要属性 prev 以指示链表中的…...
深入理解Reactor Flux的生成方法
在Reactor框架中,Flux 是一个非常重要的概念,它用于表示一个可以产生多个事件的响应式流。通过 Flux 提供的多种生成方法,我们可以灵活地创建各种类型的流。本文将详细介绍 Flux.generate 方法的使用,并通过实例帮助读者更好地理解…...
next实现原理
Next.js 是一个基于 React 的 服务器端渲染(SSR) 和 静态生成(SSG) 框架,它的实现原理涉及多个关键技术点,包括 服务端渲染(SSR)、静态生成(SSG)、客户端渲染…...
LeetCode 热题 100 53. 最大子数组和
LeetCode 热题 100 | 53. 最大子数组和 大家好,今天我们来解决一道经典的算法题——最大子数组和。这道题在 LeetCode 上被标记为中等难度,要求我们找出一个具有最大和的连续子数组,并返回其最大和。下面我将详细讲解解题思路,并…...

DeepSeek 与大数据治理:AI 赋能数据管理的未来
📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 在当今数字化时代,数据已成为企业和机构的重要资产,而大数据治理(Big Data Governan…...

【时时三省】(C语言基础)浮点型数据
山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 浮点型数据 浮点型数据是用来表示具有小数点的实数的,为什么在C中把实数称为浮点数呢?在C语言中,实数是以指数正式存放在在储单元中的。一个实数表示为指数可以有不…...
DockerHub与私有镜像仓库在容器化中的应用与管理
哈喽,大家好,我是左手python! Docker Hub的应用与管理 Docker Hub的基本概念与使用方法 Docker Hub是Docker官方提供的一个公共镜像仓库,用户可以在其中找到各种操作系统、软件和应用的镜像。开发者可以通过Docker Hub轻松获取所…...
QMC5883L的驱动
简介 本篇文章的代码已经上传到了github上面,开源代码 作为一个电子罗盘模块,我们可以通过I2C从中获取偏航角yaw,相对于六轴陀螺仪的yaw,qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

visual studio 2022更改主题为深色
visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中,选择 环境 -> 常规 ,将其中的颜色主题改成深色 点击确定,更改完成...

【JVM】- 内存结构
引言 JVM:Java Virtual Machine 定义:Java虚拟机,Java二进制字节码的运行环境好处: 一次编写,到处运行自动内存管理,垃圾回收的功能数组下标越界检查(会抛异常,不会覆盖到其他代码…...

LeetCode - 394. 字符串解码
题目 394. 字符串解码 - 力扣(LeetCode) 思路 使用两个栈:一个存储重复次数,一个存储字符串 遍历输入字符串: 数字处理:遇到数字时,累积计算重复次数左括号处理:保存当前状态&a…...

1.3 VSCode安装与环境配置
进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件,然后打开终端,进入下载文件夹,键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...
Spring Boot面试题精选汇总
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...
GitHub 趋势日报 (2025年06月08日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...

Reasoning over Uncertain Text by Generative Large Language Models
https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...

并发编程 - go版
1.并发编程基础概念 进程和线程 A. 进程是程序在操作系统中的一次执行过程,系统进行资源分配和调度的一个独立单位。B. 线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。C.一个进程可以创建和撤销多个线程;同一个进程中…...