当前位置：首页 > news >正文

大语言模型学习

news 2026/2/8 13:45:16

大语言模型发展历程

当前国内外主流LLM模型

‌一、国外主流LLM‌

‌LLaMA2‌
- Meta推出的开源模型，参数规模涵盖70亿至700亿，支持代码生成和多领域任务适配‌57。
- 衍生版本包括Code Llama（代码生成优化）和Llama Chat（对话场景）‌56。
‌GPT系列（GPT-3.5/GPT-4）‌
- OpenAI开发的闭源模型，以多模态能力和长文本生成为核心优势，广泛应用于对话、代码生成等场景‌38。
‌BLOOM‌
- 由Hugging Face联合多国团队开发，1760亿参数，支持46种自然语言和13种编程语言，强调透明度和开源协作‌5。
‌PaLM & Claude‌
- Google的PaLM和Anthropic的Claude均为闭源模型，前者侧重科学计算，后者强化了推理和多模态能力‌37。
‌BERT‌
- Google早期基于Transformer架构的模型，虽参数较小（约3.4亿），但在自然语言理解任务中仍具影响力‌5。

‌二、国内主流LLM‌

‌文心一言（ERNIE Bot）‌
- 百度研发的知识增强模型，融合万亿级数据和千亿级知识图谱，支持复杂问答和创意生成‌37。
‌通义千问‌
- 阿里巴巴推出的开源模型（7B版本），基于Transformer架构，优化中英文混合任务处理‌36。
‌ChatGLM系列‌
- 包括ChatGLM-6B（62亿参数）和ChatGLM2-6B，支持双语对话，通过量化技术降低部署成本‌14。
- 衍生模型VisualGLM-6B（78亿参数）整合视觉与语言模态，实现图文交互‌46。
‌盘古大模型‌
- 华为开发的多模态模型，覆盖自然语言处理（NLP）、计算机视觉（CV）及科学计算领域‌7。
‌MiLM-6B‌
- 小米研发的64亿参数模型，在C-Eval和CMMLU中文评测中表现优异，尤其擅长STEM科目‌1。
‌MOSS‌
- 支持中英双语的开源对话模型，通过强化学习优化生成质量，适用于通用问答场景‌14。

‌三、其他特色模型‌

‌CodeFuse-13B‌：专精代码生成，预训练数据覆盖40+编程语言，HumanEval评测准确率达37.1%‌1。
‌鹏程·盘古α‌：中文预训练模型，参数规模达千亿级，侧重长文本生成和领域适配‌6。
‌LaWGPT‌：基于中文法律知识微调的模型，适用于法律咨询和文书生成‌6。

大模型不足

当前大模型的不足主要体现在以下方面：

一、技术架构缺陷

‌数据与算力依赖过高‌
大模型训练需消耗海量多模态数据及算力，万亿级参数规模导致资源投入呈指数级增长‌12。此外，海量小文件存储面临元数据管理挑战，需平衡扩展性与访问延时‌1。
‌逻辑推理能力薄弱‌
在处理需逻辑推理、数值计算的复杂问题时表现较差，尤其在多步骤推理场景中准确率显著下降‌23。例如20步推理后准确率可能低于36%‌4。
‌灾难性遗忘与无记忆性‌
训练新任务会损害原有任务性能，且在推理阶段无法记忆历史数据或场景（如自动驾驶需反复重新计算路况）‌23。多数大模型不具备持续记忆能力，依赖有限上下文窗口‌38。

二、知识与应用局限

‌知识时效性与领域局限‌
大模型知识库仅覆盖训练数据截止时间点内容，无法实时更新‌5。同时缺乏特定领域（如企业私有数据）的专业知识，影响垂直场景应用效果‌5。
‌幻觉问题频发‌
生成内容存在事实性错误或虚构信息，例如伪造参考文献、错误解答数学题等。这与基于概率预测的Transformer架构特性直接相关‌45。

三、模型可控性不足

‌自我纠错能力缺失‌
无法识别错误来源（如训练数据缺陷或算法漏洞），更缺乏自主修正机制。典型案例包括GPT-4算术错误后无法定位问题根源‌23。
‌黑箱模型可解释性差‌
决策过程不透明，导致医疗、法律等关键领域应用受限。调试困难进一步加剧优化挑战‌46。

四、资源与安全风险

‌计算成本高昂‌
训练与部署需超大规模算力支持，对普通机构形成技术壁垒‌16。
‌数据偏见与标注错误‌
训练数据隐含社会偏见可能被放大，人工标注错误易导致模型认知偏差‌6。

AIGC产业解析

AIGC基础层

算力基础数据基础算法基础

AIGC大模型层

通用基础大模型行业垂直型基础大模型业务垂直基础大模型

AIGC工具层

AI Agents 模型平台模型服务 AutoGPT LangChain

AIGC应用层

大语言模型学习

大语言模型发展历程当前国内外主流LLM模型 ‌一、国外主流LLM‌ ‌LLaMA2‌ Meta推出的开源模型，参数规模涵盖70亿至700亿，支持代码生成和多领域任务适配‌57。衍生版本包括Code Llama（代码生成优化）和Llama Chat（对…...

编程日记 2025/3/3 6:34:41

夜天之书 #106 Apache 软件基金会如何投票选举？

近期若干开源组织进行换届选举。在此期间，拥有投票权的成员往往会热烈讨论，提名新成员候选人和治理团队的候选人。虽然讨论是容易进行的，但是实际的投票流程和运作方式，在一个成员众多的组织中，可能会有不少成员并不清…...

编程日记 2025/3/3 6:33:40

从Aurora看Xanadu可扩展模块化光量子计算机的现状与未来展望

从Aurora看Xanadu可扩展光量子计算机的现状与未来展望一、引言 1.1 研究背景与意义随着信息技术的飞速发展，经典计算机在许多领域取得了巨大的成功，但在面对一些复杂问题时，其计算能力逐渐接近极限。量子计算机作为一种新型计算设备，基于量子力学原理，能够实现并行计算…...

编程日记 2025/3/3 6:32:39

WPS如何添加论文中的文献引用右上角小标

给参考文献标号 1、将光标位于参考文献之前，然后点击如下图所示位置 2、点击相应的列表，然后点击确定然后选中第一行，点击格式刷，刷一下其余行在原文中插入右上角的引用标 1、使光标位于想插入引用光标处，点击交叉…...

编程日记 2025/3/3 6:31:38

如何理解语言模型

统计语言模型先看语言模型，语言即自然语言，模型及我们要解决的某个任务。任务一：判断哪句话出现的概率大任务二：预判空缺的位置最有可能是哪个词再看统计，统计即解决上述两个任务的解决方法。先对语句进行分词…...

编程日记 2025/3/3 6:29:35

准确-NGINX 1.26.2配置正向代理并编译安装的完整过程

NGINX 1.26.2 配置正向代理并编译安装的完整过程，使用了 ngx_http_proxy_connect_module 模块。 1. 环境准备 1.1 安装依赖确保系统安装了以下必要的依赖： sudo yum install -y gcc gcc-c make pcre-devel zlib-devel openssl-devel1.2 下载 NGINX 源…...

编程日记 2025/3/3 6:28:34

企业如何将ERP和BPM项目结合提升核心竞争力

无论是实施ERP项目还是BPM项目，企业变革的根本目的的确是为了让企业变得更加强大，更具竞争力。这就像是练武功，无论是学习少林拳还是太极拳，最终的目标都是为了强身健体，提升战斗力。如何将ERP和BPM项目有效结合以及…...

编程日记 2025/3/3 6:27:33

Linux内核以太网驱动分析

1.网络接口卡接收和发送数据在Linux内核中的处理流程如下： 1. 网络接口卡（Network Interface Card, NIC） 作用：负责物理层的数据传输，将数据包从网络介质（如以太网线）读取到内存中，或…...

编程日记 2025/3/3 6:24:30

分布式微服务系统架构第92集：智能健康监测设备Java开发方案

加群联系作者vx：xiaoda0423 仓库地址：https://webvueblog.github.io/JavaPlusDoc/ https://1024bat.cn 嗯，用户需要为血压、血糖、尿酸和血酮测试仪编写产品描述，同时涉及Java开发。首先，我得确定他们的需求是什么。可…...

编程日记 2025/3/3 6:23:28

【推荐项目】023-游泳俱乐部管理系统

023 游泳俱乐部管理系统游泳俱乐部管理系统概述前端技术框架： 我们优雅地采用了Vue.js作为游泳俱乐部管理系统的前端基础框架。Vue.js以其轻盈、高效和易于上手的特点，为我们的用户界面带来了极致的流畅性和响应速度。通过Vue.js，我们为…...

编程日记 2025/3/3 6:22:27

webpack实例打包构建流程对应的常见配置 1. mode: development2. entry: ./src/index.js3. output4. module.rules5. Loader6. Plugin7. devServerwebpack.config.js webpack常见配置实例配置详解 mode: ‘development’: 设置 Webpack 运行模式&am…...

编程日记 2025/3/3 6:20:25

C++核心编程之STL

STL初识：从零开始的奇幻冒险 1 STL的诞生：一场代码复用的革命很久很久以前，在编程的世界里，开发者们每天都在重复造轮子。无论是数据结构还是算法，每个人都得从头开始写，仿佛在无尽的沙漠中寻找绿洲。直到…...

编程日记 2025/3/3 6:18:23

Mac mini M4安装nvm 和node

先要安装Homebrew（如果尚未安装）。在终端中输入以下命令： /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 根据提示操作完成Homebrew的安装。安装nvm。在终端中输入以下命令&#xf…...

编程日记 2025/3/3 6:17:21

Level DB --- 写流程架构

Level DB是高效的k-v数据库，接受多线程写，既要保证多线程写临界区安全，同时又要保证写流程的尽量高效性。写入数据 Level DB 用一个deque用来衔接生产-消费模型。一个新的kv写入请求，会先将kv封装成Writer结构体。插入之前要先…...

编程日记 2025/3/3 6:16:20

【中等】707.设计链表

题目描述你可以选择使用单链表或者双链表，设计并实现自己的链表。单链表中的节点应该具备两个属性：val 和 next 。val 是当前节点的值，next 是指向下一个节点的指针/引用。如果是双向链表，则还需要属性 prev 以指示链表中的…...

编程日记 2025/3/3 6:15:17

深入理解Reactor Flux的生成方法

在Reactor框架中，Flux 是一个非常重要的概念，它用于表示一个可以产生多个事件的响应式流。通过 Flux 提供的多种生成方法，我们可以灵活地创建各种类型的流。本文将详细介绍 Flux.generate 方法的使用，并通过实例帮助读者更好地理解…...

编程日记 2025/3/3 6:14:16

next实现原理

Next.js 是一个基于 React 的服务器端渲染（SSR） 和静态生成（SSG） 框架，它的实现原理涉及多个关键技术点，包括服务端渲染（SSR）、静态生成（SSG）、客户端渲染…...

编程日记 2025/3/3 6:12:13

LeetCode 热题 100 53. 最大子数组和

LeetCode 热题 100 | 53. 最大子数组和大家好，今天我们来解决一道经典的算法题——最大子数组和。这道题在 LeetCode 上被标记为中等难度，要求我们找出一个具有最大和的连续子数组，并返回其最大和。下面我将详细讲解解题思路，并…...

编程日记 2025/3/3 6:10:11

DeepSeek 与大数据治理：AI 赋能数据管理的未来

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言在当今数字化时代，数据已成为企业和机构的重要资产，而大数据治理（Big Data Governan…...

编程日记 2025/3/3 6:09:10

【时时三省】(C语言基础)浮点型数据

山不在高，有仙则名。水不在深，有龙则灵。 ----CSDN 时时三省浮点型数据浮点型数据是用来表示具有小数点的实数的，为什么在C中把实数称为浮点数呢?在C语言中，实数是以指数正式存放在在储单元中的。一个实数表示为指数可以有不…...

编程日记 2025/3/3 6:04:06

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/11/30 15:33:36

idea大量爆红问题解决

问题描述在学习和工作中，idea是程序员不可缺少的一个工具，但是突然在有些时候就会出现大量爆红的问题，发现无法跳转，无论是关机重启或者是替换root都无法解决就是如上所展示的问题，但是程序依然可以启动。问题解决…...

编程新知 2026/2/8 6:37:38

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2026/2/7 17:29:24

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2026/1/21 9:06:43

Java 8 Stream API 入门到实践详解

一、告别 for 循环！ 传统痛点： Java 8 之前，集合操作离不开冗长的 for 循环和匿名类。例如，过滤列表中的偶数： List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

编程新知 2026/1/12 10:41:22

Qt Widget类解析与代码注释

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码，写上注释当然可以！这段代码是 Qt …...

编程新知 2025/11/29 21:00:30

Golang dig框架与GraphQL的完美结合

将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用，可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器，能够帮助开发者更好地管理复杂的依赖关系，而 GraphQL 则是一种用于 API 的查询语言，能够提…...

编程新知 2025/12/31 8:38:23

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/11/25 6:49:02

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”，物流的终极形态正在诞生想象这样的场景： 凌晨3点，某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径；AI视觉系统在0.1秒内扫描包裹信息；数字孪生平台正模拟次日峰值流量压力…...

编程新知 2026/2/1 2:49:30

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23