【人人都能看懂的大模型原理】(一)
前言
当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材料比比皆是而缺乏深入分析。当然,大模型的技术体系非常庞大,全面了解非常困难。从横向来看,涉及到语言大模型到多模态大模型;从纵向来看,又涉及算法、模型、分布式软件、集群等专业知识。作者认识到社区缺乏一些学习资料,能够将复杂问题简单化,并且不失深度地介绍大模型的基本原理和技术。本文尝试对大模型的机器学习原理进行统一,并且绕过复杂的公式化表达和推导,给读者深入浅出的理论解释,帮助读者拨开大模型神秘面纱。作者认为只有深刻理解了理论原理,才能应对千变万化的应用需求。本文章适合各个角色的人阅读,包括BD、SA、PLM、研发和各层管理者。

一、大模型的外在表现和现实意义
1.1 泛化性和边际成本问题
最近几年,大模型甚嚣尘上。特别是自ChatGPT推出之后,大街小巷都在讨论大模型。那么大模型为什么吸引了如此多的注意力呢?大模型到底解决什么什么现实问题?人类经历了第一波深度学习热潮和退潮之后,体会到第一波深度学习解决问题的严重问题。并且在大模型身上看到了问题彻底解决的曙光。自深度学习爆发以来,大模型进入了千行百业。从最早的监控和泛娱乐行业,到后来的工业生产,深度学习技术都和行业紧密结合。本文作者自己经历了整个过程,从刚进公司部门200人到现在的2000人,作者经历了AI进入千行百业的完整过程。
然而,AI进入千行百业过程中出现了一个严重违背商业逻辑的现象。那就是边际成本没有随着规模的增长而降低。一个合理的商业scale law是一次投入,千万次复制,最终边际成本趋向于零。然而,由于上一波AI浪潮中,深度学习表现出非常差的泛化性,导致只要切换一个场景,都需要研发人员参与定制。 比如最常见的人脸识别技术,手机认证的人脸识别模型和监控的人脸识别模型无法通用。甚至一些场景由于背光或者逆光问题,都将重新开发模型。在工业领域,这种现象就更加明显,在工业检测中,摄像机安装角度的改变,或者检测目标的改变,都需要重新定制模型。这就导致你无法做一个通用模型,然后无限推广。因此上一波AI技术浪潮中,大多数创业公司盈利都非常困难,除了少数在大场景下获得足够市场空间的几家公司成功上市以外,绝大多数AI创业公司都很难长大。如此之下,AI进入千行百业就变成一句空话了,因为并非所有的行业都有高额利润。那些低利润行业(农业、低端制造业)都无法享受AI的红利。当然,小模型的泛化性差的原因有很多,比如信号的变化太多,信号模式挖掘不够充分等等,作者在此不再分析。
大模型因为其巨大的学习量天生具备更加优良的泛化性。这让大家看到了解决模型泛化性,甚至达到通用人工智能(AGI)的曙光。当然,这也吸引了无数的资本。
1.2 传统降低边际成本方案
在讲大模型是如何提升泛化性之前,我们不妨回顾一下过去几年,我们降低边际成本的一些方案。这些方案从一定程度上降低边际成本,但是泛化性明显还是不足。
1.2.1 ModelArts Pro工作流
在传统AI模型开发过程中,模型泛化性太差,导致需要不断进行迭代优化。并且切换一个相似的任务,也需要重新开发一次。效率非常低下。比如OCR任务需要解决非常多不同种类的表单的识别。而小模型又无法进行通用识别。因此需要反复开发模型应对各种发票、身份证、驾驶证等等。但是我们发现,其实每一次迭代或者相似任务的重新开发,流程都差不多。基本上表现为收集数据、标注、训练、转模型、部署推理引擎。
如此多重复的劳动,能否借助工具来提升呢。ModelArts Pro的设计理论就源于此。先在平台中内置某一些大类任务的完整训练代码,然后通过工作流的方式暴露部分接口,并自动化运行剩下的部分。
1.2.2 ModelArts数据回流和主动学习
传统AI开发范式中还有一个特点,就是算法开发者大部分时间都在治理数据,包括数据采集、标注和质量治理。这部分时间占比因任务不同而不同。如遇到数据很稀缺的场景,那么这部分工作就变得非常繁重。为了应对这个问题,ModelArts开发了自动数据回流系统,能够在POC阶段介入用户系统,并快速实现数据的自动收集。配合主动学习策略对数据进行筛选,以获得对模型完备性有利的数据。
1.2.3 半监督学习
数据标注同样是一项非常繁琐的工作。如果能够减少这部分工作量能够极大加速开发流程。半监督学习是非常有效的解决手段,通过极少数的标注,甚至弱标注,就能够训练一个媲美全监督训练的模型。下图1.6是半监督学习的三大理论方案,在此不再赘述。
1.3 大模型的智能涌现
以ChatGPT为代表的大模型引起用户广泛兴趣的重要特点是智能的涌现。过去的模型虽然也有智能的产生,但是没有表现出涌现现象。ChatGPT的智能涌现表现为三方面。
1.3.1 Few Shot或Zero Shot能力的涌现
所谓Few Shot和Zero Shot是指模型不需要学习新样本或者学习少数几个样本,就能学习到新的智能。这种能力让人产生一种误解,认为AI已经达到人的学习能力了,能够举一反三。但是理论上并非如此,我们在后文会慢慢揭晓迷雾。不过抛开理论,大模型的确表现出了这种能力,并且在一定范围内可以被广泛运用。
1.3.2 思维链能力的涌现
思维链能力是大模型最为惊人的表现。所谓思维链是指大模型能够依据思维链针对问题进行分析和推理。最典型表现是可以完成各种考试题目,编写代码,甚至能够针对问题和现象进行因果分析。下图1.8给出一个实际的案例。思维链能力给人一种错觉,觉得AI似乎具备了人的逻辑推理能力。大模型的思维链能够在广泛应用于很多依赖简单推理的场景,比如故障诊断、病例诊断等。并且为了增强思维链,科学家也发明了增强思维链能力的方法。
1.3.3 创新能力的涌现
大模型的创新能力是最早被开发者广泛使用的能力,最早用在营销文案创作、概念图创作等领域。只需要提交简单的提示要求,大模型就能生产极具创意的文案或者图像。下图给出了AI生成的极具创意的例子。这种能力目前已经广泛运用于实际生产中了。我们浏览的大量短视频配音和文案,其实都是用这种技术生成的。你是否意识到了呢?
虽然我们观测到大模型表现出上述的三种智能能力,但是作者认为我们不能就此下定论大模型具备和人一样的想象能力、推理能力、创造能力。 我们在后文的理论分析部分会逐步揭露这三种智能的本质来源。在第五章末尾,我们会再次回顾大模型的智能涌现。
1.4 大模型智能涌现能力的现实意义
虽然大模型不具备和人类一样的智能,但是基于大模型的目前涌现出来的三种能力,并不妨碍现阶段我们充分使用它们。根据上述三种能力,应用层很容易想到的是如下三种应用。
1.4.1 智能agent,代替人的模型
由于大模型表现出卓越的学习能力和生成能力,因此它完全可以用于代替部分人的模型。人类的很多工作,不需要抽象概念、复杂的推理、决策和创造性,完全只需要记住知识并且运用知识,比如客服、部分视觉设计师、文案写作、健康咨询等职业。这部分工作只需要培训,并记住知识。运用的时候不需要复杂分析和推理决策。只需要运用知识进行回复。他们比较像早期的专家系统或者知识图谱问答系统。这种工作是非常容易被智能agent取代的。并且由于大模型学习能力强,不容易出错,工作表现可能会比人类更优秀。
1.4.2 概念设计
由于大模型表现出一定的创新能力,因此很容易用于概念设计。实际上在游戏领域这项技术已经被广泛使用了。概念设计是指设计需求不十分明确的时候,反复进行探索性设计和具象化表达的阶段。概念设计是生产环节最为重要也是最耗时的环节。大模型的创造性和生成效率能够帮助设计师提升创意水平,并加速生产效率。
1.4.3 超级人机接口和互联网流量入口
生成式大模型最直观的表现是能够进行基于自然语言的意图理解,并能够用自然语言给出答案。那么这会不会带来人机接口的突破性进展呢。本文作者认为答案几乎已经非常明确了。并且围绕这种新的人机交互接口,会不会改变现在互联网的平台入口呢。互联网已经从最早的门户网站,演变到搜索引擎,然后发展到最近火爆的推荐系统。大模型是否能够带来新的互联网信息入口的改变呢?如果能做到,那将是互联网产业的又一次洗牌。目前几乎所有的传统互联网大厂都在争夺这个入口,也不乏明星创业公司参与其中。这些风险投资看到的是这种不确定性一旦确定,谁把握住入口,谁就把握住生态。
最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖

👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉如何学习AI大模型?👈
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

相关文章:
【人人都能看懂的大模型原理】(一)
前言 当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材…...
JMeter源码解析之JMeter命令行新增命令
JMeter源码解析之JMeter命令行新增命令 需求描述 需要新增一条命令,能够在JMeter命令行中能够展示输入对应的JMeter命令,能够展示对应的命令信息 查看命令效果如下: apache-jmeter-5.1\bin>jmeter --? Copyright © 1999-2024 The …...
YOLOv8 Windows c++推理
#添加一个**yolov8\_。onx **和/或**yolov5\_。Onnx **模型(s)到ultralytics文件夹。 #编辑**main.cpp**来改变**projectBasePath**来匹配你的用户。#请注意,默认情况下,CMake文件将尝试导入CUDA库以与opencv dnn (cuDNN) GPU推理一起使用。 #如果你的Op…...
一文读懂Python中的Popen函数
目录 1. 基本知识2. Demo 1. 基本知识 在Python中,Popen 是 subprocess 模块中的一个函数,它用于创建一个子进程并与其进行通信 subprocess.Popen():Popen 类用于创建和管理子进程 与 os.system() 或 os.popen() 相比,Popen 提供…...
07-阿里云镜像仓库
07-阿里云镜像仓库 注册阿里云 先注册一个阿里云账号:https://www.aliyun.com/ 进入容器镜像服务控制台 工作台》容器》容器服务》容器镜像服务 实例列表》个人实例 仓库管理》镜像仓库》命名空间》创建命名空间 仓库管理》镜像仓库》镜像仓库》创建镜像仓库 使…...
net core mvc 数据绑定 《2》
mvc core 模型绑定 控制绑定名称 》》》Bind 属性可以用来指定 模型应该 绑定的前缀 public class MyController : Controller {[HttpPost]public ActionResult Create([Bind(Prefix "MyModel")] Ilist<MyModel> model){// 模型绑定将尝试从请求的表单数据中…...
文件服务器FastDFS 消息队列中间件RabbitMQ
新标签页 (chinaunix.net) FastDFS - Browse Files at SourceForge.net 一、FastDFS Tracker和Storage: tracker用来管理所有的storage,只是管理服务器,负责负载均衡。 storage是存储服务器,每一个storage服务器都是一个单独的个…...
工作纪实58-Idea打jar包
有时候需要配合算法使用spark定时DP,调用java相关的jar包做数据处理 idea打jar包有以下三种场景 SpringBoot的Maven项目【Maven打包即可】非SpringBoot的Maven项目【添加maven打包参数,使用Maven打包】 借助maven的配置进行打包,新增以下配置…...
ELK-03-skywalking监控linux系统
文章目录 前言一、下载node_exporter二、启动node_exporter三、下载OpenTelemetry Collector四、启动OpenTelemetry Collector4.1 将配置文件下载到同级目录4.2 启动 五、查看总结 前言 skywalking安装完成后,开始我们的第一个监控-监控linux系统。 参考官方文档&a…...
HEITRONICS TC13红外辐射高温计CT13 INFRARED RADIATION PYROMETER CT13
HEITRONICS TC13红外辐射高温计CT13 INFRARED RADIATION PYROMETER CT13...
开源图像降噪算法与项目介绍【持续更新】
Intel Open Image Denoise 介绍:Intel Open Image Denoise(OIDN)是一个开源库,它提供了一系列高性能、高质量的去噪滤镜,专门用于光线追踪渲染的图像。这个库是Intel Rendering Toolkit的一部分,并且是在宽…...
RealSense、ZED 和奥比中光Astra几款主流相机介绍及应用
以下是英特尔 RealSense、Stereolabs ZED 和奥比中光Astra几款相机的详细对比,包括参数、性能以及二次开发等支持,附带代码示例。 详细信息对比和二次开发示例 1. 英特尔 RealSense (例如 D435/D455) 深度技术:立体视觉 红外投影分辨率&a…...
启动 Ntopng 服务前需先启动 redis 服务及 Ntopng 常用参数介绍
启动Ntopng服务之前需要先启动redis服务,因为Ntopng服务依赖于redis服务的键值存储。 服务重启 服务启动 Ntopng常用参数: -d 将 Ntopng 进程放入后台执行。默认情况下,Ntop 在前台运行。 -u 指定启动Ntopng执行的用户,默认为…...
vector的模拟实现以及oj题(2)
前言 上篇博客介绍了大部分vector的接口,其中包括begin()、end()、const begin()、 const end()、size、capacity、reserve、empty、push_back、pop_back、insert、operator[],这篇博客将介绍剩下的部分接口,以及一些oj题解法和思路。 vect…...
数据技术进化史:从数据仓库到数据中台再到数据飞轮的旅程
随着大数据时代的到来,数据已经成为企业的核心资产之一。在过去几十年间,数据技术也随之不断演进,从早期的数据仓库到近年来热门的数据中台,再到正在快速发展的数据飞轮概念,每一步都是技术革新的体现。 一、数据仓库&…...
JAVA JDK华为云镜像下载,速度很快
直达下载地址 https://repo.huaweicloud.com/java/jdk/ https://repo.huaweicloud.com/java/jdk/欢迎各位收藏享用!!!...
【RKNN系列】官方函数:querystring
querystring 函数 功能 查询获取当前芯片平台RGA硬件版本与功能支持信息,以字符串的形式返回。 语法 std::string querystring(int query_type);参数 query_type: 要查询的 RGA 信息类型(整数) 描述 这个函数用于获取特定类型的 RGA 信…...
Stable Diffusion零基础学习
Stable Diffusion学习笔记TOP14 _插件篇之ControlNet功能篇 ControlNet目前支持的10多种预处理器,根据数据检测种类可分为两种类型: 1、功能型:拥有着不同的能力 2、构图型:控制着SD扩散图形的构图规则 部分未编写预处理器的功…...
C#基于SkiaSharp实现印章管理(9)
将印章设计模块设计的印章保存为图片并集中存放在指定文件夹内。新建印章应用项目,主要实现对图片及PDF文件加盖印章功能。本文实现给图片加盖印章功能。 给图片加盖印章的逻辑比较简单,就是将印章图片绘制到图片指定位置,使用SKControl控…...
研究生如何利用ChatGPT帮助开展日常科研工作?
小白可做!全自动AI影视解说一键成片剪辑工具https://docs.qq.com/doc/DYnl6d0FLdHp0V2ll 作为当代研究生,科研工作三部曲----读文献、开组会、数据分析。无论哪一个,都令研究生们倍感头疼,简直就是梦魇。每当看到导师发来的消息&a…...
【Python】 -- 趣味代码 - 小恐龙游戏
文章目录 文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架 这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现,玩家控制一个角色(龙)躲避障碍物(仙人掌和乌鸦)。以下是代码的详细介绍:…...
python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...
《通信之道——从微积分到 5G》读书总结
第1章 绪 论 1.1 这是一本什么样的书 通信技术,说到底就是数学。 那些最基础、最本质的部分。 1.2 什么是通信 通信 发送方 接收方 承载信息的信号 解调出其中承载的信息 信息在发送方那里被加工成信号(调制) 把信息从信号中抽取出来&am…...
ElasticSearch搜索引擎之倒排索引及其底层算法
文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...
C++中string流知识详解和示例
一、概览与类体系 C 提供三种基于内存字符串的流,定义在 <sstream> 中: std::istringstream:输入流,从已有字符串中读取并解析。std::ostringstream:输出流,向内部缓冲区写入内容,最终取…...
前端开发面试题总结-JavaScript篇(一)
文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...
Redis数据倾斜问题解决
Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中,部分节点存储的数据量或访问量远高于其他节点,导致这些节点负载过高,影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...
20个超级好用的 CSS 动画库
分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...
GitFlow 工作模式(详解)
今天再学项目的过程中遇到使用gitflow模式管理代码,因此进行学习并且发布关于gitflow的一些思考 Git与GitFlow模式 我们在写代码的时候通常会进行网上保存,无论是github还是gittee,都是一种基于git去保存代码的形式,这样保存代码…...
Qemu arm操作系统开发环境
使用qemu虚拟arm硬件比较合适。 步骤如下: 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载,下载地址:https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...
