当前位置: 首页 > news >正文

【人人都能看懂的大模型原理】(一)

前言

当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材料比比皆是而缺乏深入分析。当然,大模型的技术体系非常庞大,全面了解非常困难。从横向来看,涉及到语言大模型到多模态大模型;从纵向来看,又涉及算法、模型、分布式软件、集群等专业知识。作者认识到社区缺乏一些学习资料,能够将复杂问题简单化,并且不失深度地介绍大模型的基本原理和技术。本文尝试对大模型的机器学习原理进行统一,并且绕过复杂的公式化表达和推导,给读者深入浅出的理论解释,帮助读者拨开大模型神秘面纱。作者认为只有深刻理解了理论原理,才能应对千变万化的应用需求。本文章适合各个角色的人阅读,包括BD、SA、PLM、研发和各层管理者。

在这里插入图片描述

一、大模型的外在表现和现实意义

1.1 泛化性和边际成本问题

最近几年,大模型甚嚣尘上。特别是自ChatGPT推出之后,大街小巷都在讨论大模型。那么大模型为什么吸引了如此多的注意力呢?大模型到底解决什么什么现实问题?人类经历了第一波深度学习热潮和退潮之后,体会到第一波深度学习解决问题的严重问题。并且在大模型身上看到了问题彻底解决的曙光。自深度学习爆发以来,大模型进入了千行百业。从最早的监控和泛娱乐行业,到后来的工业生产,深度学习技术都和行业紧密结合。本文作者自己经历了整个过程,从刚进公司部门200人到现在的2000人,作者经历了AI进入千行百业的完整过程。

然而,AI进入千行百业过程中出现了一个严重违背商业逻辑的现象。那就是边际成本没有随着规模的增长而降低。一个合理的商业scale law是一次投入,千万次复制,最终边际成本趋向于零。然而,由于上一波AI浪潮中,深度学习表现出非常差的泛化性,导致只要切换一个场景,都需要研发人员参与定制。 比如最常见的人脸识别技术,手机认证的人脸识别模型和监控的人脸识别模型无法通用。甚至一些场景由于背光或者逆光问题,都将重新开发模型。在工业领域,这种现象就更加明显,在工业检测中,摄像机安装角度的改变,或者检测目标的改变,都需要重新定制模型。这就导致你无法做一个通用模型,然后无限推广。因此上一波AI技术浪潮中,大多数创业公司盈利都非常困难,除了少数在大场景下获得足够市场空间的几家公司成功上市以外,绝大多数AI创业公司都很难长大。如此之下,AI进入千行百业就变成一句空话了,因为并非所有的行业都有高额利润。那些低利润行业(农业、低端制造业)都无法享受AI的红利。当然,小模型的泛化性差的原因有很多,比如信号的变化太多,信号模式挖掘不够充分等等,作者在此不再分析。

大模型因为其巨大的学习量天生具备更加优良的泛化性。这让大家看到了解决模型泛化性,甚至达到通用人工智能(AGI)的曙光。当然,这也吸引了无数的资本。

1.2 传统降低边际成本方案

​ 在讲大模型是如何提升泛化性之前,我们不妨回顾一下过去几年,我们降低边际成本的一些方案。这些方案从一定程度上降低边际成本,但是泛化性明显还是不足。

1.2.1 ModelArts Pro工作流

​ 在传统AI模型开发过程中,模型泛化性太差,导致需要不断进行迭代优化。并且切换一个相似的任务,也需要重新开发一次。效率非常低下。比如OCR任务需要解决非常多不同种类的表单的识别。而小模型又无法进行通用识别。因此需要反复开发模型应对各种发票、身份证、驾驶证等等。但是我们发现,其实每一次迭代或者相似任务的重新开发,流程都差不多。基本上表现为收集数据、标注、训练、转模型、部署推理引擎。

如此多重复的劳动,能否借助工具来提升呢。ModelArts Pro的设计理论就源于此。先在平台中内置某一些大类任务的完整训练代码,然后通过工作流的方式暴露部分接口,并自动化运行剩下的部分。

1.2.2 ModelArts数据回流和主动学习

​ 传统AI开发范式中还有一个特点,就是算法开发者大部分时间都在治理数据,包括数据采集、标注和质量治理。这部分时间占比因任务不同而不同。如遇到数据很稀缺的场景,那么这部分工作就变得非常繁重。为了应对这个问题,ModelArts开发了自动数据回流系统,能够在POC阶段介入用户系统,并快速实现数据的自动收集。配合主动学习策略对数据进行筛选,以获得对模型完备性有利的数据。

1.2.3 半监督学习

​ 数据标注同样是一项非常繁琐的工作。如果能够减少这部分工作量能够极大加速开发流程。半监督学习是非常有效的解决手段,通过极少数的标注,甚至弱标注,就能够训练一个媲美全监督训练的模型。下图1.6是半监督学习的三大理论方案,在此不再赘述。

1.3 大模型的智能涌现

以ChatGPT为代表的大模型引起用户广泛兴趣的重要特点是智能的涌现。过去的模型虽然也有智能的产生,但是没有表现出涌现现象。ChatGPT的智能涌现表现为三方面。

1.3.1 Few Shot或Zero Shot能力的涌现

所谓Few Shot和Zero Shot是指模型不需要学习新样本或者学习少数几个样本,就能学习到新的智能。这种能力让人产生一种误解,认为AI已经达到人的学习能力了,能够举一反三。但是理论上并非如此,我们在后文会慢慢揭晓迷雾。不过抛开理论,大模型的确表现出了这种能力,并且在一定范围内可以被广泛运用。

1.3.2 思维链能力的涌现

​ 思维链能力是大模型最为惊人的表现。所谓思维链是指大模型能够依据思维链针对问题进行分析和推理。最典型表现是可以完成各种考试题目,编写代码,甚至能够针对问题和现象进行因果分析。下图1.8给出一个实际的案例。思维链能力给人一种错觉,觉得AI似乎具备了人的逻辑推理能力。大模型的思维链能够在广泛应用于很多依赖简单推理的场景,比如故障诊断、病例诊断等。并且为了增强思维链,科学家也发明了增强思维链能力的方法。

1.3.3 创新能力的涌现

​ 大模型的创新能力是最早被开发者广泛使用的能力,最早用在营销文案创作、概念图创作等领域。只需要提交简单的提示要求,大模型就能生产极具创意的文案或者图像。下图给出了AI生成的极具创意的例子。这种能力目前已经广泛运用于实际生产中了。我们浏览的大量短视频配音和文案,其实都是用这种技术生成的。你是否意识到了呢?

虽然我们观测到大模型表现出上述的三种智能能力,但是作者认为我们不能就此下定论大模型具备和人一样的想象能力、推理能力、创造能力。 我们在后文的理论分析部分会逐步揭露这三种智能的本质来源。在第五章末尾,我们会再次回顾大模型的智能涌现。

1.4 大模型智能涌现能力的现实意义

虽然大模型不具备和人类一样的智能,但是基于大模型的目前涌现出来的三种能力,并不妨碍现阶段我们充分使用它们。根据上述三种能力,应用层很容易想到的是如下三种应用。

1.4.1 智能agent,代替人的模型

由于大模型表现出卓越的学习能力和生成能力,因此它完全可以用于代替部分人的模型。人类的很多工作,不需要抽象概念、复杂的推理、决策和创造性,完全只需要记住知识并且运用知识,比如客服、部分视觉设计师、文案写作、健康咨询等职业。这部分工作只需要培训,并记住知识。运用的时候不需要复杂分析和推理决策。只需要运用知识进行回复。他们比较像早期的专家系统或者知识图谱问答系统。这种工作是非常容易被智能agent取代的。并且由于大模型学习能力强,不容易出错,工作表现可能会比人类更优秀。

1.4.2 概念设计

​ 由于大模型表现出一定的创新能力,因此很容易用于概念设计。实际上在游戏领域这项技术已经被广泛使用了。概念设计是指设计需求不十分明确的时候,反复进行探索性设计和具象化表达的阶段。概念设计是生产环节最为重要也是最耗时的环节。大模型的创造性和生成效率能够帮助设计师提升创意水平,并加速生产效率。

1.4.3 超级人机接口和互联网流量入口

​ 生成式大模型最直观的表现是能够进行基于自然语言的意图理解,并能够用自然语言给出答案。那么这会不会带来人机接口的突破性进展呢。本文作者认为答案几乎已经非常明确了。并且围绕这种新的人机交互接口,会不会改变现在互联网的平台入口呢。互联网已经从最早的门户网站,演变到搜索引擎,然后发展到最近火爆的推荐系统。大模型是否能够带来新的互联网信息入口的改变呢?如果能做到,那将是互联网产业的又一次洗牌。目前几乎所有的传统互联网大厂都在争夺这个入口,也不乏明星创业公司参与其中。这些风险投资看到的是这种不确定性一旦确定,谁把握住入口,谁就把握住生态。


最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
请添加图片描述

相关文章:

【人人都能看懂的大模型原理】(一)

前言 当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材…...

JMeter源码解析之JMeter命令行新增命令

JMeter源码解析之JMeter命令行新增命令 需求描述 需要新增一条命令,能够在JMeter命令行中能够展示输入对应的JMeter命令,能够展示对应的命令信息 查看命令效果如下: apache-jmeter-5.1\bin>jmeter --? Copyright © 1999-2024 The …...

YOLOv8 Windows c++推理

#添加一个**yolov8\_。onx **和/或**yolov5\_。Onnx **模型(s)到ultralytics文件夹。 #编辑**main.cpp**来改变**projectBasePath**来匹配你的用户。#请注意,默认情况下,CMake文件将尝试导入CUDA库以与opencv dnn (cuDNN) GPU推理一起使用。 #如果你的Op…...

一文读懂Python中的Popen函数

目录 1. 基本知识2. Demo 1. 基本知识 在Python中,Popen 是 subprocess 模块中的一个函数,它用于创建一个子进程并与其进行通信 subprocess.Popen():Popen 类用于创建和管理子进程 与 os.system() 或 os.popen() 相比,Popen 提供…...

07-阿里云镜像仓库

07-阿里云镜像仓库 注册阿里云 先注册一个阿里云账号:https://www.aliyun.com/ 进入容器镜像服务控制台 工作台》容器》容器服务》容器镜像服务 实例列表》个人实例 仓库管理》镜像仓库》命名空间》创建命名空间 仓库管理》镜像仓库》镜像仓库》创建镜像仓库 使…...

net core mvc 数据绑定 《2》

mvc core 模型绑定 控制绑定名称 》》》Bind 属性可以用来指定 模型应该 绑定的前缀 public class MyController : Controller {[HttpPost]public ActionResult Create([Bind(Prefix "MyModel")] Ilist<MyModel> model){// 模型绑定将尝试从请求的表单数据中…...

文件服务器FastDFS 消息队列中间件RabbitMQ

新标签页 (chinaunix.net) FastDFS - Browse Files at SourceForge.net 一、FastDFS Tracker和Storage&#xff1a; tracker用来管理所有的storage&#xff0c;只是管理服务器&#xff0c;负责负载均衡。 storage是存储服务器&#xff0c;每一个storage服务器都是一个单独的个…...

工作纪实58-Idea打jar包

有时候需要配合算法使用spark定时DP&#xff0c;调用java相关的jar包做数据处理 idea打jar包有以下三种场景 SpringBoot的Maven项目【Maven打包即可】非SpringBoot的Maven项目【添加maven打包参数&#xff0c;使用Maven打包】 借助maven的配置进行打包&#xff0c;新增以下配置…...

ELK-03-skywalking监控linux系统

文章目录 前言一、下载node_exporter二、启动node_exporter三、下载OpenTelemetry Collector四、启动OpenTelemetry Collector4.1 将配置文件下载到同级目录4.2 启动 五、查看总结 前言 skywalking安装完成后&#xff0c;开始我们的第一个监控-监控linux系统。 参考官方文档&a…...

HEITRONICS TC13红外辐射高温计CT13 INFRARED RADIATION PYROMETER CT13

HEITRONICS TC13红外辐射高温计CT13 INFRARED RADIATION PYROMETER CT13...

开源图像降噪算法与项目介绍【持续更新】

Intel Open Image Denoise 介绍&#xff1a;Intel Open Image Denoise&#xff08;OIDN&#xff09;是一个开源库&#xff0c;它提供了一系列高性能、高质量的去噪滤镜&#xff0c;专门用于光线追踪渲染的图像。这个库是Intel Rendering Toolkit的一部分&#xff0c;并且是在宽…...

RealSense、ZED 和奥比中光Astra几款主流相机介绍及应用

以下是英特尔 RealSense、Stereolabs ZED 和奥比中光Astra几款相机的详细对比&#xff0c;包括参数、性能以及二次开发等支持&#xff0c;附带代码示例。 详细信息对比和二次开发示例 1. 英特尔 RealSense (例如 D435/D455) 深度技术&#xff1a;立体视觉 红外投影分辨率&a…...

启动 Ntopng 服务前需先启动 redis 服务及 Ntopng 常用参数介绍

启动Ntopng服务之前需要先启动redis服务&#xff0c;因为Ntopng服务依赖于redis服务的键值存储。 服务重启 服务启动 Ntopng常用参数&#xff1a; -d 将 Ntopng 进程放入后台执行。默认情况下&#xff0c;Ntop 在前台运行。 -u 指定启动Ntopng执行的用户&#xff0c;默认为…...

vector的模拟实现以及oj题(2)

前言 上篇博客介绍了大部分vector的接口&#xff0c;其中包括begin()、end()、const begin()、 const end()、size、capacity、reserve、empty、push_back、pop_back、insert、operator[]&#xff0c;这篇博客将介绍剩下的部分接口&#xff0c;以及一些oj题解法和思路。 vect…...

数据技术进化史:从数据仓库到数据中台再到数据飞轮的旅程

随着大数据时代的到来&#xff0c;数据已经成为企业的核心资产之一。在过去几十年间&#xff0c;数据技术也随之不断演进&#xff0c;从早期的数据仓库到近年来热门的数据中台&#xff0c;再到正在快速发展的数据飞轮概念&#xff0c;每一步都是技术革新的体现。 一、数据仓库&…...

JAVA JDK华为云镜像下载,速度很快

直达下载地址 https://repo.huaweicloud.com/java/jdk/ https://repo.huaweicloud.com/java/jdk/欢迎各位收藏享用&#xff01;&#xff01;&#xff01;...

【RKNN系列】官方函数:querystring

querystring 函数 功能 查询获取当前芯片平台RGA硬件版本与功能支持信息&#xff0c;以字符串的形式返回。 语法 std::string querystring(int query_type);参数 query_type: 要查询的 RGA 信息类型&#xff08;整数&#xff09; 描述 这个函数用于获取特定类型的 RGA 信…...

Stable Diffusion零基础学习

Stable Diffusion学习笔记TOP14 _插件篇之ControlNet功能篇 ControlNet目前支持的10多种预处理器&#xff0c;根据数据检测种类可分为两种类型&#xff1a; 1、功能型&#xff1a;拥有着不同的能力 2、构图型&#xff1a;控制着SD扩散图形的构图规则 部分未编写预处理器的功…...

C#基于SkiaSharp实现印章管理(9)

将印章设计模块设计的印章保存为图片并集中存放在指定文件夹内。新建印章应用项目&#xff0c;主要实现对图片及PDF文件加盖印章功能。本文实现给图片加盖印章功能。   给图片加盖印章的逻辑比较简单&#xff0c;就是将印章图片绘制到图片指定位置&#xff0c;使用SKControl控…...

研究生如何利用ChatGPT帮助开展日常科研工作?

小白可做&#xff01;全自动AI影视解说一键成片剪辑工具https://docs.qq.com/doc/DYnl6d0FLdHp0V2ll 作为当代研究生&#xff0c;科研工作三部曲----读文献、开组会、数据分析。无论哪一个&#xff0c;都令研究生们倍感头疼&#xff0c;简直就是梦魇。每当看到导师发来的消息&a…...

python打卡day49

知识点回顾&#xff1a; 通道注意力模块复习空间注意力模块CBAM的定义 作业&#xff1a;尝试对今天的模型检查参数数目&#xff0c;并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

el-switch文字内置

el-switch文字内置 效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析 一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类 二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务 三、…...

[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种 系统属性定义文件&#xff08;System Property Definition File&#xff09;&#xff0c;用于声明和管理 Bluetooth 模块相…...

今日科技热点速览

&#x1f525; 今日科技热点速览 &#x1f3ae; 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售&#xff0c;主打更强图形性能与沉浸式体验&#xff0c;支持多模态交互&#xff0c;受到全球玩家热捧 。 &#x1f916; 人工智能持续突破 DeepSeek-R1&…...

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现&#xff08;两者等价&#xff09;&#xff0c;用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例&#xff1a; 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums&#xff0c;返回 数组 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法&#xff0c;且在 O(n) 时间复杂度…...

AI,如何重构理解、匹配与决策?

AI 时代&#xff0c;我们如何理解消费&#xff1f; 作者&#xff5c;王彬 封面&#xff5c;Unplash 人们通过信息理解世界。 曾几何时&#xff0c;PC 与移动互联网重塑了人们的购物路径&#xff1a;信息变得唾手可得&#xff0c;商品决策变得高度依赖内容。 但 AI 时代的来…...

深度学习水论文:mamba+图像增强

&#x1f9c0;当前视觉领域对高效长序列建模需求激增&#xff0c;对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模&#xff0c;以及动态计算优势&#xff0c;在图像质量提升和细节恢复方面有难以替代的作用。 &#x1f9c0;因此短时间内&#xff0c;就有不…...