大模型学习笔记------什么是大模型
大模型学习笔记------什么是大模型
- 1、大模型定义
- 2、大模型发展历程
- 3、大模型的核心特点
- 4、大模型的应用领域
- 5、大模型面临的挑战
- 6、结束语
近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相关的研究。这个专题可以作为自己的学习记录与大家分享。
1、大模型定义
大模型(Large Model)通常指具有超大规模参数和数据训练的机器学习模型,尤其是深度学习模型。它们依赖于海量的文本、图像或其他数据,通过复杂的网络结构(如Transformer)进行训练,从而在理解、生成、预测等任务中表现出色。大模型已经成为当前人工智能研究和应用的前沿,能完成从文本生成、图像生成到多模态任务等广泛的功能。
2、大模型发展历程
大模型的发展历程主要伴随着计算能力的提升、模型结构的创新以及数据规模的增长,从最初的小规模模型逐步扩展为当前具有数百亿乃至数千亿参数的大规模深度学习模型。以下是大模型发展的几个关键阶段:
前深度学习时代(1990s - 2012)
基础算法和小规模模型:早期的机器学习模型以支持向量机(SVM)、决策树、逻辑回归等为主,处理任务有限且数据需求较小。
神经网络的初步探索:20世纪80年代和90年代,神经网络被提出,但因计算能力有限,深层网络难以训练,应用范围受限。
特征工程主导:在特征提取方面投入大量人力,通过人为特征来提升算法性能,但模型复杂度和适应性都有限。
深度学习的兴起(2012 - 2017)
AlexNet的突破(2012):AlexNet在ImageNet图像分类挑战中获得显著成绩,标志着深度学习在计算机视觉领域的突破。此后,卷积神经网络(CNN)成为主流图像处理模型。
Recurrent Neural Networks(RNNs)和长短期记忆网络(LSTM):在自然语言处理和时间序列任务中,RNN和LSTM被广泛应用,为语言模型的进一步发展奠定了基础。
Seq2Seq模型与Attention机制:Seq2Seq模型在机器翻译任务中表现突出,而Attention机制的提出则使得长距离依赖问题得到改善,为后续Transformer的诞生打下基础。
Transformer时代(2017 - 2020)
Transformer架构的提出(2017):谷歌团队提出的Transformer模型通过自注意力机制(Self-Attention)替代了RNN,大幅提升了训练效率。其并行处理能力使得大规模模型训练成为可能。
BERT的问世(2018):BERT模型采用双向编码和预训练-微调的策略,在多个自然语言理解任务上取得了突破性成果,推动了自然语言处理的发展。
GPT系列的发布:OpenAI发布的GPT(Generative Pretrained Transformer)系列大模型从GPT-1到GPT-3,模型规模逐步扩大,生成任务表现出色。其中,GPT-3(2020)拥有1750亿参数,成为当时最具代表性的语言生成模型。
多模态和超大规模模型阶段(2020 - 至今)
多模态模型的探索:OpenAI发布的CLIP和DALL-E等模型具备跨模态处理能力,可以将文字和图像结合,实现图文互相生成与理解。这标志着大模型在多模态任务中展现了潜力。
GPT-4和其他大规模模型:在2023年,GPT-4发布,具有多模态处理能力,进一步提升了大模型在语言和视觉任务中的表现。同时,谷歌的PaLM、Meta的LLaMA等超大规模模型的问世表明,模型参数在千亿到万亿级别的增长,推动了AI技术的边界。
开源与生态扩展:大模型的开源浪潮兴起,如Meta的LLaMA、Hugging Face的Transformers库等,使开发者能够在更低门槛上使用、微调大模型,加速了大模型在各行业的应用。
3、大模型的核心特点
参数规模庞大
大模型通常包含数亿至数千亿个参数。例如,GPT-3拥有1750亿参数,最新的大模型甚至超过这一规模。参数规模的增加提升了模型的表达能力,使其在更复杂的任务上表现更佳。
数据驱动训练
大模型在构建过程中使用大量的多样化数据,通常涵盖不同领域的文本、代码、图像等,增强了它们对语言、视觉等多模态信息的理解能力。
多模态处理能力
一些大模型不仅可以处理文本,还能理解图像、音频等多模态数据。例如CLIP、DALL-E、GPT-4等多模态模型可以处理文字与图像组合任务,甚至实现跨模态的生成任务。
通用性
大模型通常是通用模型,经过预训练可以应用于多种任务,并通过微调在特定任务中表现出色。例如,GPT模型可以用于对话生成、写作辅助、编程等多种任务。
强大的生成和推理能力
大模型能够生成高质量的文本、图像或代码,并且在回答问题、内容创作等任务中具有良好的连贯性和上下文理解能力。
4、大模型的应用领域
- 自然语言处理:文本生成、自动翻译、语法纠正、问答系统、情感分析等。
- 计算机视觉:图像分类、物体检测、图像生成、图像描述、视频理解等。
- 多模态任务:图文匹配、文本生成图像、图像描述生成等任务。
- 智能对话:虚拟助手、聊天机器人等。
- 编程辅助:代码自动补全、代码生成、代码错误分析等。
- 垂直行业应用:如医疗、金融、教育、零售等行业的大模型应用场景,分析其业务价值和实际案例。
5、大模型面临的挑战
对于开发者来说,大模型带来的挑战主要有以下几个方面:
计算资源与成本
算力消耗巨大:大模型训练需要大量计算资源,通常依赖于GPU、TPU等高性能硬件设备,导致训练成本高昂。例如GPT-3的训练成本高达数百万美元。
硬件设备限制:训练和部署大模型对硬件有较高要求,很多机构或企业难以负担相应的硬件成本和维护成本。
数据隐私与安全
训练数据的隐私风险:大模型通常需要大量多样的数据,这些数据可能包含敏感信息或隐私数据,处理不当会带来隐私泄露风险。我处在医疗行业,我们得到的所有数据都是进行了脱敏处理的,包括医学领域的公开数据集。
数据安全:训练过程可能无意间泄露数据中的敏感信息,导致安全问题。此外,模型对话生成的内容也可能含有信息泄露风险。
法律法规合规:大模型训练和应用需要遵循数据隐私法规,如何在保护隐私的同时利用海量数据成为一个平衡难题。
模型的优化与轻量化
资源消耗高:大模型通常需要占用大量存储空间和算力,难以在资源受限的设备上进行部署。这限制了大模型在移动设备和边缘计算上的应用。
模型压缩和优化的难度:虽然存在模型压缩、剪枝、量化等优化技术,但如何在保证模型性能的前提下减小模型规模仍是技术难题。
响应速度与实时性:对于要求高实时性的应用,大模型可能无法满足响应速度的需求,需要进一步优化。
6、结束语
本篇文章其实没有什么新意,只是做一些零零碎碎的乏味的说明。其实,从我本人来看,我更在乎的是多模态大模型的学习与记录。因为从发展的角度看,人工智能应该逐步具有“智人”的特征,或者说类人化,人类的学习其实就是基于文本、语音、视频、图像等多模态信号完成的。
相关文章:
大模型学习笔记------什么是大模型
大模型学习笔记------什么是大模型 1、大模型定义2、大模型发展历程3、大模型的核心特点4、大模型的应用领域5、大模型面临的挑战6、结束语 近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相…...
【unique_str 源码学习】
文章目录 1.删除器定义2. operator->() 运算符重载3. add_lvalue_reference<element_type>::type 使用 基本原理这篇博主写的很详细 https://yngzmiao.blog.csdn.net/article/details/105725663 1.删除器定义 deleter_…...
flask第一个应用
文章目录 安装一、编程第一步二、引入配置三、代码解析 安装 python环境安装的过程就不重复赘述了,flask安装使用命令pip install Flask即可,使用命令pip show Flask查看flask版本信息 提示:以下是本篇文章正文内容,下面案例可供…...
华为OD机试真题(Python/JS/C/C++)- 考点 - 细节
华为OD机试 2024E卷题库疯狂收录中,刷题 点这里。 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。...
【C++刷题】力扣-#628-三个数的最大乘积
题目描述 给你一个整型数组 nums ,在数组中找出由三个数组成的最大乘积,并输出这个乘积。 示例 示例 1 输入:nums [1,2,3] 输出:6示例 2 输入:nums [1,2,3,4] 输出:24示例 3 输入:nums […...
Java项目实战II基于Java+Spring Boot+MySQL的工程教育认证的计算机课程管理平台(源码+数据库+文档)
目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着工程教…...
基于微信小程序实现信阳毛尖茶叶商城系统设计与实现
作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,…...
设计一个灵活的RPC架构
RPC架构 RPC本质上就是一个远程调用,需要通过网络来传输数据。传输协议可以有多种选择,但考虑到可靠性,一般默认采用TCP协议。为了屏蔽网络传输的复杂性,需要封装一个单独的数据传输模块用来收发二进制数据,这个单独模…...
大数据计算里的Broadcast Hash Join/Shuffle Hash Join/Sort Merge Join
文章目录 Broadcast Hash Join场景 Shuffle Hash Join场景 Sort Merge Join场景 Broadcast Hash Join 场景 大表和小小表,直接把B表加载到内存,然后读块1内容和内存中数据匹配 Shuffle Hash Join 场景 大表和小表JOIN ,小表分块后能加载…...
Java - 手写识别; 如何用spring ai和大模型做手写识别教程
识别后的文字 利用大模型提升Java手写识别:更简单、更高效 在Java场景中,我们经常需要处理手写识别的问题。过去,这类需求主要依赖于OCR技术,但其效果并不总是稳定。随着大模型的发展,使用大模型进行java手写识别成为…...
【Linux】用户权限管理:创建受限用户并配置特定目录访问权限
本文详细介绍了如何在 Linux 系统中创建一个名为 agent 的新用户,并限制其在特定目录下的权限。通过使用 useradd 命令创建用户,并使用 usermod 命令将新用户添加到现有用户组中,确保其具有适当的权限。接着,通过 chown 和 chmod …...
pgsql表分区和表分片设计
在设计 PostgreSQL 表分区和表分片时,主要目标是提高查询性能、可扩展性和数据管理的效率。以下是一些关键的设计步骤和策略: 1. 分区策略 水平分片:选择按日期进行水平分片,每天一个分片。这种策略适用于具有时间序列数据的场景…...
灵动AI ——视频创作新引擎 开启视觉奇幻之旅
灵动AI视频官网地址:https://aigc.genceai.com/ 灵动AI 科技与艺术的完美融合之作。它代表着当下最前沿的影像技术,为我们带来前所未有的视觉盛宴。...
AI设计、作图、画画工具哪个好用?看完这篇你就知道怎么选了
Stable Diffusion Stable Diffusion 是由 Stability AI 推出的开源 AI 文本到图像生成模型,以其开放性和灵活性在 AI 视觉工具领域广受欢迎。与 DALL-E 或 Midjourney 等只能依赖云计算的工具不同,Stable Diffusion 支持本地运行,也广泛兼容多…...
【python ASR】win11-从0到1使用funasr实现本地离线音频转文本
文章目录 前言一、前提条件安装环境Python 安装安装依赖,使用工业预训练模型最后安装 - torch1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。2. 前往网站下载[Pytorch](https://pytorch.o…...
myqld二进制安装和破解数据库密码(linux)
安装和基本配置 1.首先把下载下来的mysql安装包放到本地这里下载的是5.7版本为演示 1)解压 tar xf mysql-5.7.20-linux-glibc2.12-x86_64.tar.gz -C /usr/local -把安装包解压到/usr/local cd /usr/local …...
防重方案-订单防重方案笔记
订单防重设计 订单重复提交概念解决方案前端防重机制后端防重机制利用Token机制基于数据库的唯一索引 Token机制方案介绍 其他 订单重复提交概念 重复提交指,连点按钮进行重复提交操作,不包括刷新后的重新下单,重新下单已非同一订单的概念。…...
HTML、JavaScript和CSS实现注册页面设计
目录 一、实现要求 二、实现页面图 1、注册页面 2.用户ID、用户名、口令验证成功后显示页面 三、用户ID、用户名、口令、确定口令验证逻辑js代码 1、验证用户ID 2、验证用户名 3、验证口令密码 四、总结 五、代码仓库 一、实现要求 综合使用HTML、JavaScript和CSS进…...
Counter对象的使用样例
1. Counter类的定义和功能说明 Counter是一个用于跟踪值出现次数的有序集合。它可以接收一个可迭代对象作为参数,并生成一个字典,其中包含每个元素作为键,其计数作为值。 2. 统计列表或字符串中元素的出现次数 示例代码: from…...
大模型中的token是什么;常见大语言模型的 token 情况
目录 大模型中的token是什么 常见大语言模型的 token 情况 大模型中的token是什么 定义 在大模型中,token 是文本处理的基本单位。它可以是一个字、一个词,或者是其他被模型定义的语言单元。简单来说,模型在理解和生成文本时,不是以完整的句子或段落为单位进行一次性处理…...
React 第五十五节 Router 中 useAsyncError的使用详解
前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...
Leetcode 3577. Count the Number of Computer Unlocking Permutations
Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现 题目链接:3577. Count the Number of Computer Unlocking Permutations 1. 解题思路 这一题其实就是一个脑筋急转弯,要想要能够将所有的电脑解锁&#x…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序
一、开发环境准备 工具安装: 下载安装DevEco Studio 4.0(支持HarmonyOS 5)配置HarmonyOS SDK 5.0确保Node.js版本≥14 项目初始化: ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...
MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...
C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...
C++ 设计模式 《小明的奶茶加料风波》
👨🎓 模式名称:装饰器模式(Decorator Pattern) 👦 小明最近上线了校园奶茶配送功能,业务火爆,大家都在加料: 有的同学要加波霸 🟤,有的要加椰果…...
elementUI点击浏览table所选行数据查看文档
项目场景: table按照要求特定的数据变成按钮可以点击 解决方案: <el-table-columnprop"mlname"label"名称"align"center"width"180"><template slot-scope"scope"><el-buttonv-if&qu…...
智能职业发展系统:AI驱动的职业规划平台技术解析
智能职业发展系统:AI驱动的职业规划平台技术解析 引言:数字时代的职业革命 在当今瞬息万变的就业市场中,传统的职业规划方法已无法满足个人和企业的需求。据统计,全球每年有超过2亿人面临职业转型困境,而企业也因此遭…...
多元隐函数 偏导公式
我们来推导隐函数 z z ( x , y ) z z(x, y) zz(x,y) 的偏导公式,给定一个隐函数关系: F ( x , y , z ( x , y ) ) 0 F(x, y, z(x, y)) 0 F(x,y,z(x,y))0 🧠 目标: 求 ∂ z ∂ x \frac{\partial z}{\partial x} ∂x∂z、 …...
对象回调初步研究
_OBJECT_TYPE结构分析 在介绍什么是对象回调前,首先要熟悉下结构 以我们上篇线程回调介绍过的导出的PsProcessType 结构为例,用_OBJECT_TYPE这个结构来解析它,0x80处就是今天要介绍的回调链表,但是先不着急,先把目光…...
