大模型学习笔记------什么是大模型
大模型学习笔记------什么是大模型
- 1、大模型定义
- 2、大模型发展历程
- 3、大模型的核心特点
- 4、大模型的应用领域
- 5、大模型面临的挑战
- 6、结束语
近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相关的研究。这个专题可以作为自己的学习记录与大家分享。
1、大模型定义
大模型(Large Model)通常指具有超大规模参数和数据训练的机器学习模型,尤其是深度学习模型。它们依赖于海量的文本、图像或其他数据,通过复杂的网络结构(如Transformer)进行训练,从而在理解、生成、预测等任务中表现出色。大模型已经成为当前人工智能研究和应用的前沿,能完成从文本生成、图像生成到多模态任务等广泛的功能。
2、大模型发展历程
大模型的发展历程主要伴随着计算能力的提升、模型结构的创新以及数据规模的增长,从最初的小规模模型逐步扩展为当前具有数百亿乃至数千亿参数的大规模深度学习模型。以下是大模型发展的几个关键阶段:
前深度学习时代(1990s - 2012)
基础算法和小规模模型:早期的机器学习模型以支持向量机(SVM)、决策树、逻辑回归等为主,处理任务有限且数据需求较小。
神经网络的初步探索:20世纪80年代和90年代,神经网络被提出,但因计算能力有限,深层网络难以训练,应用范围受限。
特征工程主导:在特征提取方面投入大量人力,通过人为特征来提升算法性能,但模型复杂度和适应性都有限。
深度学习的兴起(2012 - 2017)
AlexNet的突破(2012):AlexNet在ImageNet图像分类挑战中获得显著成绩,标志着深度学习在计算机视觉领域的突破。此后,卷积神经网络(CNN)成为主流图像处理模型。
Recurrent Neural Networks(RNNs)和长短期记忆网络(LSTM):在自然语言处理和时间序列任务中,RNN和LSTM被广泛应用,为语言模型的进一步发展奠定了基础。
Seq2Seq模型与Attention机制:Seq2Seq模型在机器翻译任务中表现突出,而Attention机制的提出则使得长距离依赖问题得到改善,为后续Transformer的诞生打下基础。
Transformer时代(2017 - 2020)
Transformer架构的提出(2017):谷歌团队提出的Transformer模型通过自注意力机制(Self-Attention)替代了RNN,大幅提升了训练效率。其并行处理能力使得大规模模型训练成为可能。
BERT的问世(2018):BERT模型采用双向编码和预训练-微调的策略,在多个自然语言理解任务上取得了突破性成果,推动了自然语言处理的发展。
GPT系列的发布:OpenAI发布的GPT(Generative Pretrained Transformer)系列大模型从GPT-1到GPT-3,模型规模逐步扩大,生成任务表现出色。其中,GPT-3(2020)拥有1750亿参数,成为当时最具代表性的语言生成模型。
多模态和超大规模模型阶段(2020 - 至今)
多模态模型的探索:OpenAI发布的CLIP和DALL-E等模型具备跨模态处理能力,可以将文字和图像结合,实现图文互相生成与理解。这标志着大模型在多模态任务中展现了潜力。
GPT-4和其他大规模模型:在2023年,GPT-4发布,具有多模态处理能力,进一步提升了大模型在语言和视觉任务中的表现。同时,谷歌的PaLM、Meta的LLaMA等超大规模模型的问世表明,模型参数在千亿到万亿级别的增长,推动了AI技术的边界。
开源与生态扩展:大模型的开源浪潮兴起,如Meta的LLaMA、Hugging Face的Transformers库等,使开发者能够在更低门槛上使用、微调大模型,加速了大模型在各行业的应用。
3、大模型的核心特点
参数规模庞大
大模型通常包含数亿至数千亿个参数。例如,GPT-3拥有1750亿参数,最新的大模型甚至超过这一规模。参数规模的增加提升了模型的表达能力,使其在更复杂的任务上表现更佳。
数据驱动训练
大模型在构建过程中使用大量的多样化数据,通常涵盖不同领域的文本、代码、图像等,增强了它们对语言、视觉等多模态信息的理解能力。
多模态处理能力
一些大模型不仅可以处理文本,还能理解图像、音频等多模态数据。例如CLIP、DALL-E、GPT-4等多模态模型可以处理文字与图像组合任务,甚至实现跨模态的生成任务。
通用性
大模型通常是通用模型,经过预训练可以应用于多种任务,并通过微调在特定任务中表现出色。例如,GPT模型可以用于对话生成、写作辅助、编程等多种任务。
强大的生成和推理能力
大模型能够生成高质量的文本、图像或代码,并且在回答问题、内容创作等任务中具有良好的连贯性和上下文理解能力。
4、大模型的应用领域
- 自然语言处理:文本生成、自动翻译、语法纠正、问答系统、情感分析等。
- 计算机视觉:图像分类、物体检测、图像生成、图像描述、视频理解等。
- 多模态任务:图文匹配、文本生成图像、图像描述生成等任务。
- 智能对话:虚拟助手、聊天机器人等。
- 编程辅助:代码自动补全、代码生成、代码错误分析等。
- 垂直行业应用:如医疗、金融、教育、零售等行业的大模型应用场景,分析其业务价值和实际案例。
5、大模型面临的挑战
对于开发者来说,大模型带来的挑战主要有以下几个方面:
计算资源与成本
算力消耗巨大:大模型训练需要大量计算资源,通常依赖于GPU、TPU等高性能硬件设备,导致训练成本高昂。例如GPT-3的训练成本高达数百万美元。
硬件设备限制:训练和部署大模型对硬件有较高要求,很多机构或企业难以负担相应的硬件成本和维护成本。
数据隐私与安全
训练数据的隐私风险:大模型通常需要大量多样的数据,这些数据可能包含敏感信息或隐私数据,处理不当会带来隐私泄露风险。我处在医疗行业,我们得到的所有数据都是进行了脱敏处理的,包括医学领域的公开数据集。
数据安全:训练过程可能无意间泄露数据中的敏感信息,导致安全问题。此外,模型对话生成的内容也可能含有信息泄露风险。
法律法规合规:大模型训练和应用需要遵循数据隐私法规,如何在保护隐私的同时利用海量数据成为一个平衡难题。
模型的优化与轻量化
资源消耗高:大模型通常需要占用大量存储空间和算力,难以在资源受限的设备上进行部署。这限制了大模型在移动设备和边缘计算上的应用。
模型压缩和优化的难度:虽然存在模型压缩、剪枝、量化等优化技术,但如何在保证模型性能的前提下减小模型规模仍是技术难题。
响应速度与实时性:对于要求高实时性的应用,大模型可能无法满足响应速度的需求,需要进一步优化。
6、结束语
本篇文章其实没有什么新意,只是做一些零零碎碎的乏味的说明。其实,从我本人来看,我更在乎的是多模态大模型的学习与记录。因为从发展的角度看,人工智能应该逐步具有“智人”的特征,或者说类人化,人类的学习其实就是基于文本、语音、视频、图像等多模态信号完成的。
相关文章:
大模型学习笔记------什么是大模型
大模型学习笔记------什么是大模型 1、大模型定义2、大模型发展历程3、大模型的核心特点4、大模型的应用领域5、大模型面临的挑战6、结束语 近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相…...

【unique_str 源码学习】
文章目录 1.删除器定义2. operator->() 运算符重载3. add_lvalue_reference<element_type>::type 使用 基本原理这篇博主写的很详细 https://yngzmiao.blog.csdn.net/article/details/105725663 1.删除器定义 deleter_…...

flask第一个应用
文章目录 安装一、编程第一步二、引入配置三、代码解析 安装 python环境安装的过程就不重复赘述了,flask安装使用命令pip install Flask即可,使用命令pip show Flask查看flask版本信息 提示:以下是本篇文章正文内容,下面案例可供…...

华为OD机试真题(Python/JS/C/C++)- 考点 - 细节
华为OD机试 2024E卷题库疯狂收录中,刷题 点这里。 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。...
【C++刷题】力扣-#628-三个数的最大乘积
题目描述 给你一个整型数组 nums ,在数组中找出由三个数组成的最大乘积,并输出这个乘积。 示例 示例 1 输入:nums [1,2,3] 输出:6示例 2 输入:nums [1,2,3,4] 输出:24示例 3 输入:nums […...

Java项目实战II基于Java+Spring Boot+MySQL的工程教育认证的计算机课程管理平台(源码+数据库+文档)
目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着工程教…...

基于微信小程序实现信阳毛尖茶叶商城系统设计与实现
作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,…...

设计一个灵活的RPC架构
RPC架构 RPC本质上就是一个远程调用,需要通过网络来传输数据。传输协议可以有多种选择,但考虑到可靠性,一般默认采用TCP协议。为了屏蔽网络传输的复杂性,需要封装一个单独的数据传输模块用来收发二进制数据,这个单独模…...

大数据计算里的Broadcast Hash Join/Shuffle Hash Join/Sort Merge Join
文章目录 Broadcast Hash Join场景 Shuffle Hash Join场景 Sort Merge Join场景 Broadcast Hash Join 场景 大表和小小表,直接把B表加载到内存,然后读块1内容和内存中数据匹配 Shuffle Hash Join 场景 大表和小表JOIN ,小表分块后能加载…...

Java - 手写识别; 如何用spring ai和大模型做手写识别教程
识别后的文字 利用大模型提升Java手写识别:更简单、更高效 在Java场景中,我们经常需要处理手写识别的问题。过去,这类需求主要依赖于OCR技术,但其效果并不总是稳定。随着大模型的发展,使用大模型进行java手写识别成为…...

【Linux】用户权限管理:创建受限用户并配置特定目录访问权限
本文详细介绍了如何在 Linux 系统中创建一个名为 agent 的新用户,并限制其在特定目录下的权限。通过使用 useradd 命令创建用户,并使用 usermod 命令将新用户添加到现有用户组中,确保其具有适当的权限。接着,通过 chown 和 chmod …...
pgsql表分区和表分片设计
在设计 PostgreSQL 表分区和表分片时,主要目标是提高查询性能、可扩展性和数据管理的效率。以下是一些关键的设计步骤和策略: 1. 分区策略 水平分片:选择按日期进行水平分片,每天一个分片。这种策略适用于具有时间序列数据的场景…...

灵动AI ——视频创作新引擎 开启视觉奇幻之旅
灵动AI视频官网地址:https://aigc.genceai.com/ 灵动AI 科技与艺术的完美融合之作。它代表着当下最前沿的影像技术,为我们带来前所未有的视觉盛宴。...

AI设计、作图、画画工具哪个好用?看完这篇你就知道怎么选了
Stable Diffusion Stable Diffusion 是由 Stability AI 推出的开源 AI 文本到图像生成模型,以其开放性和灵活性在 AI 视觉工具领域广受欢迎。与 DALL-E 或 Midjourney 等只能依赖云计算的工具不同,Stable Diffusion 支持本地运行,也广泛兼容多…...

【python ASR】win11-从0到1使用funasr实现本地离线音频转文本
文章目录 前言一、前提条件安装环境Python 安装安装依赖,使用工业预训练模型最后安装 - torch1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。2. 前往网站下载[Pytorch](https://pytorch.o…...
myqld二进制安装和破解数据库密码(linux)
安装和基本配置 1.首先把下载下来的mysql安装包放到本地这里下载的是5.7版本为演示 1)解压 tar xf mysql-5.7.20-linux-glibc2.12-x86_64.tar.gz -C /usr/local -把安装包解压到/usr/local cd /usr/local …...
防重方案-订单防重方案笔记
订单防重设计 订单重复提交概念解决方案前端防重机制后端防重机制利用Token机制基于数据库的唯一索引 Token机制方案介绍 其他 订单重复提交概念 重复提交指,连点按钮进行重复提交操作,不包括刷新后的重新下单,重新下单已非同一订单的概念。…...

HTML、JavaScript和CSS实现注册页面设计
目录 一、实现要求 二、实现页面图 1、注册页面 2.用户ID、用户名、口令验证成功后显示页面 三、用户ID、用户名、口令、确定口令验证逻辑js代码 1、验证用户ID 2、验证用户名 3、验证口令密码 四、总结 五、代码仓库 一、实现要求 综合使用HTML、JavaScript和CSS进…...
Counter对象的使用样例
1. Counter类的定义和功能说明 Counter是一个用于跟踪值出现次数的有序集合。它可以接收一个可迭代对象作为参数,并生成一个字典,其中包含每个元素作为键,其计数作为值。 2. 统计列表或字符串中元素的出现次数 示例代码: from…...

大模型中的token是什么;常见大语言模型的 token 情况
目录 大模型中的token是什么 常见大语言模型的 token 情况 大模型中的token是什么 定义 在大模型中,token 是文本处理的基本单位。它可以是一个字、一个词,或者是其他被模型定义的语言单元。简单来说,模型在理解和生成文本时,不是以完整的句子或段落为单位进行一次性处理…...

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式
一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明:假设每台服务器已…...

第19节 Node.js Express 框架
Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...
R语言AI模型部署方案:精准离线运行详解
R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

转转集团旗下首家二手多品类循环仓店“超级转转”开业
6月9日,国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解,“超级…...
VTK如何让部分单位不可见
最近遇到一个需求,需要让一个vtkDataSet中的部分单元不可见,查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行,是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示,主要是最后一个参数,透明度…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配
目录 一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分 二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例 三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载 四、智能指针…...

C# 表达式和运算符(求值顺序)
求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如,已知表达式3*52,依照子表达式的求值顺序,有两种可能的结果,如图9-3所示。 如果乘法先执行,结果是17。如果5…...
React从基础入门到高级实战:React 实战项目 - 项目五:微前端与模块化架构
React 实战项目:微前端与模块化架构 欢迎来到 React 开发教程专栏 的第 30 篇!在前 29 篇文章中,我们从 React 的基础概念逐步深入到高级技巧,涵盖了组件设计、状态管理、路由配置、性能优化和企业级应用等核心内容。这一次&…...

【Linux】使用1Panel 面板让服务器定时自动执行任务
服务器就是一台24小时开机的主机,相比自己家中不定时开关机的主机更适合完成定时任务,例如下载资源、备份上传,或者登录某个网站执行一些操作,只需要编写 脚本,然后让服务器定时来执行这个脚本就可以。 有很多方法实现…...