当前位置: 首页 > news >正文

大模型学习笔记------什么是大模型

大模型学习笔记------什么是大模型

    • 1、大模型定义
    • 2、大模型发展历程
    • 3、大模型的核心特点
    • 4、大模型的应用领域
    • 5、大模型面临的挑战
    • 6、结束语

    近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相关的研究。这个专题可以作为自己的学习记录与大家分享。

1、大模型定义

    大模型(Large Model)通常指具有超大规模参数和数据训练的机器学习模型,尤其是深度学习模型。它们依赖于海量的文本、图像或其他数据,通过复杂的网络结构(如Transformer)进行训练,从而在理解、生成、预测等任务中表现出色。大模型已经成为当前人工智能研究和应用的前沿,能完成从文本生成、图像生成到多模态任务等广泛的功能。

2、大模型发展历程

    大模型的发展历程主要伴随着计算能力的提升、模型结构的创新以及数据规模的增长,从最初的小规模模型逐步扩展为当前具有数百亿乃至数千亿参数的大规模深度学习模型。以下是大模型发展的几个关键阶段:

前深度学习时代(1990s - 2012)
    基础算法和小规模模型:早期的机器学习模型以支持向量机(SVM)、决策树、逻辑回归等为主,处理任务有限且数据需求较小。
    神经网络的初步探索:20世纪80年代和90年代,神经网络被提出,但因计算能力有限,深层网络难以训练,应用范围受限。
    特征工程主导:在特征提取方面投入大量人力,通过人为特征来提升算法性能,但模型复杂度和适应性都有限。
深度学习的兴起(2012 - 2017)
    AlexNet的突破(2012):AlexNet在ImageNet图像分类挑战中获得显著成绩,标志着深度学习在计算机视觉领域的突破。此后,卷积神经网络(CNN)成为主流图像处理模型。
    Recurrent Neural Networks(RNNs)和长短期记忆网络(LSTM):在自然语言处理和时间序列任务中,RNN和LSTM被广泛应用,为语言模型的进一步发展奠定了基础。
    Seq2Seq模型与Attention机制:Seq2Seq模型在机器翻译任务中表现突出,而Attention机制的提出则使得长距离依赖问题得到改善,为后续Transformer的诞生打下基础。
Transformer时代(2017 - 2020)
    Transformer架构的提出(2017):谷歌团队提出的Transformer模型通过自注意力机制(Self-Attention)替代了RNN,大幅提升了训练效率。其并行处理能力使得大规模模型训练成为可能。
    BERT的问世(2018):BERT模型采用双向编码和预训练-微调的策略,在多个自然语言理解任务上取得了突破性成果,推动了自然语言处理的发展。
    GPT系列的发布:OpenAI发布的GPT(Generative Pretrained Transformer)系列大模型从GPT-1到GPT-3,模型规模逐步扩大,生成任务表现出色。其中,GPT-3(2020)拥有1750亿参数,成为当时最具代表性的语言生成模型。
多模态和超大规模模型阶段(2020 - 至今)
    多模态模型的探索:OpenAI发布的CLIP和DALL-E等模型具备跨模态处理能力,可以将文字和图像结合,实现图文互相生成与理解。这标志着大模型在多模态任务中展现了潜力。
    GPT-4和其他大规模模型:在2023年,GPT-4发布,具有多模态处理能力,进一步提升了大模型在语言和视觉任务中的表现。同时,谷歌的PaLM、Meta的LLaMA等超大规模模型的问世表明,模型参数在千亿到万亿级别的增长,推动了AI技术的边界。
    开源与生态扩展:大模型的开源浪潮兴起,如Meta的LLaMA、Hugging Face的Transformers库等,使开发者能够在更低门槛上使用、微调大模型,加速了大模型在各行业的应用。

3、大模型的核心特点

参数规模庞大
    大模型通常包含数亿至数千亿个参数。例如,GPT-3拥有1750亿参数,最新的大模型甚至超过这一规模。参数规模的增加提升了模型的表达能力,使其在更复杂的任务上表现更佳。

数据驱动训练
    大模型在构建过程中使用大量的多样化数据,通常涵盖不同领域的文本、代码、图像等,增强了它们对语言、视觉等多模态信息的理解能力。

多模态处理能力
    一些大模型不仅可以处理文本,还能理解图像、音频等多模态数据。例如CLIP、DALL-E、GPT-4等多模态模型可以处理文字与图像组合任务,甚至实现跨模态的生成任务。

通用性
    大模型通常是通用模型,经过预训练可以应用于多种任务,并通过微调在特定任务中表现出色。例如,GPT模型可以用于对话生成、写作辅助、编程等多种任务。

强大的生成和推理能力
    大模型能够生成高质量的文本、图像或代码,并且在回答问题、内容创作等任务中具有良好的连贯性和上下文理解能力。

4、大模型的应用领域

  • 自然语言处理:文本生成、自动翻译、语法纠正、问答系统、情感分析等。
  • 计算机视觉:图像分类、物体检测、图像生成、图像描述、视频理解等。
  • 多模态任务:图文匹配、文本生成图像、图像描述生成等任务。
  • 智能对话:虚拟助手、聊天机器人等。
  • 编程辅助:代码自动补全、代码生成、代码错误分析等。
  • 垂直行业应用:如医疗、金融、教育、零售等行业的大模型应用场景,分析其业务价值和实际案例。

5、大模型面临的挑战

    对于开发者来说,大模型带来的挑战主要有以下几个方面:

计算资源与成本
    算力消耗巨大:大模型训练需要大量计算资源,通常依赖于GPU、TPU等高性能硬件设备,导致训练成本高昂。例如GPT-3的训练成本高达数百万美元。
    硬件设备限制:训练和部署大模型对硬件有较高要求,很多机构或企业难以负担相应的硬件成本和维护成本。
数据隐私与安全
    训练数据的隐私风险:大模型通常需要大量多样的数据,这些数据可能包含敏感信息或隐私数据,处理不当会带来隐私泄露风险。我处在医疗行业,我们得到的所有数据都是进行了脱敏处理的,包括医学领域的公开数据集。
    数据安全:训练过程可能无意间泄露数据中的敏感信息,导致安全问题。此外,模型对话生成的内容也可能含有信息泄露风险。
    法律法规合规:大模型训练和应用需要遵循数据隐私法规,如何在保护隐私的同时利用海量数据成为一个平衡难题。

模型的优化与轻量化
    资源消耗高:大模型通常需要占用大量存储空间和算力,难以在资源受限的设备上进行部署。这限制了大模型在移动设备和边缘计算上的应用。
    模型压缩和优化的难度:虽然存在模型压缩、剪枝、量化等优化技术,但如何在保证模型性能的前提下减小模型规模仍是技术难题。
    响应速度与实时性:对于要求高实时性的应用,大模型可能无法满足响应速度的需求,需要进一步优化。

6、结束语

    本篇文章其实没有什么新意,只是做一些零零碎碎的乏味的说明。其实,从我本人来看,我更在乎的是多模态大模型的学习与记录。因为从发展的角度看,人工智能应该逐步具有“智人”的特征,或者说类人化,人类的学习其实就是基于文本、语音、视频、图像等多模态信号完成的。

相关文章:

大模型学习笔记------什么是大模型

大模型学习笔记------什么是大模型 1、大模型定义2、大模型发展历程3、大模型的核心特点4、大模型的应用领域5、大模型面临的挑战6、结束语 近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相…...

【unique_str 源码学习】

文章目录 &#xff11;&#xff0e;删除器定义2. operator->() 运算符重载3. add_lvalue_reference<element_type>::type 使用 基本原理这篇博主写的很详细 https://yngzmiao.blog.csdn.net/article/details/105725663 &#xff11;&#xff0e;删除器定义 deleter_…...

flask第一个应用

文章目录 安装一、编程第一步二、引入配置三、代码解析 安装 python环境安装的过程就不重复赘述了&#xff0c;flask安装使用命令pip install Flask即可&#xff0c;使用命令pip show Flask查看flask版本信息 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供…...

华为OD机试真题(Python/JS/C/C++)- 考点 - 细节

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题 点这里。 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。...

【C++刷题】力扣-#628-三个数的最大乘积

题目描述 给你一个整型数组 nums &#xff0c;在数组中找出由三个数组成的最大乘积&#xff0c;并输出这个乘积。 示例 示例 1 输入&#xff1a;nums [1,2,3] 输出&#xff1a;6示例 2 输入&#xff1a;nums [1,2,3,4] 输出&#xff1a;24示例 3 输入&#xff1a;nums […...

Java项目实战II基于Java+Spring Boot+MySQL的工程教育认证的计算机课程管理平台(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着工程教…...

基于微信小程序实现信阳毛尖茶叶商城系统设计与实现

作者简介&#xff1a;Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验&#xff0c;被多个学校常年聘为校外企业导师&#xff0c;指导学生毕业设计并参与学生毕业答辩指导&#xff0c;…...

设计一个灵活的RPC架构

RPC架构 RPC本质上就是一个远程调用&#xff0c;需要通过网络来传输数据。传输协议可以有多种选择&#xff0c;但考虑到可靠性&#xff0c;一般默认采用TCP协议。为了屏蔽网络传输的复杂性&#xff0c;需要封装一个单独的数据传输模块用来收发二进制数据&#xff0c;这个单独模…...

大数据计算里的Broadcast Hash Join/Shuffle Hash Join/Sort Merge Join

文章目录 Broadcast Hash Join场景 Shuffle Hash Join场景 Sort Merge Join场景 Broadcast Hash Join 场景 大表和小小表&#xff0c;直接把B表加载到内存&#xff0c;然后读块1内容和内存中数据匹配 Shuffle Hash Join 场景 大表和小表JOIN &#xff0c;小表分块后能加载…...

Java - 手写识别; 如何用spring ai和大模型做手写识别教程

识别后的文字 利用大模型提升Java手写识别&#xff1a;更简单、更高效 在Java场景中&#xff0c;我们经常需要处理手写识别的问题。过去&#xff0c;这类需求主要依赖于OCR技术&#xff0c;但其效果并不总是稳定。随着大模型的发展&#xff0c;使用大模型进行java手写识别成为…...

【Linux】用户权限管理:创建受限用户并配置特定目录访问权限

本文详细介绍了如何在 Linux 系统中创建一个名为 agent 的新用户&#xff0c;并限制其在特定目录下的权限。通过使用 useradd 命令创建用户&#xff0c;并使用 usermod 命令将新用户添加到现有用户组中&#xff0c;确保其具有适当的权限。接着&#xff0c;通过 chown 和 chmod …...

pgsql表分区和表分片设计

在设计 PostgreSQL 表分区和表分片时&#xff0c;主要目标是提高查询性能、可扩展性和数据管理的效率。以下是一些关键的设计步骤和策略&#xff1a; 1. 分区策略 水平分片&#xff1a;选择按日期进行水平分片&#xff0c;每天一个分片。这种策略适用于具有时间序列数据的场景…...

灵动AI ——视频创作新引擎 开启视觉奇幻之旅

灵动AI视频官网地址&#xff1a;https://aigc.genceai.com/ 灵动AI 科技与艺术的完美融合之作。它代表着当下最前沿的影像技术&#xff0c;为我们带来前所未有的视觉盛宴。...

AI设计、作图、画画工具哪个好用?看完这篇你就知道怎么选了

Stable Diffusion Stable Diffusion 是由 Stability AI 推出的开源 AI 文本到图像生成模型&#xff0c;以其开放性和灵活性在 AI 视觉工具领域广受欢迎。与 DALL-E 或 Midjourney 等只能依赖云计算的工具不同&#xff0c;Stable Diffusion 支持本地运行&#xff0c;也广泛兼容多…...

【python ASR】win11-从0到1使用funasr实现本地离线音频转文本

文章目录 前言一、前提条件安装环境Python 安装安装依赖,使用工业预训练模型最后安装 - torch1. 安装前查看显卡支持的最高CUDA的版本&#xff0c;以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。2. 前往网站下载[Pytorch](https://pytorch.o…...

myqld二进制安装和破解数据库密码(linux)

安装和基本配置 1.首先把下载下来的mysql安装包放到本地这里下载的是5.7版本为演示 1&#xff09;解压 tar xf mysql-5.7.20-linux-glibc2.12-x86_64.tar.gz -C /usr/local -把安装包解压到/usr/local cd /usr/local …...

防重方案-订单防重方案笔记

订单防重设计 订单重复提交概念解决方案前端防重机制后端防重机制利用Token机制基于数据库的唯一索引 Token机制方案介绍 其他 订单重复提交概念 重复提交指&#xff0c;连点按钮进行重复提交操作&#xff0c;不包括刷新后的重新下单&#xff0c;重新下单已非同一订单的概念。…...

HTML、JavaScript和CSS实现注册页面设计

目录 一、实现要求 二、实现页面图 1、注册页面 2.用户ID、用户名、口令验证成功后显示页面 三、用户ID、用户名、口令、确定口令验证逻辑js代码 1、验证用户ID 2、验证用户名 3、验证口令密码 四、总结 五、代码仓库 一、实现要求 综合使用HTML、JavaScript和CSS进…...

Counter对象的使用样例

1. Counter类的定义和功能说明 Counter是一个用于跟踪值出现次数的有序集合。它可以接收一个可迭代对象作为参数&#xff0c;并生成一个字典&#xff0c;其中包含每个元素作为键&#xff0c;其计数作为值。 2. 统计列表或字符串中元素的出现次数 示例代码&#xff1a; from…...

大模型中的token是什么;常见大语言模型的 token 情况

目录 大模型中的token是什么 常见大语言模型的 token 情况 大模型中的token是什么 定义 在大模型中,token 是文本处理的基本单位。它可以是一个字、一个词,或者是其他被模型定义的语言单元。简单来说,模型在理解和生成文本时,不是以完整的句子或段落为单位进行一次性处理…...

Python小白学习教程从入门到入坑------第十七课 内置函数拆包(语法基础)

一、内置函数 1.1 查看所有内置函数 内置函数&#xff1a;Python 提供了许多内置函数&#xff0c;这些函数无需导入任何模块即可直接使用。它们涵盖了各种用途&#xff0c;从数学运算到类型检查&#xff0c;再到输入输出操作等。 如何查看内置函数呢&#xff1f; 在Pycharm…...

动态规划 —— 路径问题-最小路径和

1. 最小路径和 题目链接&#xff1a; 64. 最小路径和 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/minimum-path-sum/description/ 2. 算法原理 状态表示&#xff1a;以莫一个位置位置为结尾 dp[i&#xff0c;j]表示&#xff1a;到达[i&#xff0c;j…...

《链表篇》---删除链表的倒数第N个节点(中等)

题目传送门 方法一&#xff1a;计算链表长度&#xff08;迭代&#xff09; 1.计算链表长度&#xff0c;并且定义哑节点链接链表。 2.从哑节点开始前进length-n次。即为被删除节点的前置节点。 3.进行删除操作。 4.返回哑节点的后置节点 class Solution {public ListNode remo…...

duilib 进阶 之 TileListBox 列表

目录 一、TileListBox 1、样式 1)、整体列表分列设置 2)、列表项样式设置 3)、选中后出现√号,horver时 出现边框色 的实例 2、代码 1)、普通动态添加列表项 2)、列表项样式中有自定义控件时 3)、获得选中项 一、TileListBox Tile [taɪl] ,瓦片 棋子 Ti…...

Web应用安全—信息泄露

从书本和网上了解到Web应用安全的信息泄露的知识&#xff0c;今天跟大家分享点。 robots.txt泄漏敏感信息 漏洞描述&#xff1a;搜索引擎可以通过robots文件可以获知哪些页面可以爬取&#xff0c;哪些页面不可以爬取。Robots协议是网站国际互联网界通行的道德规范&#xff0c…...

大数据治理:策略、技术与挑战

随着信息技术的飞速发展&#xff0c;大数据已经成为现代企业运营和决策的重要基础。然而&#xff0c;大数据的复杂性、多样性和规模性给数据管理带来了前所未有的挑战。因此&#xff0c;大数据治理应运而生&#xff0c;成为确保数据质量、合规性、安全性和可用性的关键手段。本…...

vscode插件-08 Golang

文章目录 Go安装其他必须软件 Go Go语言环境&#xff0c;只需安装这一个插件。然后通过vscode命令下载安装其他go环境需要的内容。 程序调试&#xff0c;需要创建.vscode文件夹并编写launch.json文件。 安装其他必须软件 ctrlshiftp&#xff0c;调出命令面板&#xff0c;输入…...

数据结构+算法分析与设计[15-18真题版]

2015年考试试题 一、给出数组A[3..8,2..6]0F integer,当它在内存中按行存放和按列存放时&#xff0c;分别写出元素A[i,j]的地址计算公式(设每个元素占两个存储单元)。(10分) 二、已知一棵二叉树的中序序列的结果是BDCEAFHG,后序序列的结果是DECBHGFA,试画出这棵二叉树。(10分…...

单链表OJ题(2):反转链表(三指针法)、找中间节点(快慢指针)

目录 1.反转链表 反转链表总结&#xff1a; 2.链表的中间节点&#xff08;快慢指针法&#xff09; 快慢指针法总结 1.反转链表 在这道题中&#xff0c;我们需要把一个单链表反转它们的指向&#xff0c;这里&#xff0c;我们给出了一个好理解的简单解法&#xff0c;就是用三…...

Rows 行

Goto Data Grid 数据网格 Rows 行...