当前位置: 首页 > news >正文

大语言模型:LLM的概念是个啥?

一、说明

        大语言模型(维基:LLM- large language model)是以大尺寸为特征的语言模型。它们的规模是由人工智能加速器实现的,人工智能加速器能够处理大量文本数据,这些数据大部分是从互联网上抓取的。 [1]所构建的人工神经网络可以包含数千万到数十亿的权重,并使用自监督学习和半监督学习进行(预)训练。 Transformer 架构有助于加快训练速度。[2]替代架构包括专家混合(MoE),它是由 Google 提出的,从 2017 年的稀疏门控架构开始,[3] 2021 年的 Gshard[4] 到 2022 年的 GLaM。 

        作为语言模型,它们的工作原理是获取输入文本并重复预测下一个标记或单词。[6]到 2020 年,微调是模型能够完成特定任务的唯一方法。然而,较大尺寸的模型,例如 GPT-3,可以通过快速设计来实现类似的结果。 [7]他们被认为获得了人类语言语料库中固有的语法、语义和“本体论”的具体知识,但也获得了语料库中存在的不准确和偏见。 [8]

二、度量尺度演进史

        在17世纪初,一位名叫埃德蒙·冈特(Edmund Gunter)的数学家和天文学家面临着前所未有的天文学挑战。计算行星的复杂运动和预测日食需要的不仅仅是直觉——它需要掌握复杂的对数和三角方程。因此,就像任何精明的创新者一样,冈瑟决定从头开始构建它!他创造了一种模拟计算设备,最终成为所谓的计算尺。

        计算尺是一个长30厘米的矩形木块,由两部分组成:固定框架和滑动部分。固定框架容纳固定对数刻度,而滑动部分容纳可移动刻度。要使用计算尺,您需要了解对数的基本原理以及如何对齐乘法、除法和其他数学运算的刻度。您必须滑动可移动部分以对齐设置数字,读取结果并考虑小数点放置。哎呀,这真的很复杂!

计算尺

        大约300年后,贝尔潘奇公司于1961年推出了第一台电子桌面计算器“ANITA Mk VII”。在接下来的几十年里,电子计算器变得更加复杂,具有附加功能。以前需要大量手动计算的工作大大减少了工时,使员工能够专注于工作中更具分析和创造性的方面。因此,现代电子计算器不仅重塑了工作角色,还为提高解决问题的能力铺平了道路。

计算器是数学完成方式的一步变化。语言呢?

三、语言度量才刚刚开始

        想想你是如何生成句子的。你首先需要有一个想法。接下来,你需要知道一堆单词(词汇)。然后,您需要能够将它们放在适当的句子(语法)中。啧,又是相当复杂的!

        我们生成语言单词的方式可以追溯到50万年前,也就是现代智人首次创造语言的时候。

公平地说,我们仍然处于冈瑟在生成句子时使用计算尺的时代!

        如果你考虑一下,使用适当的词汇和语法基本上只是遵守规则。语言规则。

        这类似于数学。它充满了规则。因此,为什么我可以确定 1+1=2 以及为什么计算器有效!

我们需要的是一个计算器,但对于文字!

        是的,不同的语言遵循不同的规则,但需要遵循一些规则才能理解。语言和数学之间的一个明显区别是,数学有固定的答案,而一个句子中可以容纳的合理单词的数量可能很大。

        尝试完成以下句子:我吃了一个________。想象一下接下来可能出现的单词。英文大约有1万个单词。其中很多都可以在这里使用,但绝对不是全部。

        回答“黑洞”相当于说2+2=5。此外,回答“苹果”也不准确。为什么?因为语法!

        在过去的几个月里,大型语言模型(LLM)风靡全球。一些人称其为自然语言处理的突破,而另一些人则将其视为人工智能(AI)新时代的曙光。

        LLM已被证明非常擅长生成类似人类的文本,提高了基于语言的AI应用程序的标准。凭借庞大的知识库和上下文理解,LLM可以应用于各个领域,从语言翻译和内容生成到虚拟助手和客户支持聊天机器人。

问题是:我们目前是否处于LLM的拐点,就像我们在1960年代使用电子计算器一样?

        在我们回答这个问题之前,LLM是如何工作的?LLM基于转换器神经网络,用于计算和预测接下来最适合的单词。要构建一个强大的转换器神经网络,您需要在大量的文本数据上对其进行训练。这就是为什么“预测下一个单词/标记”方法如此有效的原因:有很多容易获得的训练数据。LLM将整个单词序列作为输入,并预测下一个最有可能出现的单词。为了了解接下来最有可能发生的事情,他们吞下了所有的维基百科作为热身练习,然后转向成堆的书籍,最后是整个互联网。

        我们之前已经确定语言包含规则和模式。该模型通过遍历所有这些句子隐式学习这些规则,它将使用这些句子来完成预测下一个单词的任务。

深度神经网络

        在单数名词之后,下一个单词是以“s”结尾的动词的可能性增加。同样,在阅读莎士比亚时,看到“doth”和“wherefore”等词的机会也会增加。

        在训练过程中,模型用语言学习这些模式,最终成为专家!

但这够了吗?学习语言规则就够了吗?

语言很复杂,一个词可能根据上下文意味着多种事物。

        因此,自我关注。简单来说,自我注意是LLM用来理解句子或一段文本中不同单词之间关系的一种技术。就像你关注故事的不同部分来理解它一样,自我关注允许LLM在处理信息时更加重视句子中的某些单词。这样,模型可以更好地理解文本的整体含义和上下文,而不是仅仅根据语言规则盲目地预测下一个单词。

自我注意机制

如果LLM是单词的计算器,只是预测下一个单词,它如何回答我所有的问题?

        当你要求一个大型语言模型做一些聪明的事情——而且它有效——你很有可能要求它做一些它已经看到数千个例子的事情。即使你想出了一些非常独特的东西,比如:

“给我写一首关于逆戟鲸吃鸡的诗”

在海浪中,一个看不见的景象,一只逆戟鲸捕猎,迅速而敏锐,在海洋领域,舞蹈开始,作为鸡的命运,逆戟鲸获胜。

它用强大的下颚撞击猎物,羽毛漂浮,漂流,以自然的方式,编织一个故事,生与死合而为一。

~ 聊天

        很不错吧?得益于其自我注意机制,它可以有效地混合和匹配相关信息,以构建合理而连贯的响应。

        在训练过程中,LLM学习识别他们所接触到的数据中单词和短语之间的模式,关联和关系。由于这种广泛的培训和微调,LLM可以表现出新兴属性,例如执行语言翻译,摘要,问答甚至创意写作的能力。这些功能通常超出了模型中显式编程的范围,并且可能非常出色!

大型语言模型是否智能?

        电子计算器已经存在了六十多年。该工具本身已经有了突飞猛进的改进,但它从未被认为是智能的。为什么?

图灵测试 - 图灵测试是一种看似简单的方法,用于确定机器是否表现出类似人类的智能:如果机器能够以与人类无法区分的方式与人类进行对话,则认为它具有人类智能。

        计算器从未接受过图灵测试,因为它不像人类那样用同样的语言进行交流,只有数学语言。另一方面,LLM产生人类语言。它的整个训练过程围绕着模仿人类语言。因此,它可以“以与人类无法区分的方式与人类进行对话”也就不足为奇了。

        因此,用“智能”这个词来描述LLM有点棘手,因为对于智能的真正含义没有明确的共识。考虑某物是否智能的一种方法是,它是否做了有趣、有用且不是非常明显的事情。LLM确实属于这一类。不幸的是,我完全不同意这种解释。

我将智力定义为扩展知识前沿的能力。

        在撰写本文时,经过训练来预测下一个标记/单词的机器仍然无法扩展知识的前沿。

        但是,它可以对已训练的数据进行插值。没有明确理解单词背后的逻辑,也没有存在的知识树。因此,它将永远无法产生异常的想法并实现洞察力的飞跃。它将始终提供连贯的答案,在某种程度上是平均响应。

那么,这对我们人类意味着什么呢?

        我们应该把LLM更像一个单词的计算器。永远不要把你的思维完全外包给语言模型。

        与此同时,随着这些模型呈指数级增长,我们可能会感到越来越不知所措和微不足道。解决这个问题的方法是始终对看似无关的想法保持好奇。表面上看起来不连贯的想法,但基于我们与周围环境的互动而有意义。目标是生活在知识的边缘,创造和连接新的点。

        如果你在这个层面上工作,所有形式的技术,无论是计算器还是大型语言模型,都会成为你可以使用的工具,而不是你需要担心的生存威胁。

参考资料: 达文·维贾扬

相关文章:

大语言模型:LLM的概念是个啥?

一、说明 大语言模型(维基:LLM- large language model)是以大尺寸为特征的语言模型。它们的规模是由人工智能加速器实现的,人工智能加速器能够处理大量文本数据,这些数据大部分是从互联网上抓取的。 [1]所构建的人工神…...

21 | 朝阳医院数据分析

朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额、客单价以及消费趋势、需求量前几位的药品等。 import numpy as np from pandas import Series,DataFrame impo…...

二十二、责任链模式

目录 1、使用demo演示责任链模式2、传统方案解决oa系统审批3、传统方案解决oa系统审批存在的问题4、职责链模式基本介绍5、职责链模式原理类图6、职责链模式解决oa系统采购审批7、职责链模式的注意事项和细节8、职责链模式的实际使用场景举例 1、使用demo演示责任链模式 学校o…...

opencv,opengl,osg,vulkan,webgL,opencL,cuda,osg,vtk,ogre的区别

OpenCV OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。 它轻量级而且高效——由一系列 C 函数和少量 C 类构成,同时提供了Python、Ruby、MATLAB等…...

基于颜色进行轮廓分割,基于opencv和python

1. 阈值调整,交互式的阈值调整,确定上限和下限: import cv2 as cv import numpy as npdef Tcallback(event):H cv.getTrackbarPos(H, show_pic)S cv.getTrackbarPos(S, show_pic)V cv.getTrackbarPos(V, show_pic)H0 cv.getTrackbarPos(…...

TCP重连 - 笔记

1 C++ TCP/IP 关于tcp断线重连的问题 C++ TCP/IP 关于tcp断线重连的问题_c++ 断线重连_Bug&猿柒。的博客-CSDN博客 2 C++基础--完善Socket C/S ,实现客户端,服务器端断开重连 https://www.cnblogs.com/kingdom_0/articles/2571727.html 3 C++实现Tcp通信(考虑客户…...

Qt画波浪球(小费力)

画流动波浪 #ifndef WIDGET3_H #define WIDGET3_H#include <QWidget> #include <QtMath> class widget3 : public QWidget {Q_OBJECT public:explicit widget3(QWidget *parent nullptr);void set_value(int v){valuev;}int get_value(){return value;} protecte…...

监控Kubernetes Node组件的关键指标

所有的 Kubernetes 组件&#xff0c;都提供了 /metrics 接口用来暴露监控数据&#xff0c;Kube-Proxy 也不例外。通过 ss 或者 netstat 命令可以看到 Kube-Proxy 监听的端口&#xff0c;一个是 10249&#xff0c;用来暴露监控指标&#xff0c;一个是 10256 &#xff0c;作为…...

Mysql之优化-主从复制

1、索引优化 &#xff08;1&#xff09;性能下降&#xff0c;执行、等待时间长&#xff1a;数据过多—》分库分表&#xff0c;关联太多&#xff0c;索引未使用&#xff0c;参数调优 &#xff08;2&#xff09;索引失效情况&#xff1a;索引列计算或函数等操作&#xff0c;索引…...

编程之道:构建优雅可维护代码的基石

编程世界犹如一座庞大的建筑群&#xff0c;而代码构建块则是这座建筑的基石。类比于建筑学中的基础构件&#xff0c;代码构建块是软件开发过程中不可或缺的元素。本文将深入探讨代码构建块的概念以及其在编写高质量代码方面的重要性。 什么是代码构建块&#xff1f; 在软件开发…...

十大经典排序算法

目录 前言 冒泡排序 选择排序 插入排序 希尔排序 归并排序 快速排序 堆排序 计数排序 桶排序 基数排序 十大排序之间的比较 总结 前言 学了数据结构之后一直没有进行文字性的总结&#xff0c;现在趁着还有点时间把相关排序的思路和代码实现来写一下。概念的话网上…...

Linux6.37 Kubernetes 集群调度

文章目录 计算机系统5G云计算第三章 LINUX Kubernetes 集群调度一、调度约束1.调度过程2.指定调度节点3.亲和性1&#xff09;节点亲和性2&#xff09;Pod 亲和性3&#xff09;键值运算关系 4.污点(Taint) 和 容忍(Tolerations)1&#xff09;污点(Taint)2&#xff09;容忍(Toler…...

记录一次前端input中的值为什么在后端取不到值

前端源码&#xff1a; <input type"text" name"user" placeholder"请输入你的名字" class"layui-input" value"{{ username}}" size"50" disabled"true"> 后端源码&#xff1a; send_name req…...

Apipost接口自动化控制器使用详解

测试人员在编写测试用例以及实际测试过程中&#xff0c;经常会遇到两个棘手的问题&#xff1a; •稍微复杂一些的自动化测试逻辑&#xff0c;往往需要手动写代码才能实现&#xff0c;难以实现和维护 •测试用例编写完成后&#xff0c;需要手动执行&#xff0c;难以接入自动化体…...

Leaflet入门,Leaflet如何自定义版权信息,以vue2-leaflet修改自定义版权为例

前言 本章讲解使用Leaflet的vue2-leaflet或者vue-leaflet插件来实现自定义版权信息的功能。 # 实现效果演示 见图片右下角版权信息 vue如何使用Leaflet vue2如何使用:《Leaflet入门,如何使用vue2-leaflet实现vue2双向绑定式的使用Leaflet地图,以及初始化后拿到leaflet对象…...

【AI】p54-p58导航网络、蓝图和AI树实现AI随机移动和跟随移动、靠近玩家挥拳、AI跟随样条线移动思路

p54-p58导航网络、蓝图和AI树实现AI随机移动和跟随移动、靠近玩家挥拳、AI跟随样条线移动思路 p54导航网格p55蓝图实现AI随机移动和跟随移动AI Move To&#xff08;AI进行移动&#xff09;Get Random Pointln Navigable Radius&#xff08;获取可导航半径内的随机点&#xff09…...

mysql事务隔离级别详细讲解

mysql事务讲解 MySQL事务处理&#xff08;TransAction&#xff09; 大家好&#xff0c;我是一名热爱研究技术并且喜欢自己亲手实践的博主。 工作这么多年&#xff0c;一直没有深入理解MySQL的事务&#xff0c;因为最近也在面试&#xff0c;准备复习mysql的相关知识&#xff0…...

如何利用 EMC 模型解决能源服务提供商的瓶颈

01. 什么是合同能源管理&#xff1f; 合同能源管理(EMC-Energy Management Contract) 是一种新型的市场化节能机制,其实质就是以减少的能源费用来支付节能项目全部成本的节能投资方式。&#xff1a;节能服务公司与用能单位以契约形式约定节能项目的节能目标&#xff0c;节能服…...

C#--StringComparison枚举值解析

StringComparison 枚举值是在 C# 中用于指定字符串比较规则的枚举类型。它提供了不同的选项&#xff0c;以满足不同的比较需求。下面是 StringComparison 枚举值的解析&#xff1a; StringComparison.CurrentCulture&#xff1a;使用当前线程的区域设置&#xff08;Culture&am…...

adb对安卓app进行抓包(ip连接设备)

adb对安卓app进行抓包&#xff08;ip连接设备&#xff09; 一&#xff0c;首先将安卓设备的开发者模式打开&#xff0c;提示允许adb调试 二&#xff0c;自己的笔记本要和安卓设备在同一个网段下&#xff08;同连一个WiFi就可以了&#xff09; 三&#xff0c;在笔记本上根据i…...

SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日 来简单学一下子来 一、选择题&#xff08;可多选&#xff09; 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘&#xff1a;专注于发现数据中…...

Go 语言接口详解

Go 语言接口详解 核心概念 接口定义 在 Go 语言中&#xff0c;接口是一种抽象类型&#xff0c;它定义了一组方法的集合&#xff1a; // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的&#xff1a; // 矩形结构体…...

测试markdown--肇兴

day1&#xff1a; 1、去程&#xff1a;7:04 --11:32高铁 高铁右转上售票大厅2楼&#xff0c;穿过候车厅下一楼&#xff0c;上大巴车 &#xffe5;10/人 **2、到达&#xff1a;**12点多到达寨子&#xff0c;买门票&#xff0c;美团/抖音&#xff1a;&#xffe5;78人 3、中饭&a…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

高危文件识别的常用算法:原理、应用与企业场景

高危文件识别的常用算法&#xff1a;原理、应用与企业场景 高危文件识别旨在检测可能导致安全威胁的文件&#xff0c;如包含恶意代码、敏感数据或欺诈内容的文档&#xff0c;在企业协同办公环境中&#xff08;如Teams、Google Workspace&#xff09;尤为重要。结合大模型技术&…...

EtherNet/IP转DeviceNet协议网关详解

一&#xff0c;设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络&#xff0c;本网关连接到EtherNet/IP总线中做为从站使用&#xff0c;连接到DeviceNet总线中做为从站使用。 在自动…...

Reasoning over Uncertain Text by Generative Large Language Models

https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

在Mathematica中实现Newton-Raphson迭代的收敛时间算法(一般三次多项式)

考察一般的三次多项式&#xff0c;以r为参数&#xff1a; p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]&#xff1b; 此多项式的根为&#xff1a; 尽管看起来这个多项式是特殊的&#xff0c;其实一般的三次多项式都是可以通过线性变换化为这个形式…...