当前位置: 首页 > news >正文

2023年排行前五的大规模语言模型(LLM)

2023年排行前五的大规模语言模型(LLM)

截至2023年,人工智能正在风靡全球。它已经成为热门的讨论话题,吸引了数百万人的关注,不仅限于技术专家和研究人员,还包括来自不同背景的个人。人们对人工智能热情高涨的原因之一是其在人类多年来处理的各种形式的领域中所具备的能力,其中包括语言。语言是人类生活的一个组成部分,它帮助我们交流,理解我们周围的事物,甚至帮助我们思考。但是,如今人工智能已经更有能力处理与人类水平甚至高于人类水平的语言。这是由于自然语言处理(NLP)和大型语言模型(LLMs)的进步,ChatGPT的背后就是其中之一,这是总部位于旧金山的初创公司OpenAI的伟大创举。但是,OpenAI成为成功将其LLM技术推向公众的公司之一。有许多大型和小型公司构建了许多此类类型的大型语言模型。在本文中,我们将概述大型语言模型以及世界上一些先进的LLM,准确地说,我们将讨论其中的5个。需要注意的是,这些LLM的列表是通过各种来源的研究编制的,并不是基于排名的。

大型语言模型的精髓

近年来,自然语言处理(NLP)因计算机能够存储和处理大量自然文本数据的能力而受到迅猛发展。NLP的应用可以在我们使用了几十年的各种技术中看到,如语音识别、聊天机器人等。自从机器学习出现以来,科学家们开始将NLP与最先进的机器学习技术相结合,以更高效地处理文本。但是,最近NLP由于强大的大型语言模型(LLMs)的出现而变得更加流行。

那么什么是大型语言模型,为什么它们如此强大?语言模型基本上是一种特殊类型的机器学习模型,可以高效地学习、理解和处理人类语言。通过从包含文本的数据集中学习,语言模型可以高度准确地预测下一个词或句子。但是,当它们变得更大时,它们变得更加有趣和特殊。LLMs在非常大的文本数据集(数百万或数十亿的文本数据)上进行了训练,并且需要大量的计算能力。比较之下,如果说语言模型就像花园,那么大型语言模型就像是茂密的森林。

LLMs如何工作?

正如我们所说,LLMs是机器学习模型,它们可以通过文本做很多事情,例如将一种语言翻译成另一种语言,生成语言,回答问题等。但是它们是如何做到的呢?建立LLMs的可能性来自Google研究人员提出的一种特殊类型的神经网络架构,称为Transformer。

Transformer是一种专门用于在文本数据中执行魔术的神经网络类型。它们非常适合有效地进行扩展,并且可以在非常大的文本语料库上进行训练,甚至是数十亿甚至数万亿的文本!此外,与其他类型的神经网络(如循环神经网络)相比,变压器可以更快地进行训练。更有趣的是,Transformer可以并行训练,这意味着可以同时利用多个计算资源(例如CPU或GPU)来加速学习过程,而RNN只能顺序处理数据。

变压器模型的另一个有趣的特点是自我注意技术。这种机制使得变压器能够学习语言的潜在含义,而不仅仅是逐个产生随机相关的文本。由于具备了这种能力,今天的语言模型不仅仅是逐个输出文本,而且它们通过提供大量的文本数据来学习语言的实际含义(就像人类一样),包括语法、语义和上下文。

Google开发的Transformer模型的发明在人工智能和自然语言处理(NLP)领域取得了重大的成就。借助这种Transformer模型,许多大型、小型甚至初创公司正在构建LLMs,并将其用于不同的目的,如技术聊天支持、语音助手、内容生成、聊天机器人等等。我们无法讨论当今存在的每个LLMs,因为它们有很多。因此,现在,让我们讨论2023年世界上存在的最先进的5个LLMs,这些LLMs如下:

1、GPT-4(OpenAI)

在这里插入图片描述

GPT-4,全称为Generative Pre-trained Transformer-4,是OpenAI最先进且高度复杂的大型语言模型。它是继成功推出搭载GPT-3.5的ChatGPT后于2023年3月14日发布的第四代语言模型。它配备了一流的推理和创造能力,超越了人们的想象。GPT-4是一个庞大的神经网络,包含着惊人的1万亿参数,并在包含来自各种编程语言的代码在内的大型文本数据集上进行了训练。此外,GPT-4不仅精通文本处理,还展现出处理视觉数据(包括图像)的能力。凭借其从文本和视觉输入中理解和生成内容的能力,可以认为GPT-4是一种强大的多模态人工智能,连接了语言和视觉领域。

GPT-4的另一个有趣功能是它可以在单个请求中处理的数据量。OpenAI的前任语言模型可以在单个请求中处理多达3000个标记,但GPT-4可以在一个请求中处理多达25000个标记。这非常大,您实际上可以要求GPT-4在一次操作中对整个10页PDF进行摘要。

更有趣的是,OpenAI的科学家和研究人员表示,GPT-4具有人工通用智能(AGI)的一瞥,而许多科学家认为在未来40或50年内可能不太可能实现。然而,根据OpenAI的博客文章,GPT-4并不是一个完美的系统,它可能会出现幻觉和错误的回答。

2、GPT-3(OpenAI)

在这里插入图片描述

GPT-3,全称为Generative Pre-trained Transformer 3,是另一个基于Transformer的令人印象深刻的语言模型,于2020年6月11日由OpenAI推出,在2023年仍然是市场上最先进的LLMs之一。它使用先进的深度学习技术,如Transformer和注意机制,来处理和生成与人类编写的文本难以区分的文本。

从本质上讲,GPT-3非常庞大,大约有1750亿个参数,使用先进的自然语言处理(NLP),并在包含维基百科、WebText2、书籍、文章和代码等各种来源的数千兆字节的文本数据集上进行了训练。这种复杂性使得GPT-3在语言处理方面具有卓越的能力,包括文本生成、语言翻译和问题回答。此外,GPT-3在GitHub的大部分内容上进行了广泛的训练,使其在各种编程语言和概念的广泛范围内都具备了专业知识。

在GPT-3取得成功后,该公司再次推出了GPT-3的增强版本,称为GPT-3.5,它正在驱动ChatGPT。

3、Gopher(DeepMind)

在这里插入图片描述

Gopher是由Google DeepMind开发的AI语言模型,专门针对阅读理解、事实核查、理解有毒语言以及逻辑和常识任务等任务进行了训练。

DeepMind的研究人员开发了一系列的语言模型,从4400万参数到2800亿参数,这些模型在来自各种来源的大量文本上进行了训练。在这些语言模型中,2800亿参数的模型在语言理解和生成方面表现出更强的能力,他们称之为Gopher。在他们的研究中,他们发现Gopher在各种任务中超越了现有的语言模型,并达到了人类水平的专业水平,包括大规模多任务语言理解(MMLU),这是用于衡量大型语言模型理解和回应各种语言任务能力的新基准。这项研究表明,与其他语言模型(包括GPT-3)相比,Gopher在数学、科学、技术、人文学科和医学等领域表现出色。

Gopher的设计目标是在基于对话的互动中表现出色,从而使其能够通过聊天式的回应来解释甚至复杂的主题。如果您访问他们的公司博客,您可以看到Gopher以非常简单的术语解释细胞生物学的例子。

4、PaLM(Google)

在这里插入图片描述

PaLM,全称为Pathways Language Model,是Google的一种先进的语言模型,旨在在单一模型内概括多个领域。它使用Pathways架构更好地理解语言,并消除了现有语言模型(如特定领域性、单一性等)的一些局限性。Pathways是一种相对较新且在Google进行的研究中不断改进的神经网络架构。Pathways使得AI系统能够在多个领域中表现出色,而不仅仅是专注于一组单一的任务。它还使得AI模型成为多模态的,这意味着它们可以同时处理和理解来自不同模态(如文本、图像和音频)的信息。

PaLM是一个基于Transformer的语言模型,具有5400亿个参数,它在语言理解、问题回答、算术、代码、语言翻译、逻辑推理、对话等各个领域表现出卓越的性能。更有趣的是,Google的研究人员将其PaLM模型整合到了一个真实世界的机器人中,通过添加传感信息和机器人手势和控制。这个机器人可以通过其PaLM大脑执行各种任务,包括进行与人类的有意义对话、理解并响应口头指令、自主导航、使用机器臂操纵物体以及执行各种现实世界的任务。

PaLM是Google正在积极追求的研究领域之一,该公司正在开发新的、高性能的PaLM版本。事实上,他们最近推出了PaLM-2,该模型具有令人印象深刻的推理、编码和多语言能力。

5、LaMDA(Google)

在这里插入图片描述

LaMDA,全称为Language Model for Dialogue Applications,是Google于2020年早期进行的研究中开发的另一种语言模型。与其他语言模型不同,LaMDA主要在基于对话的文本上进行训练,这对于对话非常有利。由于在对话中进行了训练,LaMDA在进行人类水平有意义的对话方面表现出了异常的技能。LaMDA的这种能力非常出色,Google的一位前员工甚至认为LaMDA是有思想的。

LaMDA基于先进的NLP技术,采用了基于Transformer的神经网络模型。根据Google的研究人员表示,将基于Transformer的模型与对话相结合,有可能使大型语言模型更擅长进行人类水平的对话,甚至最终可以学会谈论几乎任何事情。此外,在大量对话文本中进行训练后,可以使用强化学习对LaMDA进行微调,使其在基于对话的任务中更难以区分出AI。

在2023年2月,Google将其最新版本的LaMDA集成到了名为Bard的聊天机器人中,该机器人现在在全球范围内可用。然而,Google表示,他们已经将Bard背后的技术从LaMDA替换为PaLM-2。

其他值得一提的提名

LLaMA(Meta AI):LLaMA(Large Language Model Meta AI)是由Meta(前Facebook)开发的一系列开源LLMs。其中,LLaMA 1于2023年2月发布,被认为是最佳的开源语言模型之一,可用于各种NLP任务,而无需支付任何费用,除非您可能需要在家中运行GPU。LLaMA 1的第一个版本包括7、13、33和65亿个参数模型。其中,Meta的研究人员发现,13亿个参数的模型在大多数NLP任务中表现比GPT-3(1750亿)更好。65亿模型的表现更佳,可能与Google的PaLM模型竞争。

Claude(Anthropic):Claude是由Anthropic开发的一种类似于GPT-3的大型语言模型。与其他LLMs不同,Claude的训练数据集主要由人类作者手动创建的,而不是自动收集的数据。这使得Claude能够更好地理解并生成高质量的文本。此外,Anthropic表示Claude不是一个通用的大型语言模型,而是一个以人类作为参考的模型,其目标是在编写时提供帮助和指导,而不仅仅是生成文本。

总结

在人工智能迅速发展的今天,大型语言模型(LLMs)已经成为人们热议的话题。它们在自然语言处理(NLP)领域取得了巨大的成功,并且已经广泛用于各种应用,从文本生成到问题回答,再到对话式AI。我们看到了许多公司不断推出越来越强大的LLMs,这些模型在语言理解和生成方面超越了以前的记录。在2023年,像GPT-4、GPT-3、Gopher、PaLM和LaMDA等最先进的LLMs展示了人工智能在理解和处理人类语言方面的显著进展。不过,这些模型仍然面临挑战,如幻觉、错误回答等,但它们仍然为科研、商业和创新提供了巨大的机会。随着技术不断演进,LLMs可能会在更多领域带来创新,为人类生活带来积极的影响。

博文参考:
https://www.pycodemates.com/2023/06/large-language-models-overview-and-types-of-llm.html

相关文章:

2023年排行前五的大规模语言模型(LLM)

2023年排行前五的大规模语言模型(LLM) 截至2023年,人工智能正在风靡全球。它已经成为热门的讨论话题,吸引了数百万人的关注,不仅限于技术专家和研究人员,还包括来自不同背景的个人。人们对人工智能热情高涨的原因之一是其在人类多…...

DoIP学习笔记系列:(六)满足AES128-CMAC算法的“安全认证”.dll生成实践

文章目录 1. 算法Demo2. 算法实现传送门 DoIP学习笔记系列:导航篇 AES128-CMAC算法在汽车电子控制单元的软件开发中涉及到安全相关的需求经经常用到,具体的算法原理请各位小伙伴自行百度,本篇主要向大家分享该算法如何集成到.dll文件中,在OTA、刷写等场景作为$27服务的安全…...

Collections操作集合的工具类,可变参数、集合操作的工具类

1、可变参数 假设定义一个方法求和,该方法可以灵活的完成如下需求: 计算1个数据的和计算2个数据的和计算3个数据的和计算n个数据的和,甚至可以支持不接收参数进行调用。 1.1、可变参数 可变参数用在形参中可以接收多个数据。可变参数的格式&…...

Linux Kernel:进程表示

环境: Kernel Version:Linux-5.10 ARCH:ARM64 一:前言 Linux内核涉及进程和程序的所有算法都围绕task_struct数据结构建立,具体可看另一篇文章: Linux Kernel:thread_info与task_struct 同时Linux提供了资源限制(resource limit, rlimit)机制,对进程使用系统资源施…...

黑马项目一阶段面试58题 苍穹外卖具体技术细节9题

一、Nginx的作用 1.反向代理 前端把请求发送给nginx,再由nginx将请求发送给后端服务器。 2.负载均衡 提高访问速度;进行负载均衡;保证后端服务安全 二、Swagger有什么作用 直接调试后端请求响应 三、Redis常见数据类型 String、Hash、L…...

SkyEye操作指南:连接TI CCS的IDE调试

现代电力电子控制系统的开发中,DSP芯片以其优越的运算性能在控制算法领域得到越来越广泛的应用。传统的DSP开发过程往往需要在完成控制系统仿真与程序设计后,才能根据比对结果进行程序修改,全过程还需要硬件电路工程师的配合,开发…...

PINN神经网络源代码解析(pyTorch)

参考文献 PINN(Physics-informed Neural Networks)的原理部分可参见https://maziarraissi.github.io/PINNs/ 考虑Burgers方程,如下图所示,初始时刻u符合sin分布,随着时间推移在x0处发生间断. 这是一个经典问题,可使用pytorch通过…...

ChatGPT​保密吗?它有哪些潜在风险?如何规避?

自2022年11月公开发布以来,ChatGPT已成为许多企业和个人的必备工具,但随着该技术越来越多地融入我们的日常生活,人们很自然地想知道:ChatGPT是否是保密的。 问:ChatGPT保密吗? 答:否&#xff0…...

C++中配置OpenCV的教程

首先去OpenCV的官网下载OpenCV安装包,选择合适的平台和版本进行下载,我下载的是Windows的OpenCV-4.7.0版本。OpenCV下载地址 下载好后,解压到自己指定的路径。 配置环境变量: WinR键打开运行窗口,输入sysdm.cpl打开系…...

收银一体化-亿发2023智慧门店新零售营销策略,实现全渠道运营

伴随着互联网电商行业的兴起,以及用户理念的改变,大量用户从线下涌入线上,传统的线下门店人流量急剧收缩,门店升级几乎成为了每一个零售企业的发展之路。智慧门店新零售收银解决方案是针对传统零售企业面临的诸多挑战和问题&#…...

node.js内置模块fs,path,http使用方法

NodeJs中分为两部分 一是V8引擎为了解析和执行JS代码。 二是内置API,让JS能调用这些API完成一些后端操作。 内置API模块(fs、path、http等) 第三方API模块(express、mysql等) fs模块 fs.readFile()方法,用于读取指定文件中的内容。 fs.writeFile()方…...

【git clone error:no matching key exchange method found】

拉起项目代码报错 git clone ssh://uidxxxgerrit-xxxxxxxx Cloning into ‘xxxxx’… Unable to negotiate with xxx.xx.xxx.ip port xxxxx: no matching key exchange method found. Their offer: diffie-hellman-group14-sha1,diffie-hellman-group1-sha1 fatal: Could not …...

谈谈网络协议的定义、组成和重要性

个人主页:insist--个人主页​​​​​​ 本文专栏:网络基础——带你走进网络世界 本专栏会持续更新网络基础知识,希望大家多多支持,让我们一起探索这个神奇而广阔的网络世界。 目录 一、网络协议的定义 二、网络协议的组成 1、…...

ssh免密登陆报错ERROR: @ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

问题描述: 在日常的运维中需要做ssh的免密登陆有提示如下的报错内容: [rootpaas-harbor01 cce-v5.2.3]# ssh-copy-id 192.45.66.14 /usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/root/.ssh/id_rsa.pub" /usr/bin/ssh-c…...

【kubernetes】Pod控制器

目录 Pod控制器及其功用 pod控制器有多种类型 1、ReplicaSet ReplicaSet主要三个组件组成 2、Deployment 3、DaemonSet 4、StatefulSet 5、Job 6、Cronjob Pod与控制器之间的关系 1、Deployment 查看控制器配置 查看历史版本 2、SatefulSet 为什么要有headless&…...

aspose.ocr 的图片识别

操作aspose.ocr版本 <dependency><groupId>aspose</groupId><artifactId>ocr</artifactId><version>23.7.1-SNAPSHOT</version></dependency>官网下载地址 https://releases.aspose.com/ocr/java/ 记录一些简单的识别图片操…...

安卓纯代码布局开发游戏二:Android Studio开发环境搭建

1.Android Studio下载&#xff1a; Download Android Studio & App Tools - Android Developers 2.安装 安装过程非常简单&#xff0c;找到下载包&#xff0c;一直点Next即可。 3.下载Android SDK 第一次进入Android Studio默认会先下载Android SDK,笔者下载的Android SDK存…...

HuggingFace开源的自然语言处理AI工具平台

HuggingFace是一个开源的自然语言处理AI工具平台&#xff0c;它为NLP的开发者和研究者提供了一个简单、快速、高效、可靠的解决方案&#xff0c;让NLP变得更加简单、快速、高效、可靠。 Hugging Face平台主要包括以下几个部分&#xff1a; Transformers&#xff1a;一个提供了…...

ant-design-vue在ios使用AUpload组件唤起了相机,HTML的 `capture` 属性

在使用ant design vue组件的上传组件AUpload的时候有一个问题&#xff0c;直接按照demo写&#xff0c;在ios上会唤起相机&#xff0c;但是实际上我们的需求是弹出选择相册/相机这个弹框。 解决办法是加一个 cupture"null"这个属性即可 <a-upload:capture"nu…...

力扣75——图深度优先搜索

总结leetcode75中的图深度优先搜索算法题解题思路。 上一篇&#xff1a;力扣75——二叉搜索树 力扣75——图深度优先搜索 1 钥匙和房间2 省份数量3 重新规划路线4 除法求值1-4 解题总结 1 钥匙和房间 题目&#xff1a; 有 n 个房间&#xff0c;房间按从 0 到 n - 1 编号。最初…...

小程序前台Boot后台校园卡资金管理系统java web学校进销存食堂挂失jsp源代码

本项目为前几天收费帮学妹做的一个项目&#xff0c;Java EE JSP项目&#xff0c;在工作环境中基本使用不到&#xff0c;但是很多学校把这个当作编程入门的项目来做&#xff0c;故分享出本项目供初学者参考。 一、项目描述 小程序前台Boot后台校园卡资金管理系统 系统有2权限&…...

数学建模-多元线性回归笔记

数学建模笔记 1.学模型✅ 2.看专题论文并复习算法 多元线性回归 无偏性&#xff1a;预测值与真实值非常接近一致性&#xff1a;样本量无限增大&#xff0c;收敛于待估计参数的真值如何做&#xff1a;控制核心解释变量和u不相关 四类模型回归系数的解释 截距项不用考虑一元线性…...

云安全攻防(十二)之 手动搭建 K8S 环境搭建

手动搭建 K8S 环境搭建 首先前期我们准备好三台 Centos7 机器&#xff0c;配置如下&#xff1a; 主机名IP系统版本k8s-master192.168.41.141Centos7k8s-node1192.168.41.142Centos7k8s-node2192.168.41.143Centos7 前期准备 首先在三台机器上都执行如下的命令 # 关闭防火墙…...

Python学习笔记_基础篇(八)_正则表达式

1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具&#xff0c;拥有自己独特的语法以及一个独立的处理引擎&#xff0c;效率上可能不如str自带的方法&#xff0c;但功能十分强大。得益于这一点&#xff0c;在提供了正则…...

【洛谷 P5736】【深基7.例2】质数筛 题解(判断质数)

【深基7.例2】质数筛 题目描述 输入 n n n 个不大于 1 0 5 10^5 105 的正整数。要求全部储存在数组中&#xff0c;去除掉不是质数的数字&#xff0c;依次输出剩余的质数。 输入格式 第一行输入一个正整数 n n n&#xff0c;表示整数个数。 第二行输入 n n n 个正整数 …...

C语言好题解析(一)

目录 选择题1选择题2选择题3选择题4编程题一 选择题1 执行下面程序&#xff0c;正确的输出是&#xff08; &#xff09;int x 5, y 7; void swap() {int z;z x;x y;y z; } int main() {int x 3, y 8;swap();printf("%d,%d\n",x, y);return 0; }A: 5,7 B: …...

uniapp微信小程序区分正式版,开发版,体验版

小程序代码区分是正式版&#xff0c;开发版&#xff0c;还是体验版 通常正式和开发环境需要调用不同域名接口&#xff0c;发布时需要手动更换 或者有些东西不想在正式版显示&#xff0c;只在开发版体验版中显示&#xff0c;也需要去手动隐藏 官方没有明确给出判断环境的方法&a…...

更多openEuler镜像加入AWS Marketplace!

自2023年7月openEuler 22.03 LTS SP1正式登陆AWS Marketplace后&#xff0c;openEuler社区一直持续于在AWS上提供更多版本。 目前&#xff0c;openEuler22.03 LTS SP1 ,SP2两个版本及 x86 arm64两种架构的四个镜像均可通过AWS对外提供&#xff0c;且在亚太及欧洲15个Region开放…...

【BASH】回顾与知识点梳理(二十四)

【BASH】回顾与知识点梳理 二十四 二十四. 权限规划和身份切换24.1 主机的细部权限规划&#xff1a;ACL 的使用什么是 ACL 与如何支持启动 ACL如何启动 ACL 24.2 ACL 的设定技巧&#xff1a; getfacl, setfaclsetfacl 指令用法介绍及最简单的『 u:账号:权限 』设定getfacl 指令…...

CSRF

CSRF CSRF&#xff0c;跨站域请求伪造&#xff0c;通常攻击者会伪造一个场景&#xff08;例如一条链接&#xff09;&#xff0c;来诱使用户点击&#xff0c;用户一旦点击&#xff0c;黑客的攻击目的也就达到了&#xff0c;他可以盗用你的身份&#xff0c;以你的名义发送恶意请…...