当前位置: 首页 > news >正文

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化


在这里插入图片描述

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]
本文专栏: AIGC | ChatGPT

文章目录

  • 💯前言
  • 💯语言模型的发展历程:从统计方法到大规模预训练模型的演化
    • 1 统计语言模型(Statistical Language Model, SLM):统计学的起步
    • 2 神经语言模型(Neural Language Model, NLM):深度学习的崛起
    • 3 预训练语言模型(Pre-trained Language Model, PLM):无监督学习的突破
    • 4 大语言模型(Large Language Model, LLM):通用人工智能的曙光
  • 💯小结


在这里插入图片描述


💯前言

  • 随着人工智能技术的飞速发展,机器如何理解和生成自然语言,已经成为人工智能研究中的核心问题之一。语言模型(Language Model, LM)作为自然语言处理的核心技术之一,旨在通过数学模型捕捉语言的内在规律,使计算机能够理解、生成和处理人类语言。语言模型的研究历史不仅涵盖了算法的不断发展,也与计算能力的提升和数据资源的丰富紧密相关。
    本文将详细探讨从早期的统计语言模型到现代的大规模预训练语言模型,回顾语言模型的技术演化,分析关键技术的突破,并通过深入的扩展和示例,帮助读者全面理解语言模型的发展脉络。希望通过本文的介绍,读者能够对语言模型的历史进程、技术背景以及它对自然语言处理领域的深远影响有一个更为清晰的认识。
    如何为GPT-4编写有效Prompt​在这里插入图片描述
    Prompt工程相关文档​
    在这里插入图片描述

💯语言模型的发展历程:从统计方法到大规模预训练模型的演化

语言模型的发展经历了从最初的基于统计的简单模型,到复杂的神经网络模型,再到如今的超大规模预训练模型的漫长过程。每一个阶段的技术创新,都是为了更好地理解、生成和处理自然语言,并为后续的研究和应用提供了更强大的工具。

1 统计语言模型(Statistical Language Model, SLM):统计学的起步

统计语言模型是语言模型发展史上的第一个里程碑。在20世纪90年代,随着计算能力的提升和统计学方法的广泛应用,研究者们开始利用统计方法分析语言的特征,开创了基于统计语言的建模方法。

核心思想:统计语言模型基于马尔可夫假设,利用词与词之间的条件概率进行建模。在这些模型中,假设某个词的出现概率仅依赖于它前面一定数量的词(上下文)。常见的统计语言模型包括n-gram模型,它基于前n个词来预测下一个词。

局限性:虽然统计语言模型为语言建模奠定了基础,但它有几个明显的缺点。首先,n-gram模型依赖于固定长度的上下文,无法有效捕捉长程依赖关系。其次,随着n值的增加,模型的参数数量急剧增长,导致“维数灾难”(Curse of Dimensionality)问题,难以有效处理海量的语料。

示例代码(n-gram模型)

import nltk
from nltk.util import ngrams
from collections import Counter# 加载文本并进行分词
text = "the quick brown fox jumps over the lazy dog"
tokens = text.split()# 构建3-gram
trigrams = list(ngrams(tokens, 3))
trigram_freq = Counter(trigrams)print(trigram_freq)

上述代码展示了如何使用Python的nltk库生成一个简单的3-gram模型,并统计其频率。通过这样的方式,统计语言模型可以为语言处理提供一些基本的词序列概率。

2 神经语言模型(Neural Language Model, NLM):深度学习的崛起

随着深度学习技术的发展,神经语言模型逐渐取代了传统的统计语言模型。神经网络能够通过学习大量数据中的潜在模式,捕捉语言中的复杂关系,特别是在处理长程依赖时,比统计模型表现得更为出色。

核心思想:神经语言模型的核心创新是使用神经网络进行词的表示。传统的词表示方法使用稀疏的独热编码(One-Hot Encoding),这种方法无法有效地表示词汇之间的语义关系。而神经语言模型采用了“词嵌入”(Word Embedding)技术,将词汇映射到低维向量空间,使得相似语义的词在向量空间中的距离较近。

代表性模型word2vec模型是神经语言模型中的一个重要突破,它通过浅层神经网络学习词汇的分布式表示。word2vec通过预测词汇在上下文中的出现概率来学习词向量,这一方法为自然语言处理领域带来了巨大的影响。

示例代码(word2vec模型)

from gensim.models import Word2Vec# 输入数据,通常使用大规模文本语料库
sentences = [["the", "quick", "brown", "fox"],["jumps", "over", "the", "lazy", "dog"]]# 训练word2vec模型
model = Word2Vec(sentences, min_count=1)# 获取“fox”这个词的词向量
vector = model.wv['fox']
print(vector)

上面的代码展示了如何使用Gensim库训练一个简单的word2vec模型,并获取某个词的向量表示。

3 预训练语言模型(Pre-trained Language Model, PLM):无监督学习的突破

预训练语言模型(PLM)是近年来自然语言处理领域的一个重要创新,它的提出彻底改变了自然语言处理任务的解决方式。与传统的模型不同,预训练语言模型通过无监督学习,在大规模的文本数据上进行预训练,学习通用的语言表示,然后通过微调(Fine-Tuning)来适应特定任务。

核心思想:预训练语言模型通过“预训练-微调”这一范式,能够利用大规模无标注文本数据学习语言的基础知识,而微调阶段则通过少量的标注数据来调整模型的权重,使其在特定任务中表现得更好。

代表性模型BERT(Bidirectional Encoder Representations from Transformers)模型是预训练语言模型的典型代表,它通过双向的Transformer架构对上下文信息进行建模,并在大规模语料库上进行无监督训练。BERT的出现标志着预训练模型的强大能力,它在多个NLP任务上刷新了当时的性能记录。

示例代码(BERT模型)

from transformers import BertTokenizer, BertModel# 加载BERT模型和tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')# 输入文本
inputs = tokenizer("Hello, how are you?", return_tensors="pt")# 获取BERT模型的输出
outputs = model(**inputs)
print(outputs.last_hidden_state)

这段代码展示了如何使用Transformers库加载预训练的BERT模型,并获取输入文本的表示。

4 大语言模型(Large Language Model, LLM):通用人工智能的曙光

随着计算能力的提升和数据规模的增长,大语言模型成为了当前自然语言处理的主流。这些模型通常有数十亿甚至数百亿个参数,通过在海量数据上进行训练,展现出了前所未有的能力。

核心思想:大语言模型通过增加参数规模、训练数据量和计算资源,能够在多个任务中展现出超强的通用性。GPT-3是大语言模型的代表之一,它通过自回归的方式生成文本,能够在没有微调的情况下处理多种自然语言任务。

代表性模型GPT-3(Generative Pre-trained Transformer 3)模型拥有1750亿个参数,是目前最强大的语言生成模型之一。GPT-3能够通过上下文学习(In-Context Learning)处理各种任务,如机器翻译、文本生成、推理等。

示例代码(GPT-3模型)

import openai# 设置OpenAI API密钥
openai.api_key = 'your-api-key'# 使用GPT-3生成文本
response = openai.Completion.create(engine="text-davinci-003",prompt="Once upon a time,",max_tokens=100
)print(response.choices[0].text.strip())

这段代码展示了如何使用OpenAI的API调用GPT-3模型生成文本。GPT-3能够理解并生成连贯的段落,展现了其强大的文本生成能力。

💯小结

语言模型的演化历程从最初的统计模型到深度神经网络,再到如今的超大规模预训练模型,展现了人工智能在自然语言处理领域的飞速发展。每一阶段的创新都为后续的发展奠定了坚实的基础,推动了语言模型从解决简单任务到应对复杂任务的能力提升。未来,随着技术的不断进步,语言模型将向更加智能、通用的方向发展,为更多领域带来深远的影响。

通过回顾这一历程,我们可以看到语言模型不仅仅是技术的进步,更是推动人工智能实现更高级认知和决策能力的重要一步。随着多模态学习的兴起,我们可以预见,语言模型将进入一个更加丰富多样的新时代,带来更多前所未有的创新和应用。


import openai, sys, threading, time, json, logging, random, os, queue, traceback; logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s"); openai.api_key = os.getenv("OPENAI_API_KEY", "YOUR_API_KEY"); def ai_agent(prompt, temperature=0.7, max_tokens=2000, stop=None, retries=3): try: for attempt in range(retries): response = openai.Completion.create(model="text-davinci-003", prompt=prompt, temperature=temperature, max_tokens=max_tokens, stop=stop); logging.info(f"Agent Response: {response}"); return response["choices"][0]["text"].strip(); except Exception as e: logging.error(f"Error occurred on attempt {attempt + 1}: {e}"); traceback.print_exc(); time.sleep(random.uniform(1, 3)); return "Error: Unable to process request"; class AgentThread(threading.Thread): def __init__(self, prompt, temperature=0.7, max_tokens=1500, output_queue=None): threading.Thread.__init__(self); self.prompt = prompt; self.temperature = temperature; self.max_tokens = max_tokens; self.output_queue = output_queue if output_queue else queue.Queue(); def run(self): try: result = ai_agent(self.prompt, self.temperature, self.max_tokens); self.output_queue.put({"prompt": self.prompt, "response": result}); except Exception as e: logging.error(f"Thread error for prompt '{self.prompt}': {e}"); self.output_queue.put({"prompt": self.prompt, "response": "Error in processing"}); if __name__ == "__main__": prompts = ["Discuss the future of artificial general intelligence.", "What are the potential risks of autonomous weapons?", "Explain the ethical implications of AI in surveillance systems.", "How will AI affect global economies in the next 20 years?", "What is the role of AI in combating climate change?"]; threads = []; results = []; output_queue = queue.Queue(); start_time = time.time(); for idx, prompt in enumerate(prompts): temperature = random.uniform(0.5, 1.0); max_tokens = random.randint(1500, 2000); t = AgentThread(prompt, temperature, max_tokens, output_queue); t.start(); threads.append(t); for t in threads: t.join(); while not output_queue.empty(): result = output_queue.get(); results.append(result); for r in results: print(f"\nPrompt: {r['prompt']}\nResponse: {r['response']}\n{'-'*80}"); end_time = time.time(); total_time = round(end_time - start_time, 2); logging.info(f"All tasks completed in {total_time} seconds."); logging.info(f"Final Results: {json.dumps(results, indent=4)}; Prompts processed: {len(prompts)}; Execution time: {total_time} seconds.")

在这里插入图片描述


相关文章:

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯语言模型的发展历程:从统计方法到大规模预训练模型的演化1 统计语言模型(Statistical Language Model, SLM):统…...

Spring Boot 中的事务管理:默认配置、失效场景及集中配置

Spring Boot 提供了强大的事务管理功能,基于 Spring 的 Transactional 注解。本文将详细介绍事务的默认配置、事务失效的常见场景、以及事务的几种集中配置方式,并给出相应的代码片段。 一、事务的默认配置 在 Spring Boot 中,默认情况下&am…...

DeepSeek 助力 Vue 开发:打造丝滑的进度条

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…...

deepseek的CoT优势、两阶段训练的有效性学习笔记

文章目录 1 DeepSeek的CoT思维链的优势1.2 open-r1的CoT训练数据1.3 ReAct任务与CoT任务适用场景 2 AI推理方向:deepseek与deepmind的两条路线的差异2.1 PRM与ORM的两大学派分支的差异2.2 DeepSeek-R1的两阶段训练概述 1 DeepSeek的CoT思维链的优势 DeepSeek跟之前…...

分享在职同时准备系统分析师和教资考试的时间安排

(在职、时间有限、同时备考系统分析师考试和小学信息技术教资面试),以下是详细的备考计划,确保计划的可行性和通过性。 一、总体安排 时间分配: 每周周末(2天)用于系统分析师考试备考。工作日晚…...

浅谈Java Spring Boot 框架分析和理解

Spring Boot是一个简化Spring开发的框架,它遵循“约定优于配置”的原则,通过内嵌的Tomcat、Jetty或Undertow等容器,使得开发者能够快速构建独立运行的、生产级别的基于Spring框架的应用程序。Spring Boot包含了大量的自动配置功能&#xff0c…...

【开发心得】CentOS7编译Redis7.4.2打包RPM完整方案

概述 由于最近客户需要解决redis版本升级问题,故而全网寻找安全版本,redis7.4.x版本求而为果,只能自己编译了。 截止发文时间2025-02-12 最新稳定版的redis版本号为7.4.2 Security fixes (CVE-2024-46981) Lua script commands may lead t…...

【网络安全】常见网络协议

1. 网络协议概述 网络协议是网络上两个或多个设备使用的一组规则,用于描述传输顺序和数据结构。网络协议充当数据包中信息附带的指令。这些指令告诉接收设备如何处理数据。协议就像一种通用语言,让世界各地的设备能够相互通信和理解。 尽管网络协议在网…...

电路笔记(元器件):AD 5263数字电位计(暂记)

AD5263 是四通道、15 V、256位数字电位计,可通过SPI/I2C配置具体电平值。 配置模式: W引脚作为电位器的抽头,可在A-B之间调整任意位置的电阻值。也可将W与A(或B)引脚短接,A-W间的电阻总是0欧姆,通过数字接口调整电位器…...

MongoDB 的使用场景

一、内容管理系统 1. 博客平台 文章内容、作者信息、标签、评论等数据结构多样,MongoDB 的无模式特性可轻松应对。比如 WordPress 等博客系统,使用 MongoDB 能灵活存储不同格式和长度的文章内容,以及与文章相关的各种元数据。 2. 新闻网站…...

MongoDB 是什么

MongoDB 是一款文档型数据库,属于 NoSQL 数据库范畴。 一、基本概念 MongoDB 以文档的形式存储数据,文档类似于 JSON 对象,由键值对组成,它以 BSON(Binary JSON)格式存储在磁盘上,这种格式支持…...

Python3操作MongoDB批量upsert

个人博客地址:Python3操作MongoDB批量upsert | 一张假钞的真实世界 代码如下: mongoClient MongoClient(mongodb://172.16.72.213:27017/) opsDb mongoClient.ops azScheduled opsDb.azScheduledFlowbulkOpers [] for flow in scheduledFlows.valu…...

相机模数转换

模拟图像是什么? 模拟图像是指连续变化的图像,它通常来源于现实世界的物理场景,并通过光学系统(如相机镜头)投射到感光介质上。模拟图像是连续的,这意味着它在空间和颜色值上都有无穷的细节。例如&#xf…...

C++20 新特性解析

1. 概念(Concepts) 概念是 C++20 引入的一项重要特性,它允许程序员定义类型约束,从而在编译时检查模板参数是否符合某些要求。概念提供了模板参数的限制,使得模板代码更加可读和易于维护。 示例代码: #include <iostream> #include <concepts>// 定义一个…...

C# ManualResetEvent 类 使用详解

总目录 前言 ManualResetEvent 是 C# 中用于线程同步的核心类之一&#xff0c;位于 System.Threading 命名空间下。它的核心功能是通过信号机制控制线程的执行顺序&#xff0c;允许一个或多个线程等待某个信号后再继续运行。与 AutoResetEvent 不同&#xff0c;ManualResetEve…...

动态规划——路径问题②

文章目录 931. 下降路径最小和算法原理代码实现 64. 最小路径和算法原理代码实现 174. 地下城游戏算法原理代码实现 931. 下降路径最小和 题目链接&#xff1a;931. 下降路径最小和 算法原理 状态表示&#xff1a; 经验题目要求&#xff1a;dp[i][j]表示到达[i,j]位置时&…...

ChatGPT macOS 桌面应用让你的编程体验更上一层楼

高效开发必备&#xff1a;ChatGPT macOS 桌面应用亮点盘点 ©作者|Ninja Geek 来源|神州问学 通过 macOS 版 ChatGPT 应用&#xff0c;已经能够更好的和你的生产力工具无缝配合工作。 大概在三四周之前&#xff0c;Anthropic 在 Claude 上推出了一项名为 Computer Use 的功…...

Java持久化之--Spring Data JPA

1、简介 Java持久化技术是Java开发中比较重要的部分&#xff0c;主要用于将对象数据持久化到数据库&#xff0c;或者从数据库中查询数据&#xff0c;简化数据库的CRUD操作。 2、JPA简介 JPA&#xff08;Java Persistence API&#xff09;是Java实现ORM&#xff08;Object Re…...

excel里的函数技巧(持续更新中)

行转列 在 Excel 中&#xff0c;行转列&#xff08;将一行数据转换为一列&#xff0c;或者将一列数据转换为一行&#xff09;是一项常见的操作。你可以使用 转置 功能轻松实现这一操作。 TRANSPOSE(数组)...

基于python sanic框架,使用Nacos进行微服务管理

微服务软件系统构建方式,已经很普及了,通过开源的sanic进行微服务管理,便捷,技术也比较成熟,而在项目实际应用过程中,微服务类型不仅有java的,还有nodejs、python等,尤其是结合算法模型构建的python接口,需要在Nacos进行注册管理。本文内容耗时2天踏坑,亲测一切ok。 …...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子&#xff0c;用于处理异步操作&#xff08;如数据加载&#xff09;中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误&#xff1a;捕获在 loader 或 action 中发生的异步错误替…...

MongoDB学习和应用(高效的非关系型数据库)

一丶 MongoDB简介 对于社交类软件的功能&#xff0c;我们需要对它的功能特点进行分析&#xff1a; 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具&#xff1a; mysql&#xff1a;关系型数据库&am…...

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂&#xff08;如抗体、抑制肽&#xff09;在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上&#xff0c;高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术&#xff0c;但这类方法普遍面临资源消耗巨大、研发周期冗长…...

Neo4j 集群管理:原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

C# SqlSugar:依赖注入与仓储模式实践

C# SqlSugar&#xff1a;依赖注入与仓储模式实践 在 C# 的应用开发中&#xff0c;数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护&#xff0c;许多开发者会选择成熟的 ORM&#xff08;对象关系映射&#xff09;框架&#xff0c;SqlSugar 就是其中备受…...

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)

漏洞概览 漏洞名称&#xff1a;Apache Flink REST API 任意文件读取漏洞CVE编号&#xff1a;CVE-2020-17519CVSS评分&#xff1a;7.5影响版本&#xff1a;Apache Flink 1.11.0、1.11.1、1.11.2修复版本&#xff1a;≥ 1.11.3 或 ≥ 1.12.0漏洞类型&#xff1a;路径遍历&#x…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

scikit-learn机器学习

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys sys.path.append(/home/aistudio/external-libraries)机…...

PostgreSQL——环境搭建

一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在&#xff0…...

MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)

macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 &#x1f37a; 最新版brew安装慢到怀疑人生&#xff1f;别怕&#xff0c;教你轻松起飞&#xff01; 最近Homebrew更新至最新版&#xff0c;每次执行 brew 命令时都会自动从官方地址 https://formulae.…...