当前位置: 首页 > article >正文

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化


在这里插入图片描述

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]
本文专栏: AIGC | ChatGPT

文章目录

  • 💯前言
  • 💯语言模型的发展历程:从统计方法到大规模预训练模型的演化
    • 1 统计语言模型(Statistical Language Model, SLM):统计学的起步
    • 2 神经语言模型(Neural Language Model, NLM):深度学习的崛起
    • 3 预训练语言模型(Pre-trained Language Model, PLM):无监督学习的突破
    • 4 大语言模型(Large Language Model, LLM):通用人工智能的曙光
  • 💯小结


在这里插入图片描述


💯前言

  • 随着人工智能技术的飞速发展,机器如何理解和生成自然语言,已经成为人工智能研究中的核心问题之一。语言模型(Language Model, LM)作为自然语言处理的核心技术之一,旨在通过数学模型捕捉语言的内在规律,使计算机能够理解、生成和处理人类语言。语言模型的研究历史不仅涵盖了算法的不断发展,也与计算能力的提升和数据资源的丰富紧密相关。
    本文将详细探讨从早期的统计语言模型到现代的大规模预训练语言模型,回顾语言模型的技术演化,分析关键技术的突破,并通过深入的扩展和示例,帮助读者全面理解语言模型的发展脉络。希望通过本文的介绍,读者能够对语言模型的历史进程、技术背景以及它对自然语言处理领域的深远影响有一个更为清晰的认识。
    如何为GPT-4编写有效Prompt​在这里插入图片描述
    Prompt工程相关文档​
    在这里插入图片描述

💯语言模型的发展历程:从统计方法到大规模预训练模型的演化

语言模型的发展经历了从最初的基于统计的简单模型,到复杂的神经网络模型,再到如今的超大规模预训练模型的漫长过程。每一个阶段的技术创新,都是为了更好地理解、生成和处理自然语言,并为后续的研究和应用提供了更强大的工具。

1 统计语言模型(Statistical Language Model, SLM):统计学的起步

统计语言模型是语言模型发展史上的第一个里程碑。在20世纪90年代,随着计算能力的提升和统计学方法的广泛应用,研究者们开始利用统计方法分析语言的特征,开创了基于统计语言的建模方法。

核心思想:统计语言模型基于马尔可夫假设,利用词与词之间的条件概率进行建模。在这些模型中,假设某个词的出现概率仅依赖于它前面一定数量的词(上下文)。常见的统计语言模型包括n-gram模型,它基于前n个词来预测下一个词。

局限性:虽然统计语言模型为语言建模奠定了基础,但它有几个明显的缺点。首先,n-gram模型依赖于固定长度的上下文,无法有效捕捉长程依赖关系。其次,随着n值的增加,模型的参数数量急剧增长,导致“维数灾难”(Curse of Dimensionality)问题,难以有效处理海量的语料。

示例代码(n-gram模型)

import nltk
from nltk.util import ngrams
from collections import Counter# 加载文本并进行分词
text = "the quick brown fox jumps over the lazy dog"
tokens = text.split()# 构建3-gram
trigrams = list(ngrams(tokens, 3))
trigram_freq = Counter(trigrams)print(trigram_freq)

上述代码展示了如何使用Python的nltk库生成一个简单的3-gram模型,并统计其频率。通过这样的方式,统计语言模型可以为语言处理提供一些基本的词序列概率。

2 神经语言模型(Neural Language Model, NLM):深度学习的崛起

随着深度学习技术的发展,神经语言模型逐渐取代了传统的统计语言模型。神经网络能够通过学习大量数据中的潜在模式,捕捉语言中的复杂关系,特别是在处理长程依赖时,比统计模型表现得更为出色。

核心思想:神经语言模型的核心创新是使用神经网络进行词的表示。传统的词表示方法使用稀疏的独热编码(One-Hot Encoding),这种方法无法有效地表示词汇之间的语义关系。而神经语言模型采用了“词嵌入”(Word Embedding)技术,将词汇映射到低维向量空间,使得相似语义的词在向量空间中的距离较近。

代表性模型word2vec模型是神经语言模型中的一个重要突破,它通过浅层神经网络学习词汇的分布式表示。word2vec通过预测词汇在上下文中的出现概率来学习词向量,这一方法为自然语言处理领域带来了巨大的影响。

示例代码(word2vec模型)

from gensim.models import Word2Vec# 输入数据,通常使用大规模文本语料库
sentences = [["the", "quick", "brown", "fox"],["jumps", "over", "the", "lazy", "dog"]]# 训练word2vec模型
model = Word2Vec(sentences, min_count=1)# 获取“fox”这个词的词向量
vector = model.wv['fox']
print(vector)

上面的代码展示了如何使用Gensim库训练一个简单的word2vec模型,并获取某个词的向量表示。

3 预训练语言模型(Pre-trained Language Model, PLM):无监督学习的突破

预训练语言模型(PLM)是近年来自然语言处理领域的一个重要创新,它的提出彻底改变了自然语言处理任务的解决方式。与传统的模型不同,预训练语言模型通过无监督学习,在大规模的文本数据上进行预训练,学习通用的语言表示,然后通过微调(Fine-Tuning)来适应特定任务。

核心思想:预训练语言模型通过“预训练-微调”这一范式,能够利用大规模无标注文本数据学习语言的基础知识,而微调阶段则通过少量的标注数据来调整模型的权重,使其在特定任务中表现得更好。

代表性模型BERT(Bidirectional Encoder Representations from Transformers)模型是预训练语言模型的典型代表,它通过双向的Transformer架构对上下文信息进行建模,并在大规模语料库上进行无监督训练。BERT的出现标志着预训练模型的强大能力,它在多个NLP任务上刷新了当时的性能记录。

示例代码(BERT模型)

from transformers import BertTokenizer, BertModel# 加载BERT模型和tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')# 输入文本
inputs = tokenizer("Hello, how are you?", return_tensors="pt")# 获取BERT模型的输出
outputs = model(**inputs)
print(outputs.last_hidden_state)

这段代码展示了如何使用Transformers库加载预训练的BERT模型,并获取输入文本的表示。

4 大语言模型(Large Language Model, LLM):通用人工智能的曙光

随着计算能力的提升和数据规模的增长,大语言模型成为了当前自然语言处理的主流。这些模型通常有数十亿甚至数百亿个参数,通过在海量数据上进行训练,展现出了前所未有的能力。

核心思想:大语言模型通过增加参数规模、训练数据量和计算资源,能够在多个任务中展现出超强的通用性。GPT-3是大语言模型的代表之一,它通过自回归的方式生成文本,能够在没有微调的情况下处理多种自然语言任务。

代表性模型GPT-3(Generative Pre-trained Transformer 3)模型拥有1750亿个参数,是目前最强大的语言生成模型之一。GPT-3能够通过上下文学习(In-Context Learning)处理各种任务,如机器翻译、文本生成、推理等。

示例代码(GPT-3模型)

import openai# 设置OpenAI API密钥
openai.api_key = 'your-api-key'# 使用GPT-3生成文本
response = openai.Completion.create(engine="text-davinci-003",prompt="Once upon a time,",max_tokens=100
)print(response.choices[0].text.strip())

这段代码展示了如何使用OpenAI的API调用GPT-3模型生成文本。GPT-3能够理解并生成连贯的段落,展现了其强大的文本生成能力。

💯小结

语言模型的演化历程从最初的统计模型到深度神经网络,再到如今的超大规模预训练模型,展现了人工智能在自然语言处理领域的飞速发展。每一阶段的创新都为后续的发展奠定了坚实的基础,推动了语言模型从解决简单任务到应对复杂任务的能力提升。未来,随着技术的不断进步,语言模型将向更加智能、通用的方向发展,为更多领域带来深远的影响。

通过回顾这一历程,我们可以看到语言模型不仅仅是技术的进步,更是推动人工智能实现更高级认知和决策能力的重要一步。随着多模态学习的兴起,我们可以预见,语言模型将进入一个更加丰富多样的新时代,带来更多前所未有的创新和应用。


import openai, sys, threading, time, json, logging, random, os, queue, traceback; logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s"); openai.api_key = os.getenv("OPENAI_API_KEY", "YOUR_API_KEY"); def ai_agent(prompt, temperature=0.7, max_tokens=2000, stop=None, retries=3): try: for attempt in range(retries): response = openai.Completion.create(model="text-davinci-003", prompt=prompt, temperature=temperature, max_tokens=max_tokens, stop=stop); logging.info(f"Agent Response: {response}"); return response["choices"][0]["text"].strip(); except Exception as e: logging.error(f"Error occurred on attempt {attempt + 1}: {e}"); traceback.print_exc(); time.sleep(random.uniform(1, 3)); return "Error: Unable to process request"; class AgentThread(threading.Thread): def __init__(self, prompt, temperature=0.7, max_tokens=1500, output_queue=None): threading.Thread.__init__(self); self.prompt = prompt; self.temperature = temperature; self.max_tokens = max_tokens; self.output_queue = output_queue if output_queue else queue.Queue(); def run(self): try: result = ai_agent(self.prompt, self.temperature, self.max_tokens); self.output_queue.put({"prompt": self.prompt, "response": result}); except Exception as e: logging.error(f"Thread error for prompt '{self.prompt}': {e}"); self.output_queue.put({"prompt": self.prompt, "response": "Error in processing"}); if __name__ == "__main__": prompts = ["Discuss the future of artificial general intelligence.", "What are the potential risks of autonomous weapons?", "Explain the ethical implications of AI in surveillance systems.", "How will AI affect global economies in the next 20 years?", "What is the role of AI in combating climate change?"]; threads = []; results = []; output_queue = queue.Queue(); start_time = time.time(); for idx, prompt in enumerate(prompts): temperature = random.uniform(0.5, 1.0); max_tokens = random.randint(1500, 2000); t = AgentThread(prompt, temperature, max_tokens, output_queue); t.start(); threads.append(t); for t in threads: t.join(); while not output_queue.empty(): result = output_queue.get(); results.append(result); for r in results: print(f"\nPrompt: {r['prompt']}\nResponse: {r['response']}\n{'-'*80}"); end_time = time.time(); total_time = round(end_time - start_time, 2); logging.info(f"All tasks completed in {total_time} seconds."); logging.info(f"Final Results: {json.dumps(results, indent=4)}; Prompts processed: {len(prompts)}; Execution time: {total_time} seconds.")

在这里插入图片描述


相关文章:

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯语言模型的发展历程:从统计方法到大规模预训练模型的演化1 统计语言模型(Statistical Language Model, SLM):统…...

基于 Nginx 的 CDN 基础实现

概览 本文是对基于Nginx的CDN网络的学习笔记,阅读的代码为:https://github.com/leandromoreira/cdn-up-and-running 其中,先确定CDN中的一些基础概念: Balancer:负载均衡,即请求数据的流量最开始打到Bal…...

【04】Java+若依+vue.js技术栈实现钱包积分管理系统项目-若依框架二次开发准备工作-以及建立初步后端目录菜单列-优雅草卓伊凡商业项目实战

【04】Java若依vue.js技术栈实现钱包积分管理系统项目-若依框架二次开发准备工作-以及建立初步后端目录菜单列-优雅草卓伊凡商业项目实战 项目背景 本项目经费43000元,需求文档如下,工期25天,目前已经过了8天,时间不多了&#x…...

机器学习:朴素贝叶斯分类器

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。 贝叶斯定理是贝叶斯决策论的基础,描述了如何根据新的证据更新先验概率,贝叶斯定理&…...

FlutterWeb实战:02-加载体验优化

背景 默认情况下,Flutter 打包 web 以后,首次打开页面需要加载大量的资源,这就需要做首屏加载优化。 渲染引擎 通过分析,canvaskit 和 skwasm 需要加载较大的引擎包,很难优化,目前选择 3.22 版本,故选择 HTML Render 引擎 Flutter Web 计划在 2025 开始弃用 HTML Ren…...

DeepSeek 大模型每个版本的特点以及运用场景对比

deepseek 网页地址:DeepSeek | 深度求索 1. DeepSeek-V1 发布时间:2024年1月 参数规模:预训练数据量2TB,具体参数未明确公开,推测为数十亿级别 功能特点: 编码能力:支持多种编程语言(如Python、Java、C++),可生成高质量代码框架。 长上下文处理:支持128K上下文窗口,…...

【Langchain学习笔记(一)】Langchain介绍

Langchain介绍 Langchain介绍前言1、Langchain 是什么2、为什么要用 Langchain3、Langchain 的核心4、Langchain 的底层原理5、Langchain 的应用场景 Langchain介绍 前言 想象一下,如果你能让聊天机器人不仅仅回答通用问题,还能从你自己的数据库或文件…...

VSCode中出现“#include错误,请更新includePath“问题,解决方法

1、出现的问题 在编写C程序时,想引用头文件但是出现如下提示: (1)首先检查要引用的头文件是否存在,位于哪里。 (2)如果头文件存在,在编译时提醒VSCode终端中"#include错误&am…...

【HeadFirst系列之HeadFirstJava】第2天之类与对象-拜访对象村

前言 从今日起,陆续分享《HeadFirstJava》的读书笔记,希望能够帮助大家更好的理解Java,提高自己的基础编码能力。 Java是一门面向对象的高级编程语言,常年霸占编程语言排行榜前三。 Java是目前国内的主流开发语言,基本…...

机试题——D路通信

题目描述 现在老师给了他们一个D路通信。他们面对的通信链路有如下几个性质: 高斯噪声性:如果发出一段字符串作为消息,消息的开始前和结束后可能会出现随机高斯噪声。内容完整性:该过程不会丢失任何字符,字符顺序也不…...

sqlite 查看表结构

在SQLite中,查看表结构通常有以下几种方法: 使用.schema命令 在SQLite的命令行界面中,你可以使用.schema命令加上表名来查看该表的结构。例如,如果你想查看名为your_table_name的表结构,你可以这样做: .s…...

2025清华:DeepSeek从入门到精通.pdf(附下载)

本文是一份关于如何深入理解和使用DeepSeek技术的全面指南,由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队编撰。DeepSeek是一家中国科技公司,专注于通用人工智能(AGI)的研发,其开源推…...

力扣LeetCode: 80 删除有序数组中的重复项Ⅱ

题目: 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件…...

MoMask:可将文本描述作为输入并生成相应的高质量人体运动动作

该图展示了 MoMask (一种最先进的人体运动生成模型)生成的运动示例。MoMask 使用文本到运动范式进行操作,其中它将文本描述作为输入并生成相应的高质量人体运动。这种方法确保生成的动作准确反映给定的文本条件,展示了 MoMask 生成…...

PAT甲级1043、 Is It a Binary Search Tree

题目 A Binary Search Tree (BST) is recursively defined as a binary tree which has the following properties: The left subtree of a node contains only nodes with keys less than the nodes key.The right subtree of a node contains only nodes with keys greater…...

【Python】元组

个人主页:GUIQU. 归属专栏:Python 文章目录 1. 元组的本质与基础概念1.1 不可变序列的意义1.2 元组与数学概念的联系 2. 元组的创建方式详解2.1 标准创建形式2.2 单元素元组的特殊处理2.3 使用 tuple() 函数进行转换 3. 元组的基本操作深入剖析3.1 索引操…...

[RabbitMQ] RabbitMQ常见面试题

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…...

旋转位置编码(RoPE)讲解和代码实现

旋转位置编码(Rotary Position Embedding:RoPE)讲解和代码实现 1. 什么是位置编码? 在 Transformer 模型中,位置编码的作用是为模型提供序列中每个 token 的位置信息。因为 Transformer 本身没有像 RNN 那样的顺序结构,所以需要通过位置编码来告诉模型 token 的顺序。 …...

小红书自动化:如何利用Make批量生成爆款笔记

小红书自动化:如何利用Make制作个人自媒体中心,批量生成爆款笔记 引言 在如今信息爆炸的时代,如何高效地获取和分享优质内容,成为了每位自媒体工作者必须面对的挑战。你是否想过,如果能够将这项繁复的工作实现自动化…...

计算机组成原理 | (四)存储器

🌮🌮🌮宝子们好呀,今天继续更新我的学习笔记,教我计算机组成原理的老师是SDUCS的zrh老师,感谢z老师的教导,接下来我就放上我的手写笔记,供大家学习参考,适合大家预习和复…...

Maven 版本管理与 SNAPSHOT 详解

1. Maven 版本管理概述 在 Maven 项目中,版本号(Version)是用于区分不同软件版本的重要标识。Maven 提供了一套标准的版本管理机制,包括: 正式版本(Release Version)快照版本(SNAP…...

基于 GEE 利用 SDWI 指数进行逐月水域面积提取

目录 1 SDWI指数 2 完整代码 3 运行结果 微波遥感具有全天候、全天时工作能力,能穿透云层,不受气象条件和光照水平影响,因此近年来利用微波遥感提取水体信息也备受关注。本文分享使用 Sentinel-1遥感影像通过SDWI指数来进行逐月水域面积计…...

XMind 下载与使用教程:附百度网盘地址

一、引言 在信息爆炸的时代,如何高效地整理和管理知识成为了许多人面临的挑战。XMind 作为一款功能强大的思维导图软件,能够帮助我们清晰地梳理思路、整合信息,从而提升学习和工作效率。本文将详细介绍 XMind 的下载方法 二、XMind 的下载与…...

[EAI-034] 通过在线强化学习改进VLA模型

Paper Card 论文标题:Improving Vision-Language-Action Model with Online Reinforcement Learning 论文作者:Yanjiang Guo, Jianke Zhang, Xiaoyu Chen, Xiang Ji, Yen-Jen Wang, Yucheng Hu, Jianyu Chen 论文链接:https://arxiv.org/abs/…...

Python 和 JavaScript 中 Yield 的区别

Python 和 JavaScript 中 Yield 的区别 目录 Python 和 JavaScript 中 Yield 的区别PythonyieldJavaScriptyieldPythonyield fromJavaScriptyield* 推荐超级课程: Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战 Pythonyield 在 Python 中…...

每日学习 设计模式 五种不同的单例模式

狮子大佬原文 https://blog.csdn.net/weixin_40461281/article/details/135050977 第一种 饿汉式 为什么叫饿汉,指的是"饿" 也就是说对象实例在程序启动时就已经被创建好,不管你是否需要,它都会在类加载时立即实例化,也就是说 实例化是在类加载时候完成的,早早的吃…...

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之上传头像和新增收货地址

🧸安清h:个人主页 🎥个人专栏:【Spring篇】【计算机网络】【Mybatis篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🚀1.上传头像 -持久…...

SSM仓库物品管理系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.用户登录代码:2.保存物品信息代码:3.删除仓库信息代码: 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SSM框架开发的仓库…...

C++11新特性之unique_ptr智能指针

本节继续介绍智能指针,不了解的读者可以先阅读——C11新特性之shared_ptr智能指针-CSDN博客 1.介绍 unique_ptr是C11标准提供的另一种智能指针。与shared_ptr不同的是,unique_ptr指针指向的堆内存无法同其他unique_ptr共享,也就是每一片堆内…...

模型压缩 --学习记录2

模型压缩 --学习记录2 如何找到更好的权衡方式(模型量化)方法一:寻找更好的 range方法二:寻找更好的 X-fp32(浮点数)方法三:寻找更好的 scale 和 zp方法四:寻找更好的 roundPTQ 后训练量化(离线量化)QAT 量化感知训练(在线量化)量化为什么会带来加速?三、模型稀疏技…...