当前位置：首页 > news >正文

语言模型及数据集

news 2026/4/10 9:24:37

一、定义

1、语言模型的目标是估计序列的联合概率，一个理想的语言模型就能够基于模型本身生成自然文本。

2、对一个文档（词元）序列进行建模，假设在单词级别对文本数据进行词元化。

3、计数建模

（1）其中𝑛(𝑥)和𝑛(𝑥,𝑥′)分别是单个单词和连续单词对的出现次数

4、N元语法

5、用空间换时间：统计单词在数据集中的出现次数，然后将其除以整个语料库中的单词总数。

6、齐普夫定律：词频以一种明确的方式迅速衰减。将前几个单词作为例外消除后，剩余的所有单词大致遵循双对数坐标图上的一条直线。

二、构建自然语言统计

import random
import torch
from d2l import torch as d2ltokens = d2l.tokenize(d2l.read_time_machine())
# 因为每个文本行不一定是一个句子或一个段落，因此我们把所有文本行拼接到一起
corpus = [token for line in tokens for token in line]
vocab = d2l.Vocab(corpus)
vocab.token_freqs[:10]

1、N元语法

#一元
freqs = [freq for token, freq in vocab.token_freqs]
#二元
bigram_tokens = [pair for pair in zip(corpus[:-1], corpus[1:])]
bigram_vocab = d2l.Vocab(bigram_tokens)
#三元
trigram_tokens = [triple for triple in zip(corpus[:-2], corpus[1:-1], corpus[2:])]
trigram_vocab = d2l.Vocab(trigram_tokens)

2、随机采样

def seq_data_iter_random(corpus, batch_size, num_steps):  #@save"""使用随机抽样生成一个小批量子序列"""# 随机对序列进行分区corpus = corpus[random.randint(0, num_steps - 1):]# 减去1，是因为我们需要考虑标签num_subseqs = (len(corpus) - 1) // num_steps# 长度为num_steps的子序列的起始索引initial_indices = list(range(0, num_subseqs * num_steps, num_steps))# 在随机抽样的迭代过程中，random.shuffle(initial_indices)def data(pos):# 返回从pos位置开始的长度为num_steps的序列return corpus[pos: pos + num_steps]#因为subseq有若干个batchenum_batches = num_subseqs // batch_sizefor i in range(0, batch_size * num_batches, batch_size):# 在这里，initial_indices包含子序列的随机起始索引initial_indices_per_batch = initial_indices[i: i + batch_size]#基于到目前为止我们看到的词元来预测下一个词元， 标签是移位了一个词元的原始序列X = [data(j) for j in initial_indices_per_batch]Y = [data(j + 1) for j in initial_indices_per_batch]yield torch.tensor(X), torch.tensor(Y)

3、顺序分区

def seq_data_iter_sequential(corpus, batch_size, num_steps):  #@save"""使用顺序分区生成一个小批量子序列"""# 从随机偏移量开始划分序列offset = random.randint(0, num_steps)num_tokens = ((len(corpus) - offset - 1) // batch_size) * batch_sizeXs = torch.tensor(corpus[offset: offset + num_tokens])Ys = torch.tensor(corpus[offset + 1: offset + 1 + num_tokens])Xs, Ys = Xs.reshape(batch_size, -1), Ys.reshape(batch_size, -1)num_batches = Xs.shape[1] // num_stepsfor i in range(0, num_steps * num_batches, num_steps):X = Xs[:, i: i + num_steps]Y = Ys[:, i: i + num_steps]yield X, Y

4、两个采样函数包装到一个类中

class SeqDataLoader:  #@save"""加载序列数据的迭代器"""def __init__(self, batch_size, num_steps, use_random_iter, max_tokens):if use_random_iter:self.data_iter_fn = d2l.seq_data_iter_randomelse:self.data_iter_fn = d2l.seq_data_iter_sequentialself.corpus, self.vocab = d2l.load_corpus_time_machine(max_tokens)self.batch_size, self.num_steps = batch_size, num_stepsdef __iter__(self):return self.data_iter_fn(self.corpus, self.batch_size, self.num_steps)

5、同时返回数据迭代器和词表

def load_data_time_machine(batch_size, num_steps,  #@saveuse_random_iter=False, max_tokens=10000):"""返回时光机器数据集的迭代器和词表"""data_iter = SeqDataLoader(batch_size, num_steps, use_random_iter, max_tokens)return data_iter, data_iter.vocab

三、总结

1、语言模型是自然语言处理的关键。

2、𝑛元语法通过截断相关性，为处理长序列提供了一种实用的模型。

3、长序列存在一个问题：它们很少出现或者从不出现。

4、齐普夫定律支配着单词的分布，这个分布不仅适用于一元语法，还适用于其他𝑛元语法。

5、读取长序列的主要方式是随机采样和顺序分区。在迭代过程中，后者可以保证来自两个相邻的小批量中的子序列在原始序列上也是相邻的。

语言模型及数据集

一、定义 1、语言模型的目标是估计序列的联合概率，一个理想的语言模型就能够基于模型本身生成自然文本。 2、对一个文档（词元）序列进行建模， 假设在单词级别对文本数据进行词元化。 3、计数建模 （1）其中…...

编程日记 2024/7/26 6:00:14

卸载： 1、卸载python3.5 sudo apt-get remove python3.5 2、卸载python3.5及其依赖 sudo apt-get remove --auto-remove python3.5 3、清除python3.5 sudo apt-get purge python3.5 或者 sudo apt-get purge --auto-remove python3.5...

编程日记 2024/7/26 5:56:11

【BUG】已解决：TypeError: expected string or bytes-like object

TypeError: expected string or bytes-like object 目录 TypeError: expected string or bytes-like object 【常见模块错误】【解决方案】常见原因及解决方法示例代码欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页，我是博主英杰…...

编程日记 2024/7/26 5:54:09

在linux上面用drissionpage自动化遇到反爬？

目录一、反爬内容1、案例12、案例2 二、后来发现的问题解决一、反爬内容 1、案例1 反爬的响应文本返回如下：爬虫均能精准识别,测试链接:https://ziyuan.baidu.com/crawltools/index)非正常爬虫访问时:返回的压缩报文内容无法直接识别,可一定程度上保护站点信息安…...

编程日记 2024/7/26 5:52:07

vue3大事件管理系统 === 首页 layout 文章分类页面 -

目录首页 layout 架子 [element-plus 菜单] 基本架子拆解登录访问拦截用户基本信息获取&渲染退出功能 [element-plus 确认框] 文章分类页面 - [element-plus 表格] 基本架子 - PageContainer 文章分类渲染封装API - 请求获取表格数据 el-table 表格动态渲染 …...

编程日记 2024/7/26 5:50:05

堆的基本实现

一、堆的概念在提出堆的概念之前，首先要了解二叉树的基本概念一颗二叉树是节点的有限集合，该集合： 1、或者为空； 2、或者由一个根节点加上两颗分别称为左子树和右子树的两颗子树构成； 堆就是一颗完全二叉树&…...

编程日记 2024/7/26 5:49:04

Ubuntu上编译多个版本的frida

准备工作 Ubuntu20(WSL) 略安装依赖 sudo apt update sudo apt-get install build-essential git lib32stdc-9-dev libc6-dev-i386 -y nodejs 去官网[1]下载nodejs，版本的话我就选的20.15.1： tar -xf node-v20.15.1-linux-x64.tar.xz 下载源码 …...

编程日记 2024/7/26 5:47:02

概率论三大分布

目录基本概念卡方分布（χ分布）： t分布： F分布： 延伸卡方分布在哪些具体情况下最适合用于数据分析？ t分布在大样本情况下的表现与正态分布相比如何？ F分布在进行方差比较时与t分布的区…...

编程日记 2024/7/26 5:46:01

Spring系统学习-基于XML的声明式事务

基本概念在Spring框架中，基于XML的事务管理是一种通过XML配置文件来管理事务的方式。Spring提供了强大的事务管理功能，可以与多种持久化技术（如JDBC、Hibernate、JPA等）结合使用。以下是如何在Spring中使用基于XML的事务管理的基…...

编程日记 2024/7/26 5:45:01

iOS中的MVVM设计模式

目录前言一、MVVM简介二、MVVM的核心思想三、MVVM的优势四、MVVM在iOS中的实现 1. 创建Model 2. 创建ViewModel 3. 创建View 4. 主入口总结前言随着iOS开发的发展，构建可维护和可扩展的代码架构变得至关重要。Model-View-ViewModel (MVVM) 是一种…...

编程日记 2024/7/26 5:43:59

ES中的数据类型学习之ARRAY

Arrays | Elasticsearch Guide [7.17] | Elastic 中文翻译 ：Array Elasticsearch 5.4 中文文档看云 Arrays In Elasticsearch, there is no dedicated array data type. Any field can contain zero or more values by default, however, all values in the a…...

编程日记 2024/7/26 5:42:58

vue网络请求

post网络请求 import axios from axios import {ElMessage, ElLoading} from "element-plus" import { nextTick } from "vue" import JSONbig from json-bigint import { userToken } from "/constants/Constant.js";const defaultConfig {bas…...

编程日记 2024/7/26 5:41:57

几何光学基本原理——费马原理和射线方程

在几何光学中，射线方程用于描述光在折射率不均匀的介质中传播的路径。折射率的变化会导致射线发生弯曲，射线方程正是用于计算这种弯曲路径的。几何光学的基本原理几何光学假设光在介质中沿直线传播，但在折射率变化的介质中，光的…...

编程日记 2024/7/26 5:40:56

OpenCV车牌识别技术详解

第一部分：图像预处理车牌识别（License Plate Recognition，LPR）是计算机视觉领域的一个重要应用，它涉及到图像处理、模式识别等多个方面。OpenCV作为一个强大的计算机视觉库，提供了丰富的车牌识别相关功能…...

编程日记 2024/7/26 5:37:53

解决llama_index中使用Ollama出现timed out 问题

现象： File "~/anaconda3/envs/leo_py38/lib/python3.8/site-packages/httpx/_transports/default.py", line 86, in map_httpcore_exceptionsraise mapped_exc(message) from exc httpx.ReadTimeout: timed out代码： from llama_index.core …...

编程日记 2024/7/26 5:36:52

Python爬虫技术第14节 HTML结构解析

HTML 结构解析是 Web 爬虫中的核心技能之一，它允许你从网页中提取所需的信息。Python 提供了几种流行的库来帮助进行 HTML 解析，其中最常用的是 BeautifulSoup 和 lxml。 1. 安装必要的库首先，你需要安装 requests（用于发送 HTT…...

编程日记 2024/7/26 5:35:52

【vue3|第18期】Vue-Router路由的三种传参方式

日期：2024年7月17日作者：Commas 签名：(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释：如果您觉得有所帮助，帮忙点个赞，也可以关注我，我们一起成长；如果有不对的地方，还望各位大佬不吝赐教，谢谢^ - ^ 1.01365 = 37.7834；0.99365 = 0.0255 1.02365 = 1377.408…...

编程日记 2024/7/26 5:34:51

ElasticSearch(六)— 全文检索

一、match系列查询前面讲到的query中的查询，都是精准查询。可以理解成跟在关系型数据库中的查询类似。match系列的查询，是全文检索的查询。会通过分词进行评分，匹配，再返回搜索结果。 1.1 match 查询 "query": {&qu…...

编程日记 2024/7/26 5:33:50

Oracle核心进程详解并kill验证

Oracle核心进程详解并kill验证文章目录 Oracle核心进程详解并kill验证一、说明二、核心进程详解2.1.PMON-进程监控进程2.2.SMON-系统监控进程2.3.DBWn-数据库块写入进程2.4. LGWR-日志写入器进程2.5. CKPT-检查点进程三、Kill验证3.1.kill ckpt进程3.2.kill pmon进程3.3.kill…...

编程日记 2024/7/26 5:29:46

【BUG】已解决：SyntaxError:positional argument follows keyword argument

SyntaxError:positional argument follows keyword argument 目录 SyntaxError:positional argument follows keyword argument 【常见模块错误】【解决方案】欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页，我是博主英杰&#xff0c…...

编程日记 2024/7/26 5:28:45

广告行业里，喷绘什么场合用的比较多一点?

在广告行业中，喷绘凭借其色彩丰富、表现力强、成本相对较低等特点，在众多场合广泛应用一、商业促销与活动场合商场与店铺：商场在节假日或店庆等促销活动期间，会大量使用喷绘。如商场外立面悬挂大幅喷绘海报，宣传活…...

编程新知 2026/4/10 7:50:01

Flutter应用安全保护：代码混淆的重要性与Android/iOS混淆步骤详解

前言本文将会和大家说下保护代码的重要性，和如何给程序加上混淆编译功能。尽可能的不要在你的程序中写死各种服务秘钥，比如 oss 容易被盗用。参考 https://docs.flutter.dev/deployment/obfuscatehttps://www.guardsquare.com/blog/obstacles-in-…...

编程新知 2026/4/10 7:37:38

Agent智能体开发：基于万象熔炉·丹青幻境构建自主任务执行系统

Agent智能体开发：基于万象熔炉丹青幻境构建自主任务执行系统最近AI圈子里“智能体”（Agent）这个词特别火，但很多人可能还不太清楚它到底能做什么。简单来说，它不再是那个你问一句、它答一句的聊天机器人，…...

编程新知 2026/4/10 7:14:29

RWKV7-1.5B-G1A在Ubuntu系统的部署与优化实践

RWKV7-1.5B-G1A在Ubuntu系统的部署与优化实践 1. 环境准备与系统要求在开始部署RWKV7-1.5B-G1A模型之前，我们需要确保Ubuntu系统满足基本要求。我推荐使用Ubuntu 20.04 LTS版本，因为这个版本长期支持且稳定性好，社区资源也丰富。硬件方面…...

编程新知 2026/4/10 7:14:25

ESPS USB MSC 调试全过程记录氏

背景在软件开发的漫长旅途中，"构建"这个词往往让人又爱又恨。爱的是，一键点击，代码变成产品，那是程序员最迷人的时刻；恨的是，维护那一堆乱糟糟的构建脚本，简直是噩梦。在很多项目中…...

编程新知 2026/4/10 6:53:50

AI Agent设计：让Pixel Script Temple成为自主创作智能体

AI Agent设计：让Pixel Script Temple成为自主创作智能体 1. 引言：当AI学会自主创作想象一下，你只需要说"创作一幅科幻城市夜景"，就能得到一个完整的像素画作品——从构思到成图，全程无需人工干预。这不是…...

编程新知 2026/4/10 6:35:42

如何快速实现formsy-react与Material-UI和Bootstrap的完美集成：终极指南

如何快速实现formsy-react与Material-UI和Bootstrap的完美集成：终极指南【免费下载链接】formsy-react A form input builder and validator for React JS 项目地址: https://gitcode.com/gh_mirrors/fo/formsy-react 在React应用开发中，表单处理…...

编程新知 2026/4/10 6:29:31

OpenClaw智能监控：Qwen3-32B实现服务器异常自动告警

OpenClaw智能监控：Qwen3-32B实现服务器异常自动告警 1. 为什么选择OpenClaw做服务器监控？ 去年我的个人博客经历了一次长达6小时的宕机，直到有读者发邮件反馈才发现问题。传统监控工具如Zabbix或Prometheus虽然功能强大，但配置复…...

编程新知 2026/4/10 4:52:12

LD2450毫米波雷达Arduino库：协议抽象与嵌入式鲁棒通信

1. 项目概述LD2450_Radar 是一款专为 HiLink LD2450 24GHz 毫米波人体存在雷达模块设计的轻量级 Arduino 兼容库。该库并非简单封装串口收发，而是面向嵌入式工程师实际开发场景构建的协议抽象层状态管理器数据流处理器三位一体解决方案。其核心价值在于&#xf…...

编程新知 2026/4/10 2:35:57

StructBERT中文相似度模型效果展示：LCQMC与ChineseSTS精准匹配案例集

StructBERT中文相似度模型效果展示：LCQMC与ChineseSTS精准匹配案例集 1. 引言：当AI能读懂句子的“言外之意” 你有没有遇到过这样的场景？在搜索引擎里输入一个问题，结果返回的答案和你问的完全不是一回事。或者，你想…...

编程新知 2026/4/10 1:56:58

语言模型及数据集

相关文章：

语言模型及数据集

linux如何卸载python3.5

【BUG】已解决：TypeError: expected string or bytes-like object

在linux上面用drissionpage自动化遇到反爬？

vue3大事件管理系统 === 首页 layout 文章分类页面 -

堆的基本实现

Ubuntu上编译多个版本的frida

概率论三大分布

Spring系统学习-基于XML的声明式事务

iOS中的MVVM设计模式

ES中的数据类型学习之ARRAY

vue网络请求

几何光学基本原理——费马原理和射线方程

OpenCV车牌识别技术详解

解决llama_index中使用Ollama出现timed out 问题

Python爬虫技术第14节 HTML结构解析

【vue3|第18期】Vue-Router路由的三种传参方式

ElasticSearch(六)— 全文检索

Oracle核心进程详解并kill验证

【BUG】已解决：SyntaxError:positional argument follows keyword argument

广告行业里，喷绘什么场合用的比较多一点?

Flutter应用安全保护：代码混淆的重要性与Android/iOS混淆步骤详解

Agent智能体开发：基于万象熔炉·丹青幻境构建自主任务执行系统

RWKV7-1.5B-G1A在Ubuntu系统的部署与优化实践

ESPS USB MSC 调试全过程记录氏

AI Agent设计：让Pixel Script Temple成为自主创作智能体

如何快速实现formsy-react与Material-UI和Bootstrap的完美集成：终极指南

OpenClaw智能监控：Qwen3-32B实现服务器异常自动告警

LD2450毫米波雷达Arduino库：协议抽象与嵌入式鲁棒通信

StructBERT中文相似度模型效果展示：LCQMC与ChineseSTS精准匹配案例集