当前位置: 首页 > article >正文

从N元文法到BERT:用Python代码串讲NLP核心模型演进(附实战代码)

从N元文法到BERT用Python代码串讲NLP核心模型演进附实战代码自然语言处理NLP正以前所未有的速度改变我们与数字世界的交互方式。从早期的简单统计模型到如今动辄数十亿参数的预训练模型这条技术演进路径不仅反映了算法思想的革新更体现了计算范式从规则驱动到数据驱动的根本转变。本文将用可运行的Python代码贯穿始终带您亲历NLP发展的七个关键里程碑每个阶段都配有可修改的代码示例和直观的效果对比。1. 统计语言模型时代N元文法的实践与局限N元文法模型是NLP最早的量化尝试其核心假设简单有力一个词的出现概率仅取决于前N-1个词。这种局部依赖关系虽然粗糙却为后续所有概率语言模型奠定了基础。import numpy as np from collections import defaultdict class NGramModel: def __init__(self, n2): self.n n self.counts defaultdict(lambda: defaultdict(int)) self.context_counts defaultdict(int) def train(self, corpus): for sentence in corpus: tokens [s]*(self.n-1) sentence [/s] for i in range(self.n-1, len(tokens)): context tuple(tokens[i-self.n1:i]) word tokens[i] self.counts[context][word] 1 self.context_counts[context] 1 def predict_prob(self, context, word): return self.counts[context].get(word, 0) / self.context_counts.get(context, 1)典型问题与解决方案数据稀疏采用Kneser-Ney平滑技术长距离依赖使用缓存模型Cache LM临时记忆近期词汇计算效率基于Trie树实现快速查询提示实际应用中3-gram通常是最佳平衡点在Google Books N-gram语料库中4-gram以上模型的内存消耗呈指数增长而效果提升有限。2. 神经网络语言模型分布式表示的突破2003年Bengio提出的神经网络语言模型NNLM首次引入词向量概念解决了传统离散表示无法捕捉语义相似度的问题。以下是用PyTorch实现的简化版本import torch import torch.nn as nn class NNLM(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim, context_size): super().__init__() self.embeddings nn.Embedding(vocab_size, embedding_dim) self.hidden nn.Linear(context_size * embedding_dim, hidden_dim) self.output nn.Linear(hidden_dim, vocab_size) self.context_size context_size def forward(self, inputs): embeds self.embeddings(inputs).view(-1, self.context_size * embedding_dim) hidden torch.tanh(self.hidden(embeds)) logits self.output(hidden) return logits关键进步词向量可自动学习到国王-男人女人≈女王的语义关系隐藏层能捕捉非线性特征组合参数量随词汇表增长呈线性而非指数关系3. Word2Vec革命效率与规模的飞跃Mikolov在2013年提出的Word2Vec通过简化模型结构使大规模语料训练成为可能。其两种变体各有特点模型类型训练目标优点缺点CBOW根据上下文预测中心词训练快对小数据集友好对低频词表现较差Skip-gram根据中心词预测上下文擅长处理稀有词需要更多训练数据from gensim.models import Word2Vec # 示例训练过程 sentences [[自然, 语言, 处理, 是, 人工智能, 重要, 分支], [深度学习, 推动, NLP, 技术, 发展]] model Word2Vec(sentences, vector_size100, window5, min_count1, sg1) print(model.wv.most_similar(自然, topn3))4. 注意力机制打破序列建模的枷锁传统RNN的固有缺陷是难以处理长距离依赖。注意力机制通过动态权重分配完美解决了这一问题class Attention(nn.Module): def __init__(self, hidden_dim): super().__init__() self.attention nn.Linear(hidden_dim * 2, hidden_dim) self.v nn.Parameter(torch.rand(hidden_dim)) def forward(self, hidden, encoder_outputs): seq_len encoder_outputs.size(0) hidden hidden.repeat(seq_len, 1, 1).transpose(0, 1) energy torch.tanh(self.attention(torch.cat((hidden, encoder_outputs), dim2))) attention torch.matmul(energy, self.v) return torch.softmax(attention, dim1)注意力机制带来的变革在机器翻译任务中BLEU分数提升超过50%使模型具备可视化决策过程的能力为后续Transformer架构奠定基础5. Transformer新时代的基石架构Vaswani等人在2017年提出的Transformer完全摒弃了循环结构仅依赖自注意力机制。以下是关键组件Multi-Head Attention的实现class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super().__init__() self.d_model d_model self.num_heads num_heads self.d_k d_model // num_heads self.W_q nn.Linear(d_model, d_model) self.W_k nn.Linear(d_model, d_model) self.W_v nn.Linear(d_model, d_model) self.W_o nn.Linear(d_model, d_model) def scaled_dot_product_attention(self, Q, K, V, maskNone): scores torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k) if mask is not None: scores scores.masked_fill(mask 0, -1e9) attention torch.softmax(scores, dim-1) return torch.matmul(attention, V) def forward(self, Q, K, V, maskNone): batch_size Q.size(0) Q self.W_q(Q).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) K self.W_k(K).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) V self.W_v(V).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) scores self.scaled_dot_product_attention(Q, K, V, mask) concat scores.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) return self.W_o(concat)6. BERT双向上下文建模的巅峰BERT通过掩码语言模型MLM和下一句预测NSP任务实现了真正意义上的深度双向编码。使用HuggingFace Transformers库可以快速调用from transformers import BertTokenizer, BertModel tokenizer BertTokenizer.from_pretrained(bert-base-chinese) model BertModel.from_pretrained(bert-base-chinese) inputs tokenizer(自然语言处理是人工智能的重要分支, return_tensorspt) outputs model(**inputs) print(fPooled output shape: {outputs.pooler_output.shape}) # [1, 768] print(fSequence outputs shape: {outputs.last_hidden_state.shape}) # [1, 13, 768]BERT的创新设计位置编码代替RNN/CNN的位置感知Layer Normalization稳定深层训练[CLS]特殊标记用于分类任务子词切分WordPiece解决未登录词问题7. 现代NLP技术栈实战指南当前最先进的NLP系统通常采用分层架构基础层预训练模型BERT、GPT-3等适配层领域适配继续预训练Continual Pretraining任务适配Prompt Tuning应用层轻量化部署模型蒸馏DistilBERT多模态扩展CLIP、Florence# 使用BERT进行文本分类的完整示例 from transformers import BertForSequenceClassification, Trainer, TrainingArguments model BertForSequenceClassification.from_pretrained(bert-base-uncased, num_labels2) training_args TrainingArguments( output_dir./results, num_train_epochs3, per_device_train_batch_size16, evaluation_strategysteps, save_steps500, eval_steps500, ) trainer Trainer( modelmodel, argstraining_args, train_datasettrain_dataset, eval_datasetval_dataset ) trainer.train()在真实业务场景中我们需要特别注意领域词典的补充增强对抗样本的鲁棒性处理模型可解释性工具如LIME的应用量化部署时的精度-速度权衡从N元文法到BERT的演进历程告诉我们NLP的进步本质上是如何更好利用上下文信息的探索史。当我们在PyTorch中调试这些模型时最深刻的体会是——看似复杂的AI系统其核心往往源于几个简洁而深刻的数学直觉。

相关文章:

从N元文法到BERT:用Python代码串讲NLP核心模型演进(附实战代码)

从N元文法到BERT:用Python代码串讲NLP核心模型演进(附实战代码) 自然语言处理(NLP)正以前所未有的速度改变我们与数字世界的交互方式。从早期的简单统计模型到如今动辄数十亿参数的预训练模型,这条技术演进…...

『NAS』在NAS部署简易版PS-miniPaint

点赞 关注 收藏 学会了 💡整理了一个 NAS 专属玩法专栏,感兴趣的工友可以戳这里关注 👉 《NAS邪修》 miniPaint 是一款开源的在线图片编辑器。你可以把它理解为**“运行在浏览器里的轻量级 Photoshop”**。 打开飞牛的「文件管理」应用&am…...

康威生命游戏中的简易CPU设计与实现

生命游戏中的简易CPU - 第4部分 这是关于在生命游戏中创建数字逻辑门系列文章的第四篇。前几篇文章从如何创建数字逻辑门开始,并利用它们来构建简单的电路。在这篇文章中,我们将实际构建第一台真正的计算机:一个(2级流水线&#x…...

IntelliJ+Tomcat部署draw.io开发环境避坑指南(含乱码解决方案)

IntelliJTomcat深度定制draw.io开发环境实战手册 作为一款开源的流程图设计工具,draw.io因其轻量级和高度可定制性受到开发者青睐。但将其源码导入本地开发环境时,不少Java开发者会在IntelliJ与Tomcat的配置环节遭遇"水土不服"。本文将系统梳理…...

『NAS』老破小也能玩 AI?飞牛 NAS 部署 LocalAI

点赞 关注 收藏 学会了 💡整理了一个 NAS 专属玩法专栏,感兴趣的工友可以戳这里关注 👉 《NAS邪修》 LocalAI 是一个开源的"AI壳",它能让你在自己的硬件上(比如 NAS)离线运行各种大模型&#…...

智能体记忆:结构化索引优化上下文效率

在之前的文章中,我探讨了在与AI智能体协作时,角色设定为何仍然重要。不同的视角能以原始上下文无法复制的方式影响输出。但我也提出了一个需要正面解决的局限:每一个全新的上下文窗口都是从零开始的。角色设定每次都需要从头重建对你代码库的…...

0基础java,面向对象

万物皆对象,要想创建一个对象,就必须要有一个类,一个类可以new很多很多的对象类的组成在一个类中,由属性和方法组成。同时和类相关的还有变量,权限修饰符和如何创建对象对象的创建对象的可以new一个出来,也就是创建。当然部分API不用写new也可以创建对象比如,在JDK8…...

# io多路复用之select详解

一、前备知识 1、io多路复用:在一个线程中实现服务器与多个客户端之间的链接与信息的收发 2、select系统调用:select函数属于系统调用,每次调用都会把fd_set在用户态和内核态之间来回copy,所以select效率不如epoll 3、select使用&…...

TradingAgents-CN:多智能体协作的金融交易AI框架深度解析

TradingAgents-CN:多智能体协作的金融交易AI框架深度解析 【免费下载链接】TradingAgents-CN 基于多智能体LLM的中文金融交易框架 - TradingAgents中文增强版 项目地址: https://gitcode.com/GitHub_Trending/tr/TradingAgents-CN 1 技术原理:多智…...

Pyrocko + PSGRN/PSCMP小问题

1.先看看你的脚本,然后诊断 config 文件的问题。问题很明确——YAML 解析 config 文件时在 earthmodel_1d 块标量那里报错。大概率是 |2 缩进指示符和实际内容缩进不匹配。 让我先下载脚本看看,然后直接诊断:fomosto 不在当前环境&#xff0…...

Halcon中值滤波,均值滤波,高斯滤波

均值滤波(一般用来消除高斯噪声创建一个高斯核参数1为σ 值越大高斯噪声越多gauss_distribution( 9 ,Distribution)添加到图片上add_noise_distribution( Image , ImageNoise , Distribution)参数3 4 是滤波核, 建议使用奇数矩阵核,值越小越清…...

C语言弱符号与弱引用技术解析

跨平台C语言开发中的弱符号与弱引用技术解析1. 弱符号技术原理与应用1.1 弱符号定义与语法弱符号是指在定义或声明变量、结构体成员或函数时,通过添加__attribute__((weak))属性标记的对象符号。在C语言中,弱符号的典型定义方式如下:__attrib…...

如何让Flash内容重获新生?FlashPatch拯救过期浏览器插件的实战指南

如何让Flash内容重获新生?FlashPatch拯救过期浏览器插件的实战指南 【免费下载链接】FlashPatch FlashPatch! Play Adobe Flash Player games in the browser after January 12th, 2021. 项目地址: https://gitcode.com/gh_mirrors/fl/FlashPatch 一、价值定…...

ROS2 MoveIt配置实战:解决机械臂在RViz中‘只规划不执行’和模型不显示的常见问题

ROS2 MoveIt实战:机械臂在RViz中规划执行失败的深度排查指南 1. 问题现象与初步诊断 当你在RViz中点击"Plan and Execute"按钮时,机械臂模型却纹丝不动,或者干脆连模型都加载不出来——这种场景恐怕是ROS2开发者最头疼的遭遇之一。…...

接口频繁变化时,Flutter 项目如何保证稳定性?

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名) 大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚…...

风电调频翻车实录:当虚拟惯性遇上二次跌落

双馈风力电机虚拟惯性控制下垂控制三机九节点一次调频模型 [1]系统为三机九节点模型,所有参数已调好且可调,可直接运行,风电渗透率19.4% [2]风机采用虚拟惯性下垂控制,转速回复模块,在系统频率跌落时释放转子动能提供有…...

实战:利用‘语义锚定’技术,防止竞品通过 AI 生成的内容覆盖你的核心词条

各位编程专家、技术领袖们,大家好!今天,我们齐聚一堂,探讨一个在AI时代日益突出的挑战:如何防止竞争对手利用AI生成的内容,稀释甚至覆盖我们品牌的核心技术词条。这不仅仅是SEO的攻防战,更是品牌…...

SpringBoot+Vue 校园健康驿站管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着高校规模的不断扩大和师生健康管理需求的日益增长,传统的健康管理方式已无法满足高效、便捷的需求。校园健康驿站管理系统旨在通过信息化手段优化健康管理流程,实现健康数据的实时监控、快速响应和科学分析。该系统能够有效整合校园健康资源&am…...

阿里悟空 vs 腾讯龙虾:大厂 AI 自动化对决,普通人该怎么选?

最近 AI 自动化圈彻底炸了,一边是钉钉推出的阿里悟空,主打企业级合规与深度协同;另一边是腾讯全系铺开的龙虾(QClaw/WorkBuddy),靠着微信遥控、零门槛上手刷屏全网。 很多技术小白、职场人都在跟风 “养龙虾”,但这两个产品到底差在哪?腾讯龙虾真的适合所有人吗?今天…...

【2025最新】基于SpringBoot+Vue的小型企业客户关系管理系统管理系统源码+MyBatis+MySQL

摘要 在当今竞争激烈的商业环境中,小型企业亟需高效的客户关系管理(CRM)系统来优化客户交互、提升销售效率并增强客户忠诚度。传统的客户管理方式依赖人工记录和电子表格,存在数据冗余、查询效率低、信息共享困难等问题。随着信息…...

HunyuanImage-3.0-Instruct:8步玩转AI创意绘图

HunyuanImage-3.0-Instruct:8步玩转AI创意绘图 【免费下载链接】HunyuanImage-3.0-Instruct-Distil 项目地址: https://ai.gitcode.com/tencent_hunyuan/HunyuanImage-3.0-Instruct-Distil 导语 腾讯混元最新发布的HunyuanImage-3.0-Instruct-Distil模型&a…...

IPTV抓包工具合集:Wireshark、parse_cap_channels_v2、IPTV全能工具箱

分享一个刚刚大佬那里转存过来的IPTV工具箱v5.2版本。先叠个甲,这仅仅是一个单纯的源检测和管理工具分享,不包含任何IPTV源地址,也不涉及任何违规教程。如果版主认为违规请直接删帖。 这个软件主打一个省心。不需要你自己有服务器&#xff0c…...

18-AI论文创作:自动找参考文献并精准标注

示例 薛磊.组织学习、数字能力与组织敏捷性的关系研究[D].吉林大学,2024. https://link.cnki.net/doi/10.27162/d.cnki.gjlin.2024.001308 关键词: 数字技术 组织学习 AI实战 使用大模型“探索” 请找到这这段话的内容向匹配的参考文献,并以&#xff…...

Xilinx MicroBlaze软核调试实战指南

1. MicroBlaze软核调试前的环境准备 调试MicroBlaze软核系统就像组装一台微型计算机,需要先准备好所有"零部件"。我经常看到新手开发者直接跳进代码调试,结果发现硬件配置都没完成,白白浪费几个小时。这里分享下我的标准配置清单&a…...

开源工具Rufus实现专业级启动盘制作的完整指南

开源工具Rufus实现专业级启动盘制作的完整指南 【免费下载链接】rufus The Reliable USB Formatting Utility 项目地址: https://gitcode.com/GitHub_Trending/ru/rufus 系统重装时遇到的启动失败、镜像损坏、硬件不兼容等问题是否让你束手无策?作为一款免费…...

volatile这个关键字到底什么时候该加

你的变量被编译器偷偷优化掉了——volatile这个关键字到底什么时候该加欢迎关注微信公众号,“边缘AI嵌入式”,带你了解更多嵌入式加边缘AI的前沿技术和应用示例今天写volatile时,想到上学那会给企业做的一个项目,用的是某国产MCU&…...

【泛型】泛型:泛型擦除、通配符、上下界限定

文章目录泛型:泛型擦除、通配符、上下界限定一、泛型基础概述1. 定义2. 核心作用二、泛型擦除(Type Erasure)1. 概念2. 擦除规则3. 擦除后的处理4. 影响与限制5. 代码示例三、通配符(Wildcard)1. 概念2. 三种通配符类型…...

【Java】Java核心关键字:final、static、volatile、synchronized、transient(附《面试高频考点》)

文章目录Java 5大核心关键字5大关键字——对比表1. final 关键字定义作用使用场景实现原理注意事项2. static 关键字定义作用使用场景实现原理注意事项3. volatile 关键字定义作用使用场景实现原理注意事项4. synchronized 关键字定义作用使用场景实现原理注意事项5. transient…...

写作压力小了!8个降AIGC网站测评:开源免费真能帮你降AI率吗

在学术写作日益依赖AI工具的当下,如何有效降低AIGC率、去除AI痕迹,同时保持文章的语义通顺和逻辑清晰,成为许多学生和研究者面临的难题。AI降重工具的出现,正是为了解决这一痛点,通过智能分析与优化,帮助用…...

【事务】Spring Framework核心——事务管理:ACID特性、隔离级别、传播行为、@Transactional底层原理、失效场景

文章目录事务管理一、事务核心基石:ACID四大特性二、事务并发问题与隔离级别2.1 并发事务引发的3大核心读异常2.2 SQL标准4大隔离级别2.3 核心补充:MVCC与隔离级别的关联三、Spring事务传播行为3.1 第一类:支持当前事务(优先加入已…...