当前位置: 首页 > article >正文

ChatGPT出现前的文本生成:手把手用Python实现n-gram古诗续写工具

从零构建唐诗生成器用Python揭秘n-gram的文本魔法记得第一次看到计算机生成古诗时那种震撼至今难忘——机器竟能模仿李白杜甫的笔触。这背后最基础的技术就是今天我们要探讨的n-gram模型。不同于现代庞大的神经网络n-gram用简单的统计规律就能产生令人惊喜的文本是理解自然语言生成的绝佳起点。1. 古诗生成器的技术基石n-gram的核心思想源于一个直观的观察人类语言具有强烈的局部依赖性。当我们说举头望明月时下一个词大概率是低头而非吃饭。这种连续性正是n-gram捕捉的关键。n-gram的数学本质是条件概率建模。给定前n-1个词预测第n个词的概率分布。例如在3-gram模型中P(词n | 词n-2, 词n-1) count(词n-2, 词n-1, 词n) / count(词n-2, 词n-1)这种统计方法虽然简单但在适当语料上效果惊人。我们来看《全唐诗》中的实际例子前序词后续词出现次数概率明月光420.38明月几230.21明月照190.17当模型看到明月时有38%的概率会选择光作为下一个词这正是床前明月光的经典搭配。2. 构建唐诗生成器的完整流程2.1 语料准备与清洗优质语料是n-gram模型成功的关键。我们使用《全唐诗》作为数据源首先需要进行预处理import re def clean_poem(text): # 去除标点符号 text re.sub(r[^\w\s], , text) # 统一转换为简体中文 text convert_to_simplified(text) # 去除空行和注释 lines [line.strip() for line in text.split(\n) if line.strip()] return lines清洗后的语料应该呈现这样的结构春眠不觉晓 处处闻啼鸟 夜来风雨声 花落知多少2.2 n-gram统计与概率计算接下来构建n-gram频率统计表。以3-gram为例from collections import defaultdict def build_ngram_model(corpus, n3): ngrams defaultdict(int) context defaultdict(int) for line in corpus: words list(line) for i in range(len(words)-n1): ngram tuple(words[i:in]) prefix tuple(words[i:in-1]) ngrams[ngram] 1 context[prefix] 1 # 计算条件概率 prob_dist {} for ngram, count in ngrams.items(): prefix ngram[:-1] prob_dist[ngram] count / context[prefix] return prob_dist生成的概率分布表会是这样{ (春,眠,不): 0.95, (眠,不,觉): 0.87, (不,觉,晓): 0.92, ... }2.3 文本生成策略有了概率分布我们需要选择生成策略。常见的有三种方法贪婪搜索每一步选择概率最高的词优点结果连贯性强缺点缺乏多样性随机采样按概率分布随机选择优点创造性更强缺点可能产生不合理组合束搜索(Beam Search)平衡连贯性与多样性保留top-k候选路径最终选择整体概率最高的序列实现Beam Search的核心代码def beam_search(prefix, ngram_model, k3, max_len20): beams [(list(prefix), 1.0)] # (序列, 累积概率) for _ in range(max_len - len(prefix)): new_beams [] for seq, prob in beams: last_words tuple(seq[-(n-1):]) if len(seq) n-1 else tuple(seq) candidates [(seq [next_word], prob * p) for (ctx, next_word), p in ngram_model.items() if ctx last_words] new_beams.extend(candidates) # 保留top-k beams sorted(new_beams, keylambda x: -x[1])[:k] return beams[0][0]3. n-gram的进阶技巧与调优3.1 平滑技术处理稀疏数据当遇到语料中未出现的n-gram组合时基础模型会失败。这时需要平滑技术加一平滑(Laplace)给所有可能组合加1次计数回退(Katz Backoff)当高阶n-gram不存在时使用低阶n-gram插值(Jelinek-Mercer)混合不同阶数的n-gram概率加一平滑的实现示例def laplace_smoothing(ngram, model, vocab_size, n3): prefix ngram[:-1] observed model.get(ngram, 0) prefix_count sum(1 for k in model if k[:-1] prefix) return (observed 1) / (prefix_count vocab_size)3.2 n值的选择艺术n的选择直接影响生成质量n值连贯性创造性内存需求2较低很高小3中等中等中等4高较低大在唐诗生成中3-gram通常是最佳平衡点。例如2-gram生成春风又绿江南岸明月何时照我还 → 春风又绿江南岸花开不见有人来3-gram生成更可能保持原句春风又绿江南岸明月何时照我还3.3 与现代模型的对比虽然n-gram看似简单但与现代Transformer相比仍有独特优势特性n-gramTransformer训练速度秒级小时/天级硬件需求CPU即可需要GPU可解释性完全透明黑盒小样本表现优秀需要大量数据长程依赖弱强创造性依赖语料可突破语料限制提示在小规模特定领域文本生成(如古诗)中n-gram的表现往往能媲美大模型且成本低几个数量级。4. 实战构建完整的唐诗生成系统4.1 系统架构设计完整的生成系统包含以下模块数据预处理层语料清洗分词/分字处理训练集/测试集划分核心模型层n-gram统计概率计算平滑处理生成策略层多种搜索算法温度参数控制长度控制评估与优化人工评估自动指标(如困惑度)A/B测试4.2 效果优化技巧混合n-gram同时使用2-gram和3-gram平衡创造性与连贯性主题控制通过筛选特定主题的诗句构建专属n-gram模型长度惩罚避免生成过长或过短的句子押韵处理在最后几个词约束押韵模式混合n-gram的实现示例def mixed_ngram_generate(prefix, model2, model3, weight0.7): for _ in range(max_len): # 获取2-gram和3-gram建议 suggestions2 get_suggestions(prefix, model2, n2) suggestions3 get_suggestions(prefix, model3, n3) # 混合概率 mixed {} for word, p in suggestions3.items(): mixed[word] weight * p for word, p in suggestions2.items(): mixed[word] mixed.get(word, 0) (1-weight) * p # 选择下一个词 next_word select_word(mixed) prefix.append(next_word) return prefix4.3 经典错误与调试在实际开发中常见问题包括无限循环生成因某些n-gram组合形成闭环修复设置最大生成长度或检测重复模式低质量输出语料噪声导致奇怪组合修复加强数据清洗或添加人工规则过滤内存不足高阶n-gram模型过大修复使用概率剪枝或磁盘存储调试时可以输出中间结果def debug_generate(prefix, model, n3): for i in range(10): last tuple(prefix[-(n-1):]) print(fStep {i}: Last words {last}) candidates [(k[-1],v) for k,v in model.items() if k[:-1]last] print(Candidates:, sorted(candidates, keylambda x:-x[1])[:5]) next_word max(candidates, keylambda x:x[1])[0] prefix.append(next_word) return prefix在构建这个唐诗生成器的过程中最让我惊讶的是简单如n-gram的技术在精心调优后竟能产生如此富有诗意的句子。有一次系统输出了孤舟蓑笠翁独钓寒江雪的完美续写——夜泊秦淮近酒家虽然这不是原诗的后句但意境衔接得天衣无缝。这种偶然迸发的灵感正是语言模型的魅力所在。

相关文章:

ChatGPT出现前的文本生成:手把手用Python实现n-gram古诗续写工具

从零构建唐诗生成器:用Python揭秘n-gram的文本魔法 记得第一次看到计算机生成古诗时,那种震撼至今难忘——机器竟能模仿李白杜甫的笔触。这背后最基础的技术,就是今天我们要探讨的n-gram模型。不同于现代庞大的神经网络,n-gram用…...

告别虚拟机:在Mac/Windows本地用Docker快速拉起StarRocks测试环境

告别虚拟机:在Mac/Windows本地用Docker快速拉起StarRocks测试环境 当我们需要快速验证一个数据库的功能特性时,传统方式往往需要在虚拟机或物理机上经历繁琐的安装配置过程。对于StarRocks这样的分布式分析型数据库,传统部署方式更是需要准备…...

本地多人游戏分屏工具:突破单机限制的创新解决方案

本地多人游戏分屏工具:突破单机限制的创新解决方案 【免费下载链接】nucleuscoop Starts multiple instances of a game for split-screen multiplayer gaming! 项目地址: https://gitcode.com/gh_mirrors/nu/nucleuscoop 你是否曾遇到这样的困境&#xff1a…...

告别虚拟机!在WSL2的Ubuntu里5分钟搞定LVGL v9.2模拟器(SDL2显示)

在WSL2中5分钟快速搭建LVGL v9.2开发环境 对于习惯Windows开发环境的嵌入式工程师来说,传统虚拟机方案往往显得笨重且资源占用高。WSL2的出现彻底改变了这一局面——它不仅能提供完整的Linux内核支持,还能实现与Windows系统的无缝文件互通和硬件加速。本…...

中国象棋智能辅助系统:视觉识别驱动的开源解决方案

中国象棋智能辅助系统:视觉识别驱动的开源解决方案 【免费下载链接】VinXiangQi Xiangqi syncing tool based on Yolov5 / 基于Yolov5的中国象棋连线工具 项目地址: https://gitcode.com/gh_mirrors/vi/VinXiangQi 在数字化对弈场景中,传统象棋辅…...

你的Selenium爬虫被‘环境调试’弹窗卡住了吗?试试先清理浏览器缓存和Cookie

Selenium爬虫环境指纹污染解决方案:从缓存清理到浏览器隔离 环境指纹污染:爬虫开发者面临的新挑战 上周三凌晨3点,我的自动化数据采集系统突然发出警报——所有Selenium爬虫实例同时失效,目标网站清一色返回"环境异常"提…...

LangGraph条件边实战:手把手教你打造一个能‘看图说话’的客服工单分流Agent

LangGraph条件边实战:打造智能客服工单分流系统 想象一下,当用户向客服系统发送"我要退款"或"查询物流"这样的请求时,系统能像经验丰富的客服主管一样,瞬间理解意图并将工单精准路由到对应处理部门。这不再是…...

ArcMap协同克里金插值实战:从数据导入到范围裁剪的完整流程

ArcMap协同克里金插值实战:从数据准备到成果优化的全流程指南 在空间分析领域,克里金插值因其能够考虑空间自相关性而广受欢迎。而协同克里金作为其进阶版本,通过引入辅助变量进一步提升预测精度,特别适用于环境监测、地质勘探和…...

别再瞎调RAG了!用RAGAS给你的LangChain应用做个“体检报告”(附完整代码)

用RAGAS为你的LangChain应用做深度诊断:从指标解读到精准优化 当你花费数周构建的RAG系统突然在关键演示中输出"纽约市得名于一位爱吃苹果的市长"时,那种绝望感我深有体会。去年我们的客服机器人就曾把"产品退货政策"解释成"建…...

Charles证书过期别慌!Win10/Win11系统下彻底清除旧证书的保姆级教程

Charles证书过期别慌!Win10/Win11系统下彻底清除旧证书的保姆级教程 当你发现Charles突然无法正常抓取HTTPS流量,大概率是根证书过期了。作为Windows平台下最常用的抓包工具之一,Charles的证书管理直接影响着开发调试效率。但系统证书存储机制…...

统一游戏模组管理:如何用XXMI Launcher告别多工具切换的烦恼

统一游戏模组管理:如何用XXMI Launcher告别多工具切换的烦恼 【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher 你是否曾经为了管理不同游戏的模组而需要在多个工具间来…...

什么是共轭表达式?解决了什么问题?

什么是共轭表达式?解决了什么问题?为什么导数是 1/x? 导数衡量的是“每增加 1 单位的 xxx,y 能增加多少”...

基于hadoop+spark+hive的音乐推荐系统设计与实现

前言随着数字化音乐资源的迅猛增长,传统音乐推荐方式在满足用户个性化需求方面渐显乏力。本研究基于 Python 展开,致力于设计并实现一个音乐推荐系统。通过整合协同过滤算法、数据挖掘技术以及机器学习算法,对用户的音乐偏好和行为进行深入剖…...

为什么一个非常大的数的导数是一个非常小的数?

“数”本身没有导数,因为导数是针对函数的(描述函数在某点的变化率或斜率)。如果你指的是某个函数在自变量很大时,函数值(y)变得“非常大”,但其导数(y)却“非常小”&…...

7个实用技巧:用immich实现自托管相册智能管理 | 隐私保护与高效共享指南

7个实用技巧:用immich实现自托管相册智能管理 | 隐私保护与高效共享指南 【免费下载链接】immich High performance self-hosted photo and video management solution. 项目地址: https://gitcode.com/GitHub_Trending/im/immich 你是否曾在数千张照片中艰难…...

Kotlin协程取消机制实战:用suspendCancellableCoroutine避免你的后台任务内存泄漏

Kotlin协程取消机制实战:用suspendCancellableCoroutine避免内存泄漏 当你在安卓应用中处理一个耗时任务时,用户突然退出页面会发生什么?那些未完成的网络请求、数据库查询和文件操作可能仍在后台默默消耗资源。更糟的是,如果这些…...

ArcMap10.4.1中文版地图数字化技巧:如何高效捕捉和数字化等高线

ArcMap 10.4.1中文版等高线数字化实战:从基础操作到效率倍增技巧 在GIS数据处理中,等高线数字化是地形分析的基础环节,也是许多项目中最耗时的步骤之一。我曾参与过一个山区防洪规划项目,团队需要处理超过200平方公里的1:10000地形…...

全面解锁《鸣潮》游戏潜力:WaveTools工具箱新手使用指南

全面解锁《鸣潮》游戏潜力:WaveTools工具箱新手使用指南 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 想要在《鸣潮》中获得更流畅的游戏体验和更精细的画质控制吗?WaveTools鸣潮…...

从Shenyu网关的线程瓶颈说起:我是如何用gRPC长连接优化配置同步的(Raft实战)

从Shenyu网关的线程瓶颈到gRPC长连接优化:Raft协议实战解析 1. 问题背景与现状分析 在微服务架构中,API网关作为流量入口,其性能直接影响整个系统的稳定性。Apache Shenyu作为流行的开源网关解决方案,默认采用HTTP长轮询机制实现配…...

保姆级教程:用Python调用DashScope灵积模型API,5分钟搞定你的第一个AI菜谱

5分钟实战:用Python调用DashScope打造智能菜谱生成器 第一次接触AI模型API调用时,很多人会被各种术语和配置步骤吓退。但事实上,借助像DashScope这样的平台,即使是编程新手也能快速实现有趣的应用。今天我们就从一个生活化场景出…...

php中闭包(Closure)的bindTo函数用法详解

Closure::bindTo 是 PHP 中的一个方法,用于改变闭包(Closure)内部的 $this 上下文以及其静态范围。这意味着你可以将一个闭包从一个对象或类绑定到另一个对象或类上,使其在调用时使用新的上下文。这对于在不同的对象实例间复用闭包…...

hdl_localization实战:在ROS Melodic下,如何不依赖IMU实现16线激光雷达的稳定定位?

无IMU环境下16线激光雷达的hdl_localization实战指南 在机器人自主导航领域,定位系统是核心组件之一。传统方案通常依赖IMU(惯性测量单元)与激光雷达的融合,但在实际工程中,IMU数据可能存在噪声大、校准困难或硬件缺失…...

拯救你的网站兼容性:手把手教你用heic2any解决苹果图片上传问题

苹果用户图片上传难题的终极解决方案:前端HEIC转换实战指南 你是否遇到过这样的场景:精心设计的网站上传功能,在苹果用户面前却频频报错?后台服务器不断收到无法识别的图片格式,而用户则抱怨"明明能拍照片却上传…...

实测560Mbps!基于ZYNQ的SFP光口以太网性能优化全记录(含PetaLinux配置)

实测560Mbps!基于ZYNQ的SFP光口以太网性能优化全记录(含PetaLinux配置) 在嵌入式系统设计中,高速以太网通信一直是提升整体性能的关键环节。特别是当项目需要远距离、抗干扰的数据传输时,SFP光口方案往往成为工程师的首…...

从PTA题目到项目实战:用Python和C语言两种思路重构‘插入排序’

从PTA题目到项目实战:用Python和C语言两种思路重构‘插入排序’ 算法学习常常陷入"纸上谈兵"的困境——我们能在OJ平台上AC题目,却难以将算法思想迁移到真实项目中。以插入排序为例,这道PTA基础题背后隐藏着数据处理、性能优化和语…...

QFIL线刷救砖全攻略:遇到EDL模式切换失败怎么办?附详细COM端口排查方法

QFIL线刷救砖实战指南:EDL模式切换失败的系统级解决方案 当你面对安卓设备变砖的紧急状况,线刷往往是最后的救命稻草。但就在这关键时刻,"Download Fail:Switch To EDL Fail"的红色报错突然弹出,那种从希望到绝望的落差…...

计算机毕业设计:Python出行数据智能分析与预测平台 Django框架 可视化 数据分析 PyEcharts 交通 深度学习(建议收藏)✅

博主介绍:✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久,选择我们就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与…...

微信聊天记录数据自救指南:WeChatMsg完全解决方案

微信聊天记录数据自救指南:WeChatMsg完全解决方案 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMsg…...

深入STM32F407的UART Bootloader:除了烧程序,你还能用它做什么?

深入STM32F407的UART Bootloader:解锁系统级设计的五大高阶应用 当大多数开发者还在将UART Bootloader视为简单的固件烧录工具时,那些真正理解嵌入式系统设计精髓的工程师已经将其转化为产品全生命周期管理的核心组件。STM32F407芯片内置的Bootloader远…...

如何用Mac Mouse Fix终极提升你的Mac鼠标体验:完整配置指南

如何用Mac Mouse Fix终极提升你的Mac鼠标体验:完整配置指南 【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 还在为Mac上的鼠标体验感…...