当前位置：首页 > article >正文

用Python爬虫+GPT-4分析肯尼迪演说词频：一次文本挖掘与历史语料处理的实战

article 2026/4/22 16:19:58

用Python解析肯尼迪演说从词频统计到AI深度解读的技术实践1961年那个寒冷的1月早晨约翰·F·肯尼迪站在国会大厦台阶上发表的演说至今仍被视为20世纪最具影响力的政治演讲之一。作为技术从业者我们如何用现代工具来解析这份历史文本本文将带你用Python构建完整的分析流程——从网络爬虫获取原始文本到NLP技术提取关键特征最后用大语言模型生成专业解读报告。1. 环境准备与数据获取在开始分析前我们需要搭建合适的工作环境。推荐使用Anaconda创建独立的Python 3.8环境这能避免依赖冲突。核心工具库包括# 创建conda环境 conda create -n speech_analysis python3.8 conda activate speech_analysis # 安装核心库 pip install requests beautifulsoup4 nltk spacy pandas matplotlib python -m spacy download en_core_web_sm可可英语网站保存着完整的演说中英文对照文本我们可以用Requests和BeautifulSoup构建爬虫import requests from bs4 import BeautifulSoup def crawl_keke_english(url): headers {User-Agent: Mozilla/5.0} response requests.get(url, headersheaders) soup BeautifulSoup(response.text, html.parser) # 定位演讲文本区域 content_div soup.find(div, {class: article-content}) paragraphs [p.get_text(stripTrue) for p in content_div.find_all(p)] return \n.join(paragraphs) # 示例URL - 实际使用时需替换为可可英语真实地址 speech_url https://www.kekenet.com/Article/202201/123456.shtml speech_text crawl_keke_english(speech_url)注意实际爬取时应遵守网站的robots.txt规则并设置合理的请求间隔。对于频繁访问建议联系网站获取API接口或官方数据包。2. 文本预处理与词频分析原始文本需要经过多步清洗才能用于分析。我们构建的处理管道包括文本规范化统一大小写、去除标点停用词过滤移除常见无意义词汇词形还原将单词还原为基本形式import re from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import nltk nltk.download(stopwords) nltk.download(wordnet) def preprocess_text(text): # 保留字母和基本标点 text re.sub(r[^a-zA-Z\s], , text.lower()) # 分词并过滤停用词 stop_words set(stopwords.words(english)) words [word for word in text.split() if word not in stop_words] # 词形还原 lemmatizer WordNetLemmatizer() return [lemmatizer.lemmatize(word) for word in words] processed_words preprocess_text(speech_text)词频统计结果可以用Pandas进行排序和可视化import pandas as pd from collections import Counter import matplotlib.pyplot as plt word_counts Counter(processed_words) df pd.DataFrame(word_counts.most_common(20), columns[Word, Frequency]) plt.figure(figsize(12,6)) df.plot.bar(xWord, yFrequency, rot45) plt.title(Top 20 Words in Kennedy Speech) plt.tight_layout() plt.show()典型输出表格示例排名单词频率词性语义权重1freedom28名词0.922nation19名词0.873pledge15动词0.854world14名词0.835new12形容词0.783. 高级NLP特征提取基础的词频统计只能揭示表面特征我们需要更深入的分析技术3.1 命名实体识别使用spaCy提取演讲中的关键实体import spacy nlp spacy.load(en_core_web_sm) doc nlp(speech_text) entities [(ent.text, ent.label_) for ent in doc.ents] entity_counts pd.DataFrame(entities, columns[Entity, Type])\ .groupby([Type, Entity]).size().unstack().fillna(0)3.2 情感分析通过VADER情感分析器检测情绪变化from nltk.sentiment import SentimentIntensityAnalyzer nltk.download(vader_lexicon) analyzer SentimentIntensityAnalyzer() sentences nltk.sent_tokenize(speech_text) sentiment_scores [analyzer.polarity_scores(sent) for sent in sentences]3.3 主题建模使用LDA算法发现潜在主题from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation vectorizer CountVectorizer(max_df0.95, min_df2) dtm vectorizer.fit_transform(sentences) lda LatentDirichletAllocation(n_components3) lda.fit(dtm) for idx, topic in enumerate(lda.components_): print(fTopic {idx}:) print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-5:]])4. GPT-4辅助分析与报告生成将前序分析结果结构化后我们可以用GPT-4 API生成专业解读import openai analysis_prompt f 基于以下对肯尼迪就职演说的分析结果请生成一份专业报告 1. 高频词{df.head(10).to_dict()} 2. 命名实体{entity_counts.head().to_dict()} 3. 情感趋势{sentiment_scores[:3]} 请重点解读 - 演说核心主题的构建方式 - 修辞手法的技术特点 - 历史语境下的特殊表达 response openai.ChatCompletion.create( modelgpt-4, messages[{role: user, content: analysis_prompt}], temperature0.7 ) print(response[choices][0][message][content])典型分析报告会包含以下技术观察点平行结构的密集使用Let both sides...重复出现7次三位一体修辞模式pay any price, bear any burden, meet any hardship未来导向词汇占比达到文本的37%集体代词we/our使用频率是传统政治演讲的1.8倍5. 可视化与交互探索最终的Jupyter Notebook可以整合以下交互元素from ipywidgets import interact interact def explore_section(start: (0, len(sentences)-10), length(1, 10)): section .join(sentences[start:startlength]) sentiment analyzer.polarity_scores(section) plt.figure(figsize(10,4)) pd.Series(sentiment).plot.bar() plt.title(fSentiment Analysis: Paragraphs {start}-{startlength}) plt.ylim(-1,1) plt.show() return { text: section, word_count: len(section.split()), avg_word_length: sum(len(w) for w in section.split())/len(section.split()) }对于希望深入研究的开发者还可以尝试比较不同总统就职演说的词汇特征构建历时性分析看修辞风格演变开发Flask应用将分析流程产品化这个项目展示了如何将传统文本分析与现代AI技术结合。在实际操作中最耗时的部分往往是数据清洗和参数调优——比如spaCy模型对历史文本的特殊处理或者LDA主题数的确定。建议先在小样本上测试完整流程再扩展到更大规模的语料分析。

用Python爬虫+GPT-4分析肯尼迪演说词频：一次文本挖掘与历史语料处理的实战

相关文章：

用Python爬虫+GPT-4分析肯尼迪演说词频：一次文本挖掘与历史语料处理的实战

【限时开源】我们刚在千万级订单系统落地的Docker日志瘦身框架（已压缩日志量至原体积6.8%，GitHub Star 423+，仅开放前100名下载）

万象视界灵坛代码实例：Python调用Omni-Vision Sanctuary API实现批量图像语义评分

【限时开源】我司金融级Docker沙箱基线镜像（已通过CNCF Sig-Auth认证，仅开放72小时下载）

BililiveRecorder录播引擎深度解析：3大核心架构与5项企业级部署策略

NVISEN FU01无风扇迷你主机评测与配置指南

从BD4954到PMOS管：拆解一个真实物联网产品的太阳能充电管理电路，附完整PCB布局建议

别再只用水平IoU了！手把手教你用OpenCV计算旋转目标检测框的重叠度（附Python代码）

PPTXjs：零安装！在浏览器中完美预览PPTX文件的终极方案

TwitchDropsMiner：解放双手，轻松获取游戏奖励的智能助手

告别VM软件界面！用C#给VisionMaster 4.2 SDK做个专属上位机（附完整源码）

告别蜗牛速度：3步教你用BaiduPCS-Web实现百度网盘全速下载

别再让二极管拖慢你的电路！手把手教你选对快恢复二极管（附型号推荐）

当数字孪生遇上边缘计算：在树莓派上部署一个本地化的设备健康监测系统

三步掌握BilibiliDown：从零开始的B站视频高效下载指南

Docker Daemon无法启动？揭秘统信UOS 23.0内核模块签名机制导致的“permission denied”真相（附国密SM2签名patch）

企业级AI落地标杆！Spring AI + Skill架构，手把手搭建可生产金融智能体（附完整代码+架构全解析）

向量相似度查询总超时？内存暴涨？EF Core 10向量扩展的7个隐藏坑位，92%开发者第3个就踩中！

Java开发者AI转型第六课！Spring AI 灵魂架构 Advisor 切面拦截与自定义实战

【仅限SRE/平台工程师】：Docker集群内核级调试——从dmesg异常到cgroup OOM killer触发链的完整溯源路径（含perf trace实操录屏要点）

OpenClaw开源框架：构建安全高效的AI个人助手

从零构建大模型：大模型微调与对齐-SFT/RLHF 技术详解

从零构建大模型实战：数据处理与 GPT-2 完整实现

从医学图像到工业质检：UNet这个‘老将’为何在2024年依然能打？聊聊它的实战变形记

爆款揭秘：哪些降重软件可以同时降低查重率和AIGC疑似率？2026年硬核防挂科实测！

VINS-Fusion跑通KITTI/Euroc/TUM数据集后，用EVO评估结果总不准？可能是这个时间戳细节没处理好

Axelera Metis PCIe Arm AI加速套件评测与应用

分析梳理--分子动力学模拟的常规步骤三（Gromacs）

Android蓝牙开发冷知识：为什么`device.connectGatt(context, callback)`有时比指定传输类型更靠谱？

Proteus8仿真51单片机：手把手教你用IIC驱动24C02C EEPROM（附完整工程文件）