当前位置: 首页 > article >正文

用Python爬虫+GPT-4分析肯尼迪演说词频:一次文本挖掘与历史语料处理的实战

用Python解析肯尼迪演说从词频统计到AI深度解读的技术实践1961年那个寒冷的1月早晨约翰·F·肯尼迪站在国会大厦台阶上发表的演说至今仍被视为20世纪最具影响力的政治演讲之一。作为技术从业者我们如何用现代工具来解析这份历史文本本文将带你用Python构建完整的分析流程——从网络爬虫获取原始文本到NLP技术提取关键特征最后用大语言模型生成专业解读报告。1. 环境准备与数据获取在开始分析前我们需要搭建合适的工作环境。推荐使用Anaconda创建独立的Python 3.8环境这能避免依赖冲突。核心工具库包括# 创建conda环境 conda create -n speech_analysis python3.8 conda activate speech_analysis # 安装核心库 pip install requests beautifulsoup4 nltk spacy pandas matplotlib python -m spacy download en_core_web_sm可可英语网站保存着完整的演说中英文对照文本我们可以用Requests和BeautifulSoup构建爬虫import requests from bs4 import BeautifulSoup def crawl_keke_english(url): headers {User-Agent: Mozilla/5.0} response requests.get(url, headersheaders) soup BeautifulSoup(response.text, html.parser) # 定位演讲文本区域 content_div soup.find(div, {class: article-content}) paragraphs [p.get_text(stripTrue) for p in content_div.find_all(p)] return \n.join(paragraphs) # 示例URL - 实际使用时需替换为可可英语真实地址 speech_url https://www.kekenet.com/Article/202201/123456.shtml speech_text crawl_keke_english(speech_url)注意实际爬取时应遵守网站的robots.txt规则并设置合理的请求间隔。对于频繁访问建议联系网站获取API接口或官方数据包。2. 文本预处理与词频分析原始文本需要经过多步清洗才能用于分析。我们构建的处理管道包括文本规范化统一大小写、去除标点停用词过滤移除常见无意义词汇词形还原将单词还原为基本形式import re from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import nltk nltk.download(stopwords) nltk.download(wordnet) def preprocess_text(text): # 保留字母和基本标点 text re.sub(r[^a-zA-Z\s], , text.lower()) # 分词并过滤停用词 stop_words set(stopwords.words(english)) words [word for word in text.split() if word not in stop_words] # 词形还原 lemmatizer WordNetLemmatizer() return [lemmatizer.lemmatize(word) for word in words] processed_words preprocess_text(speech_text)词频统计结果可以用Pandas进行排序和可视化import pandas as pd from collections import Counter import matplotlib.pyplot as plt word_counts Counter(processed_words) df pd.DataFrame(word_counts.most_common(20), columns[Word, Frequency]) plt.figure(figsize(12,6)) df.plot.bar(xWord, yFrequency, rot45) plt.title(Top 20 Words in Kennedy Speech) plt.tight_layout() plt.show()典型输出表格示例排名单词频率词性语义权重1freedom28名词0.922nation19名词0.873pledge15动词0.854world14名词0.835new12形容词0.783. 高级NLP特征提取基础的词频统计只能揭示表面特征我们需要更深入的分析技术3.1 命名实体识别使用spaCy提取演讲中的关键实体import spacy nlp spacy.load(en_core_web_sm) doc nlp(speech_text) entities [(ent.text, ent.label_) for ent in doc.ents] entity_counts pd.DataFrame(entities, columns[Entity, Type])\ .groupby([Type, Entity]).size().unstack().fillna(0)3.2 情感分析通过VADER情感分析器检测情绪变化from nltk.sentiment import SentimentIntensityAnalyzer nltk.download(vader_lexicon) analyzer SentimentIntensityAnalyzer() sentences nltk.sent_tokenize(speech_text) sentiment_scores [analyzer.polarity_scores(sent) for sent in sentences]3.3 主题建模使用LDA算法发现潜在主题from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation vectorizer CountVectorizer(max_df0.95, min_df2) dtm vectorizer.fit_transform(sentences) lda LatentDirichletAllocation(n_components3) lda.fit(dtm) for idx, topic in enumerate(lda.components_): print(fTopic {idx}:) print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-5:]])4. GPT-4辅助分析与报告生成将前序分析结果结构化后我们可以用GPT-4 API生成专业解读import openai analysis_prompt f 基于以下对肯尼迪就职演说的分析结果请生成一份专业报告 1. 高频词{df.head(10).to_dict()} 2. 命名实体{entity_counts.head().to_dict()} 3. 情感趋势{sentiment_scores[:3]} 请重点解读 - 演说核心主题的构建方式 - 修辞手法的技术特点 - 历史语境下的特殊表达 response openai.ChatCompletion.create( modelgpt-4, messages[{role: user, content: analysis_prompt}], temperature0.7 ) print(response[choices][0][message][content])典型分析报告会包含以下技术观察点平行结构的密集使用Let both sides...重复出现7次三位一体修辞模式pay any price, bear any burden, meet any hardship未来导向词汇占比达到文本的37%集体代词we/our使用频率是传统政治演讲的1.8倍5. 可视化与交互探索最终的Jupyter Notebook可以整合以下交互元素from ipywidgets import interact interact def explore_section(start: (0, len(sentences)-10), length(1, 10)): section .join(sentences[start:startlength]) sentiment analyzer.polarity_scores(section) plt.figure(figsize(10,4)) pd.Series(sentiment).plot.bar() plt.title(fSentiment Analysis: Paragraphs {start}-{startlength}) plt.ylim(-1,1) plt.show() return { text: section, word_count: len(section.split()), avg_word_length: sum(len(w) for w in section.split())/len(section.split()) }对于希望深入研究的开发者还可以尝试比较不同总统就职演说的词汇特征构建历时性分析看修辞风格演变开发Flask应用将分析流程产品化这个项目展示了如何将传统文本分析与现代AI技术结合。在实际操作中最耗时的部分往往是数据清洗和参数调优——比如spaCy模型对历史文本的特殊处理或者LDA主题数的确定。建议先在小样本上测试完整流程再扩展到更大规模的语料分析。

相关文章:

用Python爬虫+GPT-4分析肯尼迪演说词频:一次文本挖掘与历史语料处理的实战

用Python解析肯尼迪演说:从词频统计到AI深度解读的技术实践 1961年那个寒冷的1月早晨,约翰F肯尼迪站在国会大厦台阶上发表的演说,至今仍被视为20世纪最具影响力的政治演讲之一。作为技术从业者,我们如何用现代工具来解析这份历史文…...

【限时开源】我们刚在千万级订单系统落地的Docker日志瘦身框架(已压缩日志量至原体积6.8%,GitHub Star 423+,仅开放前100名下载)

第一章:Docker日志优化的行业痛点与落地价值在微服务与云原生大规模落地的今天,Docker容器日志已成为可观测性体系中最基础却最易被忽视的一环。大量企业面临日志爆炸式增长、磁盘空间不可控、检索效率低下、多容器日志混杂难溯源等共性挑战,…...

万象视界灵坛代码实例:Python调用Omni-Vision Sanctuary API实现批量图像语义评分

万象视界灵坛代码实例:Python调用Omni-Vision Sanctuary API实现批量图像语义评分 1. 平台概览与技术背景 万象视界灵坛(Omni-Vision Sanctuary)是一款基于OpenAI CLIP模型的高级多模态智能感知平台。它通过创新的像素风格界面,…...

【限时开源】我司金融级Docker沙箱基线镜像(已通过CNCF Sig-Auth认证,仅开放72小时下载)

第一章:Docker沙箱的核心价值与金融级安全边界在金融行业,容器化运行环境不仅需满足常规隔离性要求,更须承载交易系统、风控引擎与客户数据处理等高敏场景的强合规约束。Docker沙箱通过内核命名空间(Namespaces)、控制…...

BililiveRecorder录播引擎深度解析:3大核心架构与5项企业级部署策略

BililiveRecorder录播引擎深度解析:3大核心架构与5项企业级部署策略 【免费下载链接】BililiveRecorder 录播姬 | mikufans 生放送录制 项目地址: https://gitcode.com/gh_mirrors/bi/BililiveRecorder BililiveRecorder作为一款专注于B站直播录制的开源工具…...

NVISEN FU01无风扇迷你主机评测与配置指南

1. NVISEN FU01 无风扇迷你主机深度解析这款搭载英特尔Tiger Lake处理器的无风扇迷你电脑,完美诠释了"小而强大"的设计理念。作为一款主打静音和高效能的迷你主机,NVISEN FU01特别适合需要安静工作环境的用户,比如录音室、医疗影像…...

从BD4954到PMOS管:拆解一个真实物联网产品的太阳能充电管理电路,附完整PCB布局建议

从BD4954到PMOS管:拆解一个真实物联网产品的太阳能充电管理电路,附完整PCB布局建议 在低功耗物联网设备的设计中,电源管理系统的可靠性往往决定了产品的成败。我曾参与开发一款户外环境监测终端,设备需要在零下20℃至60℃的温度范…...

别再只用水平IoU了!手把手教你用OpenCV计算旋转目标检测框的重叠度(附Python代码)

突破水平检测局限:OpenCV旋转框IoU计算实战指南 在遥感图像分析、自动驾驶感知和文档识别等场景中,目标物体往往呈现任意角度的旋转状态。传统水平检测框的IoU计算方法在这些场景下会严重高估检测质量——比如两个完全错位的长条形物体,仅因外…...

PPTXjs:零安装!在浏览器中完美预览PPTX文件的终极方案

PPTXjs:零安装!在浏览器中完美预览PPTX文件的终极方案 【免费下载链接】PPTXjs jquery plugin for convertation pptx to html 项目地址: https://gitcode.com/gh_mirrors/pp/PPTXjs 还在为无法在线查看PPTX文件而烦恼吗?PPTXjs为你带…...

TwitchDropsMiner:解放双手,轻松获取游戏奖励的智能助手

TwitchDropsMiner:解放双手,轻松获取游戏奖励的智能助手 【免费下载链接】TwitchDropsMiner An app that allows you to AFK mine timed Twitch drops, with automatic drop claiming and channel switching. 项目地址: https://gitcode.com/GitHub_Tr…...

告别VM软件界面!用C#给VisionMaster 4.2 SDK做个专属上位机(附完整源码)

用C#打造VisionMaster 4.2工业视觉定制化上位机实战指南 在工业自动化领域,标准化的视觉处理软件往往难以完全匹配特定产线的操作流程和界面需求。VisionMaster作为业内知名的机器视觉算法平台,其SDK为开发者提供了强大的二次开发能力。本文将带您从零开…...

告别蜗牛速度:3步教你用BaiduPCS-Web实现百度网盘全速下载

告别蜗牛速度:3步教你用BaiduPCS-Web实现百度网盘全速下载 【免费下载链接】baidupcs-web 项目地址: https://gitcode.com/gh_mirrors/ba/baidupcs-web 还在为百度网盘几十KB/s的下载速度而烦恼吗?BaiduPCS-Web是一款基于Go语言开发的开源百度网…...

别再让二极管拖慢你的电路!手把手教你选对快恢复二极管(附型号推荐)

高频电路设计中的二极管选型实战指南:从反向恢复时间到效率优化 在开关电源和电机驱动电路的设计中,工程师们常常会遇到一个令人头疼的问题——明明精心计算了所有参数,电路效率却始终达不到预期。你可能已经优化了MOSFET的驱动、精心设计了P…...

当数字孪生遇上边缘计算:在树莓派上部署一个本地化的设备健康监测系统

边缘数字孪生实战:在树莓派构建轻量化设备健康监测系统 当工业4.0的浪潮席卷全球,数字孪生技术正从云端走向边缘。想象一下:一台老旧的机床突然发出异常振动,而安装在控制柜里的树莓派立即发出预警,避免了价值数十万的…...

三步掌握BilibiliDown:从零开始的B站视频高效下载指南

三步掌握BilibiliDown:从零开始的B站视频高效下载指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/b…...

Docker Daemon无法启动?揭秘统信UOS 23.0内核模块签名机制导致的“permission denied”真相(附国密SM2签名patch)

第一章:Docker 国产化适配的核心挑战与背景随着信创产业加速落地,Docker 作为主流容器运行时,在国产化替代进程中面临操作系统、芯片架构、安全合规与生态兼容等多维度适配压力。当前主流国产操作系统(如统信UOS、麒麟Kylin&#…...

企业级AI落地标杆!Spring AI + Skill架构,手把手搭建可生产金融智能体(附完整代码+架构全解析)

大家好,我是直奔標杆!专注于分享企业级AI落地实战经验,今天给大家带来一篇干货满满的实战教程——从0到1搭建基于JavaSpring AISkill架构的金融智能体,全程干货无废话,包含完整架构图、接口定义、核心代码、启动流程&a…...

向量相似度查询总超时?内存暴涨?EF Core 10向量扩展的7个隐藏坑位,92%开发者第3个就踩中!

第一章:EF Core 10向量扩展的底层架构与设计边界EF Core 10 引入的向量扩展并非简单叠加的 ORM 功能补丁,而是深度耦合于查询管道(Query Pipeline)与表达式树编译器的系统级增强。其核心依托于三个关键组件:向量表达式…...

Java开发者AI转型第六课!Spring AI 灵魂架构 Advisor 切面拦截与自定义实战

大家好,我是直奔標杆!欢迎各位Java同行来到《Spring AI 零基础到实战》专栏的第六课,咱们继续并肩前行,一起攻克Spring AI的核心知识点~在前五节课的学习中,咱们一步步让AI拥有了专属人设、实现了图片识别、…...

【仅限SRE/平台工程师】:Docker集群内核级调试——从dmesg异常到cgroup OOM killer触发链的完整溯源路径(含perf trace实操录屏要点)

第一章:Docker集群内核级调试——从dmesg异常到cgroup OOM killer触发链的完整溯源路径(含perf trace实操录屏要点)当Docker集群中突发容器静默退出且无应用层日志时,需立即切入内核视角定位根本原因。典型线索始于 dmesg -T | gr…...

OpenClaw开源框架:构建安全高效的AI个人助手

1. 项目概述:构建个人AI助手的必要性在数字化浪潮席卷各行各业的当下,拥有一个专属的AI助手正从科技爱好者的玩具转变为提升效率的刚需工具。OpenClaw作为新兴的开源框架,以其模块化设计和隐私保护特性,成为构建个人AI代理的理想选…...

从零构建大模型:大模型微调与对齐-SFT/RLHF 技术详解

前言大语言模型从通用预训练走向可用、好用的核心环节,是微调与对齐。预训练阶段让模型掌握语言规律与海量知识,但输出往往无序、不可控、不遵循指令;而以监督指令微调(SFT) 为起点、以人类反馈强化学习(RL…...

从零构建大模型实战:数据处理与 GPT-2 完整实现

前言大模型的核心能力源于高质量数据与高效模型架构。数据收集与预处理是大模型训练的基石,直接决定模型的泛化能力、知识覆盖度与生成质量;而基于 Transformer 解码器的 GPT 类模型,则是当前开源大模型的主流架构。本文从开源数据集处理、数…...

从医学图像到工业质检:UNet这个‘老将’为何在2024年依然能打?聊聊它的实战变形记

从医学图像到工业质检:UNet这个‘老将’为何在2024年依然能打?聊聊它的实战变形记 在深度学习模型日新月异的今天,Transformer和Diffusion模型占据了大量研究视线,但当我们把目光投向工业界实际应用场景——无论是PCB板上的微小缺…...

爆款揭秘:哪些降重软件可以同时降低查重率和AIGC疑似率?2026年硬核防挂科实测!

【CSDN博主后台急诊室】 “Neo哥!救急!我是信工系博三的,下周交审。我用普通降重软件过了一下我的实验前言和算法综述,结果传统查重过了,但学校新上的『大模型特征嗅探器』直接报了87%的AIGC疑似度!导师大发…...

VINS-Fusion跑通KITTI/Euroc/TUM数据集后,用EVO评估结果总不准?可能是这个时间戳细节没处理好

VINS-Fusion评估结果异常?时间戳精度可能是罪魁祸首 当你终于跑通了VINS-Fusion在KITTI、Euroc或TUM数据集上的流程,满怀期待地使用EVO工具评估结果时,却发现APE、RPE等指标与预期相差甚远——这种挫败感我深有体会。经过多次调试和对比实验&…...

Axelera Metis PCIe Arm AI加速套件评测与应用

1. Axelera Metis PCIe Arm AI评估套件深度解析 当我在2023年初首次听说Axelera推出Metis M.2 AI加速模块时,作为一个长期跟踪边缘AI技术的从业者,我对他们宣称的214 TOPS算力既感到兴奋又充满疑虑。如今他们正式发布了基于PCIe接口的完整评估套件&#…...

分析梳理--分子动力学模拟的常规步骤三(Gromacs)

作者,Evil Genius 今天我们继续分子动力学:平衡电荷。 前面的过程我们设置了溶剂盒子并添加溶剂,生成了solv.gro文件。 这个过程分两步走。 第一步:gmx grompp。 gmx grompp (the gromacs preprocessor)读取分子拓扑文件,检查文件的有效性,将拓扑从分子描述扩展为原子…...

Android蓝牙开发冷知识:为什么`device.connectGatt(context, callback)`有时比指定传输类型更靠谱?

Android蓝牙开发冷知识:为什么device.connectGatt(context, callback)有时比指定传输类型更靠谱? 在Android蓝牙开发中,BluetoothDevice.connectGatt()方法看似简单,实则暗藏玄机。许多开发者习惯性地认为,明确指定传输…...

Proteus8仿真51单片机:手把手教你用IIC驱动24C02C EEPROM(附完整工程文件)

Proteus8仿真51单片机:从零构建IIC驱动24C02C EEPROM的完整指南 第一次接触51单片机的IIC通信时,我盯着示波器上那些高低电平的波形看了整整一个下午。作为嵌入式开发中最常用的通信协议之一,IIC以其简洁的两线制(SCL时钟线和SDA数…...