当前位置: 首页 > article >正文

手把手教你用DrissionPage搭建个人新闻聚合器:自动抓取百度热搜并保存到Excel

用DrissionPage打造智能新闻聚合器从百度热搜抓取到Excel自动化分析每天手动刷新闻不仅耗时还容易错过重要信息。想象一下如果有个私人助手能自动收集全网热点整理成结构化的报告甚至生成直观的可视化图表——这就是我们今天要构建的智能新闻聚合器。不同于简单的文本抓取我们将使用Python生态中的轻量级工具DrissionPage结合pandas和matplotlib打造一个从数据采集、清洗到分析的全流程解决方案。1. 环境配置与基础工具链搭建工欲善其事必先利其器。在开始自动化之旅前我们需要配置一个稳定高效的开发环境。这里推荐使用Python 3.8版本它能完美兼容我们将要用到的所有库。首先创建并激活虚拟环境这是避免依赖冲突的最佳实践python -m venv news_venv source news_venv/bin/activate # Linux/Mac news_venv\Scripts\activate # Windows接下来安装核心工具包pip install DrissionPage pandas openpyxl matplotlib wordcloud为什么选择这些工具DrissionPage相比传统Selenium更轻量且对中文文档友好pandas是数据处理的事实标准openpyxl用于Excel操作matplotlib和wordcloud则负责可视化呈现。验证安装是否成功from DrissionPage import ChromiumPage import pandas as pd print(所有依赖库已就绪)如果系统提示缺少Chromium浏览器DrissionPage会自动下载所需版本你也可以通过以下命令指定Chromium路径page ChromiumPage(browser_path/path/to/chromium)2. 网页自动化核心技巧高效抓取百度热搜百度热搜是了解当下热点的重要窗口但其DOM结构经常变动需要动态适应。我们先分析2023年新版百度首页的热搜区域结构。典型的热搜条目XPath路径如下//*[idhotsearch-content-wrapper]/li[1]/a/span[2]但更稳健的做法是使用相对路径和属性组合定位hot_items page.eles(xpath://li[contains(class, hotsearch-item)]) for item in hot_items: title item.ele(tag:spanclasstitle-content-title).text heat item.ele(tag:spanclasstitle-content-hot).text print(f{title}: {heat})反爬策略应对方案随机延时import random; time.sleep(random.uniform(1, 3))请求头伪装page.set.header({User-Agent: Mozilla/5.0})IP轮换结合代理池使用需自行实现将抓取逻辑封装成函数def fetch_baidu_hotsearch(page): page.get(https://www.baidu.com) hot_data [] items page.eles(xpath://li[contains(class, hotsearch-item)])[:10] for idx, item in enumerate(items, 1): hot_data.append({ rank: idx, title: item.ele(tag:spanclasstitle-content-title).text, heat: int(item.ele(tag:spanclasstitle-content-hot).text[:-1]), timestamp: pd.Timestamp.now() }) return hot_data3. 多源新闻聚合与数据标准化处理单一来源可能产生信息偏差我们需要扩展数据采集范围。以下是主流新闻平台的特征分析平台名称热点区域XPath特征反爬强度数据质量百度热搜class包含hotsearch-item中等实时性强微博热搜class包含Texta严格娱乐倾向知乎热榜data-za-detail-view-element_name宽松深度内容今日头条xpath://div[classtitle-box]严格综合资讯构建统一采集管道def fetch_multisource_news(): sources { weibo: fetch_weibo_hot, zhihu: fetch_zhihu_hot, toutiao: fetch_toutiao_news } all_data [] with ChromiumPage() as page: for name, fetcher in sources.items(): try: all_data.extend(fetcher(page)) time.sleep(2) except Exception as e: print(f{name}采集失败: {str(e)}) return pd.DataFrame(all_data)数据清洗关键步骤去重df.drop_duplicates(subset[title], keepfirst)缺失值处理df[heat].fillna(0, inplaceTrue)格式统一df[timestamp] pd.to_datetime(df[timestamp])文本清洗import re df[title] df[title].apply(lambda x: re.sub(r\s, , x).strip())4. 高级存储与可视化从Excel到词云结构化存储是数据分析的基础。我们使用pandas的ExcelWriter实现多sheet存储def save_to_excel(df, filename): with pd.ExcelWriter(filename, engineopenpyxl) as writer: # 原始数据表 df.to_excel(writer, sheet_nameRawData, indexFalse) # 聚合分析表 summary df.groupby(source)[heat].agg([mean, count]) summary.to_excel(writer, sheet_nameSummary) # 添加数据透视表 pivot df.pivot_table(indexsource, columnsdf[timestamp].dt.hour, valuesheat, aggfuncmean) pivot.to_excel(writer, sheet_nameHourlyTrend)生成专业级词云的完整代码from wordcloud import WordCloud import matplotlib.pyplot as plt def generate_wordcloud(texts): wc WordCloud( font_pathSimHei.ttf, width800, height600, background_colorwhite, collocationsFalse ) word_freq pd.Series( .join(texts).split()).value_counts() wc.generate_from_frequencies(word_freq) plt.figure(figsize(12, 8)) plt.imshow(wc, interpolationbilinear) plt.axis(off) plt.savefig(hotword_cloud.png, dpi300, bbox_inchestight)更进阶的时间序列分析def plot_trend(df): plt.style.use(seaborn) fig, ax plt.subplots(figsize(12, 6)) for source in df[source].unique(): subset df[df[source] source] subset.set_index(timestamp)[heat].plot(axax, labelsource) ax.set_title(热搜热度趋势对比) ax.set_ylabel(热度指数) ax.legend() fig.savefig(trend_comparison.png)5. 项目优化与生产级部署基础功能实现后我们需要考虑系统的健壮性和可维护性。以下是几个关键优化方向错误处理机制增强class NewsFetcher: def __init__(self): self.retry_limit 3 self.timeout 30 def safe_fetch(self, url): for attempt in range(self.retry_limit): try: page.get(url, timeoutself.timeout) return True except TimeoutError: print(f尝试 {attempt 1} 次超时) time.sleep(5) return False配置化管理 创建config.yaml文件sources: baidu: url: https://www.baidu.com xpath: //li[contains(class, hotsearch-item)] weibo: url: https://s.weibo.com/top/summary xpath: //td[classtd-02]定时任务集成 使用APScheduler创建后台任务from apscheduler.schedulers.blocking import BlockingScheduler sched BlockingScheduler() sched.scheduled_job(cron, hour8,12,18, minute30) def scheduled_job(): df fetch_multisource_news() save_to_excel(df, fnews_{datetime.now().strftime(%Y%m%d)}.xlsx) sched.start()日志记录系统import logging logging.basicConfig( filenamenews_collector.log, levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s ) try: main_process() except Exception as e: logging.error(f采集任务失败: {str(e)}, exc_infoTrue)6. 扩展应用场景与商业价值挖掘这个新闻聚合器的潜力远不止个人使用。以下是几个高价值扩展方向企业舆情监控系统添加关键词告警机制情感分析集成使用SnowNLP或BERT竞品动态追踪from snownlp import SnowNLP def analyze_sentiment(title): s SnowNLP(title) return s.sentiments # 返回0-1之间的情感分值自媒体内容助手热点话题自动发现爆款标题生成内容相似度检测数据产品开发生成每日热点简报PDF开发REST API供内部调用构建可视化Dashboardfrom flask import Flask, jsonify app Flask(__name__) app.route(/api/hotnews) def get_hotnews(): data fetch_multisource_news() return jsonify(data.to_dict(orientrecords))实际部署时可以考虑使用Docker容器化FROM python:3.9 WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt COPY . . CMD [python, scheduler.py]我在实际项目中发现这套系统最耗时的部分其实是反爬对抗。一个实用的技巧是维护多个用户代理轮换列表并动态调整请求频率。另一个坑是Chromium的内存泄漏问题建议定期重启浏览器实例或者使用无头模式减少资源消耗。

相关文章:

手把手教你用DrissionPage搭建个人新闻聚合器:自动抓取百度热搜并保存到Excel

用DrissionPage打造智能新闻聚合器:从百度热搜抓取到Excel自动化分析 每天手动刷新闻不仅耗时,还容易错过重要信息。想象一下,如果有个私人助手能自动收集全网热点,整理成结构化的报告,甚至生成直观的可视化图表——这…...

Python 正则表达式详解:从原理到实践

Python 正则表达式详解:从原理到实践 1. 背景与动机 正则表达式(Regular Expression)是一种用于匹配字符串中字符组合的模式,它在文本处理、数据提取、验证等场景中发挥着重要作用。Python 的 re 模块提供了对正则表达式的支持&am…...

Minecraft 1.12.2 彩色渐变字体模组:打造个性化聊天与物品命名

1. RGB Chat模组:让你的Minecraft文字绚丽多彩 还在用单调的白色文字聊天吗?RGB Chat模组彻底改变了Minecraft 1.12.2版本的文字显示方式。这个轻量级模组只有几百KB大小,却能给你的游戏体验带来质的飞跃。我第一次在服务器里看到彩色渐变文字…...

Vue3+Cesium实战:解决404报错与Webpack配置优化指南

1. 为什么你的Cesium地图总是加载失败? 第一次在Vue3项目里集成Cesium时,我也被那些莫名其妙的404报错搞得焦头烂额。明明按照文档配置了,地图就是不显示,控制台一片红。后来才发现,90%的问题都出在资源路径配置上。 C…...

Python箱线图实战:从原理到自定义异常值边界

1. 箱线图的核心原理与构成要素 箱线图(Box Plot)是数据分析中最实用的可视化工具之一,它用五个关键数值概括一组数据的分布特征。很多初学者容易把箱线图的上下边缘误解为数据集的最大最小值,这其实是个常见误区。让我用一个实际…...

深度学习模型可解释性详解:从原理到实践

深度学习模型可解释性详解:从原理到实践 1. 背景与动机 随着深度学习模型在各个领域的广泛应用,模型的可解释性变得越来越重要。深度学习模型通常被视为"黑盒",其内部决策过程难以理解,这在医疗、金融、法律等关键领域应…...

GitLab中文版在Windows Docker部署后,解决‘git clone’和‘git push’失败的几个关键检查点

GitLab中文版Windows Docker部署后git clone和git push故障排查指南 当你终于完成了GitLab中文版在Windows Docker上的部署,准备大展拳脚时,却发现git clone和git push命令频频报错,这种挫败感我深有体会。本文将带你系统排查四个关键环节&am…...

别只改.prettierrc了!从Git配置到CI/CD,一劳永逸解决团队换行符冲突

从Git配置到CI/CD:彻底解决团队协作中的换行符冲突 跨平台协作开发时,换行符问题就像鞋里的一粒沙子——看似微不足道,却能让整个团队步履维艰。当Windows的CRLF遇上Unix的LF,不仅会导致Prettier报出恼人的Delete ␍错误&#xff…...

OpenWrt SDK实战:如何用SDK高效开发自定义驱动和应用

OpenWrt SDK实战:如何用SDK高效开发自定义驱动和应用 在嵌入式开发领域,OpenWrt因其高度模块化和可定制性成为路由器及物联网设备的首选操作系统。但对于需要频繁修改驱动或开发定制应用的工程师来说,每次完整编译整个系统不仅耗时耗力&#…...

嵌入式开发五大常见Bug解析与解决方案

1. 嵌入式开发中的五大常见Bug根源解析在嵌入式系统开发领域,代码质量直接关系到产品的可靠性和稳定性。作为一名经历过多个嵌入式项目的开发者,我深刻体会到某些类型的bug特别顽固且难以排查。这些bug往往在实验室测试中难以复现,却在现场运…...

Ubuntu系统通过命令行与GUI配置以太网固定IPv4地址全指南

1. 为什么需要固定IP地址? 在日常使用Ubuntu系统时,大多数情况下我们都会选择自动获取IP地址(DHCP)。这种方式简单方便,特别适合家庭网络环境。但如果你正在搭建服务器、进行网络调试,或者需要远程访问这台…...

用Python+Matplotlib动手验证:标准DH和改进DH建模同一机械臂,结果真的相同吗?

PythonMatplotlib实战:标准DH与改进DH建模机械臂的等价性验证 机械臂运动学建模是机器人学中的基础课题,而Denavit-Hartenberg(DH)参数法则是其中最经典的建模方法之一。标准DH(sDH)与改进DH(mD…...

MoveIt2的KDL插件不好用?手把手教你自定义关节权重,优化机械臂运动优先级

MoveIt2关节权重调优实战:如何让冗余机械臂按你的想法运动 当机械臂的第七个关节开始不受控制地乱转,而前三个关节却几乎不动时,大多数工程师的第一反应是"这IK算法有问题"。但真相往往是:算法没问题,只是它…...

告别校园网登录页!实测用UDP 53端口“曲线救国”上网的几种姿势与风险提示

校园网络优化:提升连接效率的合法实践指南 校园网络作为师生日常学习研究的重要基础设施,其稳定性和访问效率直接影响教学科研质量。许多用户在使用过程中会遇到认证页面频繁弹出、连接不稳定等问题,这通常与网络架构设计和流量管理策略有关。…...

别再硬调PI参数了!手把手教你用MATLAB/Simulink搞定PMSM FOC电流环整定(附模型下载)

永磁同步电机FOC控制:从电流环整定到系统优化的工程实践 永磁同步电机(PMSM)因其高效率、高功率密度和优异的动态性能,在工业驱动、电动汽车和航空航天等领域得到广泛应用。而磁场定向控制(FOC)作为PMSM的主…...

深入解析MMU:从虚拟地址到物理地址的转换机制

1. 为什么需要虚拟地址? 想象一下你正在玩一个大型多人在线游戏,游戏里每个玩家都有自己的房子、装备和任务进度。如果所有玩家的数据都混在一起存放,你的装备可能会被隔壁玩家不小心拿走,甚至整个游戏世界都会乱套。虚拟地址的出…...

命名实体识别工具:从技术突破到业务价值重构

命名实体识别工具:从技术突破到业务价值重构 【免费下载链接】W2NER 项目地址: https://gitcode.com/gh_mirrors/w2/W2NER 1 解锁NER效率新范式 传统NER为何在长文本中频频失效? 当面对医疗病例中"高血压引发的左心室肥厚导致劳力性呼吸困…...

AUTOSAR SPI配置进阶:如何为你的车载传感器设计高效可靠的通信序列?

AUTOSAR SPI配置进阶:车载传感器通信序列设计实战指南 在智能驾驶系统开发中,SPI总线作为连接毫米波雷达、IMU等关键传感器的神经末梢,其通信效率直接影响着环境感知的实时性。传统配置手册往往止步于基础参数说明,而本文将带您深…...

避坑指南:从零搭建Anaconda+CUDA+PyTorch+Pycharm深度学习环境

1. 深度学习环境配置全景图 刚接触深度学习的新手往往会在环境配置这一步卡住好几天。我见过太多人在Anaconda、CUDA、PyTorch的版本兼容性问题上来回折腾,最后连代码都没开始写就放弃了。其实只要理解这四个核心组件的关系,配置过程就会变得清晰很多。 …...

Smelpro Macaron多模无线开发板技术解析

1. Smelpro Macaron 开发板深度技术解析Smelpro Macaron 是一款面向物联网(IoT)边缘节点设计的高性能多模无线开发平台。其核心价值在于将 ESP32-S3 的强大处理能力与 RAK3172 多协议射频模块深度融合,构建出一个可同时覆盖 LoRaWAN、Sigfox、…...

创新音乐体验:foobox-cn全攻略

创新音乐体验:foobox-cn全攻略 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 在数字音乐时代,如何将本地播放器与网络电台无缝融合,打造个性化的音乐中心&#xf…...

ngx_http_join_exact_locations

1 定义 ngx_http_join_exact_locations 函数 定义在 ./nginx-1.24.0/src/http/ngx_http.cstatic ngx_int_t ngx_http_join_exact_locations(ngx_conf_t *cf, ngx_queue_t *locations) {ngx_queue_t *q, *x;ngx_http_location_queue_t *lq, *lx;q ngx_queue_he…...

从HTTP到字节流:ESP32与App Inventor通信协议的效率优化实践

1. 为什么需要优化ESP32与App Inventor的通信协议? 当你用ESP32和App Inventor做一个遥控小车时,最让人抓狂的就是按下按钮后小车要等半秒才有反应。这种延迟问题在HTTPJSON通信方案中非常典型。我去年做过一个智能家居控制系统,最初用的就是…...

GLM-4-9B-Chat-1M惊艳效果:复杂SQL代码库跨文件依赖关系可视化

GLM-4-9B-Chat-1M惊艳效果:复杂SQL代码库跨文件依赖关系可视化 1. 项目背景与核心价值 当你面对一个包含数百个SQL文件的大型数据仓库项目时,最头疼的问题是什么?我相信很多开发者和数据工程师都会说:理不清的表依赖关系。 传统…...

双向无线功率传输系统模型附Simulink仿真

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码及仿真咨询…...

ngx_http_init_static_location_trees

1 定义 ngx_http_init_static_location_trees 函数 定义在 ./nginx-1.24.0/src/http/ngx_http.cstatic ngx_int_t ngx_http_init_static_location_trees(ngx_conf_t *cf,ngx_http_core_loc_conf_t *pclcf) {ngx_queue_t *q, *locations;ngx_http_core_loc_conf_…...

3种颠覆式方案:让IDM突破限制的秘密

3种颠覆式方案:让IDM突破限制的秘密 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 作为技术侦探,我们经常遇到用户反馈IDM试用到期的困扰…...

从理论到实践:LSTM与Qwen1.5-1.8B GPTQ在时序预测任务中的对比

从理论到实践:LSTM与Qwen1.5-1.8B GPTQ在时序预测任务中的对比 最近在折腾时间序列预测,发现一个挺有意思的现象。大家一提到时序预测,脑子里蹦出来的第一个词可能就是LSTM,这几乎成了这个领域的“标配”。但另一边,以…...

第三章、CLion+GCC+OpenOCD构建STM32标准库开发环境:从零到调试的完整实践

1. 环境准备与工具链安装 搭建STM32标准库开发环境的第一步,就是准备好所有必要的工具。这里我们需要三个核心组件:CLion作为集成开发环境、arm-none-eabi-gcc作为编译器、OpenOCD作为调试器。这三个工具的组合,可以让我们在Windows平台上获得…...

向量化计算失效的7大隐性陷阱,深度解析HotSpot向量编译器决策逻辑

第一章:向量化计算失效的7大隐性陷阱,深度解析HotSpot向量编译器决策逻辑HotSpot JVM 的向量化编译(Vector API 编译支持与循环自动向量化)并非在所有场景下都能生效。其背后由C2编译器的向量化决策引擎驱动,该引擎基于…...