当前位置：首页 > news >正文

使用Python爬虫实时监控行业新闻案例

news 2026/2/9 10:07:38

在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。

本文将通过一个案例，带你一步一步实现一个简单的Python爬虫，用于实时监控新闻网站的数据。

背景

在某些行业中，获取最新的新闻信息至关重要。通过定期抓取新闻网站的头条新闻，我们可以为用户提供行业热点的动态变化。本文的目标是创建一个爬虫，定期访问一个新闻网站，获取新闻的标题和链接，并打印出来。

环境准备

在开始编写代码之前，我们需要安装几个Python的第三方库：

requests：用于发送HTTP请求。
beautifulsoup4：用于解析网页HTML内容。
schedule：用于设置定时任务，使爬虫能够自动运行。

可以通过以下命令安装这些库：

pip install requests beautifulsoup4 schedule

请求网页数据

在爬取新闻之前，我们首先要获取目标网页的HTML内容。通过requests库可以方便地发送GET请求，并返回页面内容。以下是请求网页的代码：

import requests# 请求头配置
HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}# 爬虫请求函数
def fetch_news(url):try:print(f"Attempting to fetch: {url}")  # 调试信息response = requests.get(url, headers=HEADERS, timeout=10)print(f"Status code: {response.status_code}")  # 打印状态码if response.status_code == 200:return response.textelse:print(f"Failed to fetch {url}. Status code: {response.status_code}")return Noneexcept requests.exceptions.RequestException as e:print(f"Error fetching {url}: {e}")return None

HEADERS用于模拟浏览器访问，避免被网站屏蔽。
fetch_news函数发送GET请求并返回网页内容。如果请求成功，则返回HTML内容。

解析网页数据

一旦我们获取了网页的HTML内容，就需要解析这些内容，提取出我们关心的数据（例如新闻标题和链接）。这里我们使用beautifulsoup4来解析HTML并提取新闻数据。

from bs4 import BeautifulSoup# 解析Al Jazeera新闻页面
def parse_aljazeera_page(page_content):soup = BeautifulSoup(page_content, 'html.parser')news_items = []articles = soup.find_all('a', class_='u-clickable-card__link')print(f"Found {len(articles)} articles on Al Jazeera")for article in articles:title_tag = article.find('h3')if title_tag:title = title_tag.text.strip()link = article['href']if link.startswith('http'):news_items.append({'title': title,'link': link})else:# 如果链接是相对路径，拼接完整链接full_link = f"https://www.aljazeera.com{link}"news_items.append({'title': title,'link': full_link})return news_items

BeautifulSoup用于解析HTML内容。
parse_aljazeera_page函数从页面中找到所有新闻条目，并提取每个新闻的标题和链接。

定时任务

爬虫的核心功能是定期抓取新闻信息。为了实现这一点，我们可以使用schedule库来设置定时任务，定时运行爬虫。

import schedule
import time# 定时执行任务
def run_scheduler():# 每隔10分钟抓取一次新闻schedule.every(10).minutes.do(monitor_news)while True:print("Scheduler is running...")  # 调试信息schedule.run_pending()time.sleep(1)

我们使用schedule.every(10).minutes.do(monitor_news)设置每10分钟执行一次monitor_news函数，获取并输出新闻。

综合代码

将之前的部分代码整合在一起，并加入一个监控新闻的函数：

def monitor_news():url = 'https://www.aljazeera.com/'page_content = fetch_news(url)if page_content:news_items = parse_aljazeera_page(page_content)if news_items:print(f"News from {url}:")for news in news_items:print(f"Title: {news['title']}")print(f"Link: {news['link']}")print("-" * 50)else:print(f"No news items found at {url}.")else:print(f"Failed to fetch {url}.")if __name__ == '__main__':monitor_news()  # 手动调用一次，看看是否能抓取新闻run_scheduler()  # 继续运行定时任务

使用代理IP提升稳定性

爬虫在运行时，可能会遇到反爬机制导致IP被封禁的情况。为了规避这一问题，我们可以通过配置代理IP来提高爬虫的稳定性。下面是如何使用亮数据代理API的配置示例：

# 代理API配置
PROXY_API_URL = 'https://api.brightdata.com/proxy'
API_KEY = 'your_api_key'  # 请替换为实际API密钥

PROXY_API_URL：亮数据的代理API接口地址。
API_KEY：你的API密钥，用于认证API请求。

通过修改爬虫的请求函数，将代理配置加到请求中，可以让爬虫通过多个IP地址进行请求，从而降低被封禁的风险：

def fetch_news_with_proxy(url):try:print(f"Attempting to fetch with proxy: {url}")  # 调试信息response = requests.get(url,headers=HEADERS,proxies={"http": PROXY_API_URL, "https": PROXY_API_URL},timeout=10)print(f"Status code: {response.status_code}")  # 打印状态码if response.status_code == 200:return response.textelse:print(f"Failed to fetch {url}. Status code: {response.status_code}")return Noneexcept requests.exceptions.RequestException as e:print(f"Error fetching {url}: {e}")return None

运行截图与完整代码

运行截图：

在这里插入图片描述
完整代码如下

import requests
from bs4 import BeautifulSoup
import schedule
import time# 请求头配置
HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}# 亮数据代理API配置
PROXY_API_URL = 'https://api.brightdata.com/proxy'
API_KEY = 'your_api_key'  # 请替换为实际API密钥# 爬虫请求函数
def fetch_news(url):try:print(f"Attempting to fetch: {url}")  # 调试信息response = requests.get(url, headers=HEADERS, timeout=10)print(f"Status code: {response.status_code}")  # 打印状态码if response.status_code == 200:return response.textelse:print(f"Failed to fetch {url}. Status code: {response.status_code}")return Noneexcept requests.exceptions.RequestException as e:print(f"Error fetching {url}: {e}")return None# 解析Al Jazeera新闻页面
def parse_aljazeera_page(page_content):soup = BeautifulSoup(page_content, 'html.parser')news_items = []articles = soup.find_all('a', class_='u-clickable-card__link')print(f"Found {len(articles)} articles on Al Jazeera")for article in articles:title_tag = article.find('h3')if title_tag:title = title_tag.text.strip()link = article['href']if link.startswith('http'):news_items.append({'title': title,'link': link})else:# 如果链接是相对路径，拼接完整链接full_link = f"https://www.aljazeera.com{link}"news_items.append({'title': title,'link': full_link})return news_items# 定时任务
def run_scheduler():schedule.every(10).minutes.do(monitor_news)while True:print("Scheduler is running...")  # 调试信息schedule.run_pending()time.sleep(1)# 新闻监控函数
def monitor_news():url = 'https://www.aljazeera.com/'page_content = fetch_news(url)if page_content:news_items = parse_aljazeera_page(page_content)if news_items:print(f"News from {url}:")for news in news_items:print(f"Title: {news['title']}")print(f"Link: {news['link']}")print("-" * 50)else:print(f"No news items found at {url}.")else:print(f"Failed to fetch {url}.")# 主程序
if __name__ == '__main__':monitor_news()  # 手动调用一次，看看是否能抓取新闻run_scheduler()  # 继续运行定时任务

通过这一方式，爬虫不仅能抓取并显示新闻内容，还能避开反爬机制，提升抓取稳定性。

总结

通过上述步骤，我们实现了一个简单的Python爬虫，用于实时抓取Al Jazeera新闻网站的数据，并通过定时任务每隔一定时间自动抓取一次。在爬虫运行过程中，可能会遇到反爬机制导致IP被封禁的情况。为了避免这个问题，我们可以通过配置代理IP来提高爬虫的稳定性。

使用Python爬虫实时监控行业新闻案例

目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时…...

编程日记 2025/2/15 5:42:23

qt QTextEdit用法总结

1. 基本介绍 QTextEdit 是 Qt 中用于显示和编辑富文本（支持 HTML 子集）和纯文本的控件。支持文本格式（字体、颜色、对齐）、列表、表格、图片插入等富文本功能。底层通过 QTextDocument 管理内容，提供强大的文本处理…...

编程日记 2025/2/15 5:40:19

《open3d qt 网格采样成点云》

open3d qt 网格采样成点云效果展示二、流程三、代码效果展示二、流程创建动作，链接到槽函数，并把动作放置菜单栏参照前文三、代码 1、槽函数实现 void on_actionMeshUniformSample_triggered();//均匀采样 void MainWindow::...

编程日记 2025/2/15 5:38:11

企业数据安全：切实有效的数据安全保障措施分享：

确保企业数据安全是一项持续不懈的任务，鉴于技术的飞速发展，网络攻击者持续探索新型手段以窃取敏感信息并谋取利益。若企业欲避免成为数据泄露的下一个牺牲品，就必须始终保持警觉，预先规划，以不变应万变。为了帮助企业…...

编程日记 2025/2/15 5:37:08

rocketmq-netty通信设计-request和response

1、NettyRemotingServer启动分析 org.apache.rocketmq.remoting.netty.NettyRemotingServer#start public void start() {this.defaultEventExecutorGroup new DefaultEventExecutorGroup(nettyServerConfig.getServerWorkerThreads(),new ThreadFactory() {private AtomicI…...

编程日记 2025/2/15 5:36:07

DeepSeek 助力 Vue 开发：打造丝滑的卡片（Card）

前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 💕 目录 Deep…...

编程日记 2025/2/15 5:35:05

计算机组成原理—— 总线系统（十一）

在追求梦想的旅途中，我们常常会遇到崎岖的道路和难以预料的风暴。然而，正是这些挑战塑造了我们的坚韧和毅力，使我们能够超越自我，触及那些看似遥不可及的目标。不要因为一时的困境而气馁，也不要因为他人的质疑而动摇自…...

编程日记 2025/2/15 5:33:59

电商小程序（源码+文档+部署+讲解）

引言随着移动互联网的快速发展，电商小程序成为连接消费者与商家的重要桥梁。电商小程序通过数字化手段，为消费者提供了一个便捷、高效的购物平台，从而提升购物体验和满意度。系统概述电商小程序采用前后端分离的架构设计，服…...

编程日记 2025/2/15 5:32:53

8、k8s的pv和pvc

pv和pvc的概念静态动态——>自动分配 pv：persistent volume，持久化存储卷，描述或者定义存储卷的类型。集群范围内的存储概念，代表的是实际的存储空间（本地磁盘、网络系统文件nfs，云存储&#xff09…...

编程日记 2025/2/15 5:31:48

【limit 1000000,10 加载很慢该怎么优化？】

在 SQL 数据库中，使用 LIMIT 子句进行分页查询时，如果偏移量（offset）很大，查询性能可能会变得非常差。这是因为数据库需要扫描和跳过大量的记录才能到达所需的起始位置，然后再取出所需的记录数。例如，LIMIT 1000000, 10 表示跳过前 100 万条记录，然后取接下来的 10…...

编程日记 2025/2/15 5:30:42

通过IDEA傻瓜式快速分析java堆内存快照

背景很多开发都觉得分析堆快照查找内存泄漏、大对象等是一个比较需要技术功底的能力，但其实不然，通过IDEA就可以直接快速分析。操作流程通过idea直接打开已经找运维或自行dump好的.hprof文件选中后，IDEA默认会在底部分析器tab展示解析…...

编程日记 2025/2/15 5:29:28

测试方案整理

搜索引擎放在那里？研发查看问题样本或者在提取再批量入录等情况，一旦我没有勾选或者全选中已经批量入录的样本，那么在直接点击批量提取或查看问题样本的后，会自动默认为选择全选样本还是按照输入错误处理？ 批量查看返…...

编程日记 2025/2/15 5:27:23

2025年视觉、先进成像和计算机技术国际学术会议（VAICT2025）

2025年视觉、先进成像和计算机技术国际学术会议（VAICT2025） 2025 International Conference on Vision, Advanced Imaging,and Computer Technology 【重要信息】二轮截稿时间：2025年3月18日注册截址时间：2025年4月11日会…...

编程日记 2025/2/15 5:26:22

【黑马点评】jmeter测试秒杀接口前后耗时，和查询店铺（redis+caffeine二级缓存）接口

【黑马点评】jmeter测试秒杀接口前后耗时，和查询店铺缓存穿透接口 4.测试秒杀接口耗时4.1 修改VoucherOrderController4.2 测试原本的接口耗时 5. 测试缓存穿透这篇是测试，使用RabbitMQ消息异步处理订单，以及不异步处理订单的耗时对比以及查…...

编程日记 2025/2/15 5:25:17

盛铂科技 SCP4006/4018/4040：国产袖珍式功率计射频微波功率探头平均功率计

在通信、电子测量等领域，功率计是确保信号稳定、系统高效运行的关键设备。盛铂科技自主研发的 SCP4000 系列自带 USB 接口的袖珍式 CW 信号平均功率计，以其卓越的性能、高性价比和便捷的操作，在众多同类产品中脱颖而出，成为行业内…...

编程日记 2025/2/15 5:24:11

数据科学之数据管理|统计学

使用python学习统计目录 01 统计学基础 7 一、统计学介绍 7 二、数据和变量 8 02 描述统计 10 一、描述统计概述 10 二、分类变量的描述 11 三、等距数值变量的描述 13 四、等比数值变量的描述 16 五、常用软件包介绍 16 六、数值变量的描述统计 18 （一）…...

编程日记 2025/2/15 5:23:09

C++ 设计模式-建造者模式

以下是一个完整的C建造者模式示例，包含产品类、建造者接口、具体建造者、指挥者以及测试代码： #include <iostream> #include <string> #include <memory>// 产品类：汽车 class Car { public:void setBody(const std::str…...

编程日记 2025/2/15 5:20:03

从零搭建：Canal实时数据管道打通MySQL与Elasticsearch

Canal实时同步Mysql Binlog至 Elasticsearch 文章目录 Canal实时同步Mysql **Binlog**至**Elasticsearch** 一. 环境准备1.环境检查检查Mysql是否开启BinLog开启Mysql BinlogJava环境检查 2.新建测试库和表3.新建Es索引二.**部署 Canal Server****2.1 解压安装包****2.2 配置 …...

编程日记 2025/2/15 5:19:00

Baumer工业相机堡盟工业相机如何通过BGAPI SDK实现一次触发控制三个光源开关分别采集三张图像（C#）

Baumer工业相机堡盟工业相机如何通过BGAPI SDK实现一次触发控制三个光源开关分别采集三张图像（C#） Baumer工业相机Baumer工业相机定序器功能的技术背景Baumer工业相机通过BGAPI SDK使用定序器功能预期的相机动作定序器的工作原理 Baumer工业相机通过BGAP…...

编程日记 2025/2/15 5:17:56

网络安全用centos干嘛网络安全需要学linux吗

网络安全为啥要学Linux系统，据不完全统计，Linux系统在数据中心操作系统上的份额高达70%。它一般运行于服务器和超级计算机上。所以我们日常访问的网站后台和app后端都是部署在Linux服务器上的，如果你不会Linux系统操作，那么很多…...

编程日记 2025/2/15 5:16:50

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下： struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

编程新知 2025/11/27 21:52:13

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码思路进入页面发现是一个登录框，很难让人不联想到SQL注入，但提示都说了不是SQL注入，所以就不往这方面想了先查看一下网页源码，发现一段JavaScript代码，有一个关键类ctfs…...

编程新知 2026/2/5 4:33:58

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明：server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

编程新知 2026/1/23 4:15:03

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/8/13 16:42:24

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/10/17 21:16:57

OpenLayers 分屏对比(地图联动)

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能，和卷帘图层不一样的是，分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

编程新知 2025/12/25 18:22:43

聊一聊接口测试的意义有哪些？

目录一、隔离性 & 早期测试二、保障系统集成质量三、验证业务逻辑的核心层四、提升测试效率与覆盖度五、系统稳定性的守护者六、驱动团队协作与契约管理七、性能与扩展性的前置评估八、持续交付的核心支撑接口测试的意义可以从四个维度展开，首…...

编程新知 2025/10/14 6:46:13

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型（LLM）参数规模的增长，推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长，而KV缓存的内存消耗可能高达数十GB（例如Llama2-7B处理100K token时需50GB内存&a…...

编程新知 2026/1/28 1:40:03

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币，另给一个整数 amount 表示总金额。请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额，返回 0 。假设每一种面额的硬币有无限个。题目数据保证结果符合 32 位带…...

编程新知 2025/10/4 6:30:56

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看一个默认的页面，gobuster扫一下目录可以看到扫出的目录中得到了一个有价值的目录/wordpress，说明目标所使用的cms是wordpress，访问http://192.168.43.213/wordpress/然后查看源码能看到这…...

编程新知 2026/1/29 5:24:50

目录

背景