当前位置: 首页 > news >正文

【Python】爬取网易新闻今日热点列表数据并导出

1. 需求

从网易新闻的科技模块爬取今日热点的列表数据,其中包括标题、图片、标签、发表时间、路径、详细文本内容,最后导出这些列表数据到Excel中。

网易科技新闻网址:https://tech.163.com

2. 解决步骤

2.1 前期准备

爬虫脚本中需要引用的Python库:

  • requests:一个HTTP客户端库,‌专门用于发送HTTP请求;
  • BeautifulSoup:可以从HTML或XML文件中提取数据;
  • pandas:用于数据分析的一个强大库,这里主要用于整理数据、导出Excel。
  • json:python的一个内置库,用于处理JSON格式的数据。

注意:

在执行Python爬虫脚本之前需要引入库,如:

pip install BeautifulSoup

否则会报错(Couldn‘t find ....... you requested: XXX库.)。

2.2 爬取列表基础信息

(1)通过简单脚本爬取页面信息:先爬取网易新闻(https://tech.163.com)的页面信息,看是否有今日热点列表数据。

import requestsurl = 'http://tech.163.com/'
response = requests.get(url)    # 发送HTTP GET请求  
print(response.text)            # 打印网页内容

可以在控制台看到打印的页面信息。(该打印信息在步骤(3)中会使用到)

(2)查看列表所在的模块位置:在网易科技新闻页面,键盘按【F12】弹出开发者工具,通过开发者工具左上角的小箭头在页面定位今日热点列表的位置,根据操作可知列表所在div元素的class属性为 “ndi_main” 。

(3)通过打印的页面信息,查看其中是否能获取列表数据:复制div元素的class属性的值 “ndi_main” 到之前打印的页面信息中查看位置。从图中可知今日热点列表的数据是动态加载的。

(4)从资源文件获取今日热点列表数据链接地址:从开发者工具的【Source --> Page】加载的文件中查找到今日热点列表的数据是从这个JSON文件获取的。

选择该JSON文件地址,鼠标右键,点击【Copy link address】复制链接地址。

(5)整理获取列表脚本:

import requests
import json# 今日热点的JSON数据链接地址
url = "https://tech.163.com/special/00097UHL/tech_datalist.js?callback=data_callback"# 发送HTTP GET请求
response = requests.get(url) 
# 处理字符串成JSON格式的字符串
str = response.text.replace(')', '').replace('data_callback(', '')
# 将JSON格式的字符串转换为Python对象
json_data = json.loads(str)for i in json_data:title = i["title"]docurl = i["docurl"]imgurl = i["imgurl"]time = i["time"]label = i["label"]tip = ''for j in i["keywords"]:tip += j["keyname"] + ', 'print("标题:" + title)print("发表时间:" + time)print("类型:" + label)print("标识:" + tip)print("路径:" + docurl)print("图片地址:" + imgurl)print("----------------------------------------")

打印结果:

2.3 爬取详情信息

根据第一条新闻路径获取详情信息

import requests
import json
from bs4 import BeautifulSoup# 详情地址
detailUrl = 'https://www.163.com/dy/article/J8K51SIR0519QIKK.html'# headers可取固定值,访问所有详情页均可用
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36"}
# 发送HTTP GET请求页面信息。注意这里不带请求头无权限获取详情数据信息。
response = requests.get(url=detailUrl, headers=headers)
# 从HTML文件中提取数据
soup = BeautifulSoup(response.text, 'html.parser')
# 获取class为“post_body”元素内部的文字内容(无图)
text = soup.select('.post_body')[0].text
print(text)

打印结果:

需要注意以下几点:

(1)HTTP请求不带请求头,则无权限访问。

headers的值可从任一请求的请求头中获取即可。

(2)代码中倒数第二行的 “.post_body” 是通过开发者工具左上角的小标签去快速定位详情内容的位置中获取。

2.4 导出数据到Excel中  

导出的时候需要使用到pandas库

import pandasdf = pandas.DataFrame(list_res)
df.head(5)
df.to_excel("tech163.xlsx")
print("导出成功")

3. 爬虫脚本整理

根据解决步骤,最终整理的爬取网页新闻的脚本如下:

import requests
import json
from bs4 import BeautifulSoup
import pandas# 网易科技新闻地址
url = "https://tech.163.com/special/00097UHL/tech_datalist.js?callback=data_callback"# 获取今日热点列表信息
def getNewsList(url):list_res = []response = requests.get(url)str = response.text.replace(')', '').replace('data_callback(', '')json_data = json.loads(str)for i in json_data:result = {}tip = ''for j in i["keywords"]:tip += j["keyname"] + ', 'result['title']=i["title"]result['time']= i["time"]result['label'] = i["label"]result['tip'] =tipresult['imgurl'] =i["imgurl"]result['detail']= getNewsDetail(i["docurl"])list_res.append(result)df = pandas.DataFrame(list_res)df.head(5)df.to_excel("tech163.xlsx")print("导出成功")# 获取详情信息
def getNewsDetail(detailUrl):headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36"}response = requests.get(url=detailUrl, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')text = soup.select('.post_body')[0].textreturn text# 调用接口进行验证
getNewsList(url)

导出的Excel文件内容如下:

相关文章:

【Python】爬取网易新闻今日热点列表数据并导出

1. 需求 从网易新闻的科技模块爬取今日热点的列表数据,其中包括标题、图片、标签、发表时间、路径、详细文本内容,最后导出这些列表数据到Excel中。 网易科技新闻网址:https://tech.163.com 2. 解决步骤 2.1 前期准备 爬虫脚本中需要引用…...

软件设计之HTML5

软件设计之HTML5 【狂神说Java】HTML5完整教学通俗易懂 学习内容: 软件开发技能点参照:软件开发,小白变大佬,这套学习路线让你少走弯路是认真的,欢迎讨论 软件开发技能点参照:Java学习完整路线&#xff…...

CnosDB 元数据集群 – 分布式时序数据库的大脑

CnosDB 是一个分布式时序数据库系统,其中元数据集群是核心组件之一,负责管理整个集群的元数据信息。 1. 概述 CnosDB 是一个分布式时序数据库系统,其中元数据集群是核心组件之一,负责管理整个集群的元数据信息。元数据包括数据库…...

白骑士的Matlab教学进阶篇 2.5 Simulink

Simulink是MATLAB的扩展工具,提供了一个图形化的建模和仿真环境。它广泛应用于系统设计、仿真、自动控制、信号处理等领域。本文将详细介绍Simulink的简介与基本使用、建立与仿真模型、控制系统设计与仿真、与MATLAB的集成。 Simulink简介与基本使用 什么是Simuli…...

linux安装anaconda

参考 如何在Linux服务器上安装Anaconda(超详细)_linux安装anconda-CSDN博客 官网 Index of / 安装网站 https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh wget https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Lin…...

python装饰器作用和使用场景

当谈到装饰器时,很多初学者很迷糊,有一个经典的例子可以帮助理解它们的作用。装饰器允许你在不修改函数代码的情况下,动态地改变函数的行为。 一、用法 假设我们有一个简单的函数,用来输出一条简单的问候语: 复制代码…...

Apache Tomcat 7下载、安装、环境变量配置 详细教程

Apache Tomcat 7下载、安装、环境变量配置 详细教程 Apache Tomcat 7下载Apache Tomcat 7 安装Apache Tomcat 7 环境变量配置启动 Apache Tomcat 7测试Tomcat7是否启动成功 Apache Tomcat 7下载 1、下载地址,找到Archives 链接: 官网下载地址 2、找到Tomcat 7&…...

SQL注入实例(sqli-labs/less-20)

0、初始页面 1、确定闭合字符 2、爆库名 3、爆表名 4、爆列名 5、查询最终目标...

Linux Shell面试题大全及参考答案(3万字长文)

目录 解释Shell脚本是什么以及它的主要用途 主要用途 Shell脚本中的注释如何编写? 如何在Shell脚本中定义和使用变量? Shell支持哪些数据类型? 什么是Shell的命令替换?请举例说明。 管道(pipe)和重定向(redirection)有什么区别? 如何在Shell脚本中使用条件语句…...

速盾:cdn优化静态资源加载速度机制

CDN(Content Delivery Network)是一种优化静态资源加载速度的机制。它通过在全球多个地点部署服务器,将静态资源缓存到离用户最近的服务器上,从而提高资源加载速度。 在传统的网络架构中,当用户访问一个网站时&#x…...

04.C++类和对象(中)

1.类的默认成员函数 默认成员函数就是用户没有显式实现,编译器会自动生成的成员函数称为默认成员函数。一个类,我们不写的情况下编译器会默认生成以下6个默认成员函数,需要注意的是这6个中最重要的是前4个,最后两个取地址重载不重…...

【代码随想录训练营第42期 Day23打卡 回溯Part2 - LeetCode 39. 组合总和 40.组合总和II 131.分割回文串

目录 一、做题心得 二、题目与题解 题目一:39. 组合总和 题目链接 题解:回溯 题目二:40.组合总和II 题目链接 题解:回溯 题目三:131.分割回文串 题目链接 题解:回溯 三、小结 一、做题心得 今天是代码随想录…...

书生.浦江大模型实战训练营——(三)Git基本操作与分支管理

最近在学习书生.浦江大模型实战训练营,所有课程都免费,以关卡的形式学习,也比较有意思,提供免费的算力实战,真的很不错(无广)!欢迎大家一起学习,打开LLM探索大门&#xf…...

数据可视化Axure大屏原型制作分享

数据可视化大屏通过清晰、直观且易于理解的方式呈现大量复杂数据,已成为各行各业中不可或缺的工具。Axure作为一款功能强大的原型设计工具,为数据可视化大屏的制作提供了强大的支持和丰富的资源。 Axure RP 是一款强大的原型设计工具,非常适…...

Python3安装

更新镜像: yum -y install epel-release.noarch 1.安装Python3 [root18 ~]# yum -y install python3 2.查看版本: [root18 ~]# python3 --version Python 3.6.8 3.执行镜像包: pip3 install -i https://pypi.tuna.tsinghua.edu.cn/sim…...

基于Python的数据科学系列(4):函数

引言 在前几篇文章中,我们探讨了Python中的基本数据类型、列表、元组和字典。在本文中,我们将深入研究Python中的函数。函数是编程中非常重要的概念,它允许我们将代码组织成模块化、可重用的组件。通过学习如何定义和使用函数,我们…...

高频焊接设备配电系统无源滤波系统的设计

1、高频焊机系统谐波状况简介 变压器容量:S11-M-1600/10KVA(105%)/0.4KV 短路阻抗:3.9% 谐波负载情况:一台600KW高频焊接设备 型号:GGP600-0.3-HC 输入电压:380V 输出电压:0…...

模拟退火的

题目链接 体验乱调参数而看天意的奇特体验 #include<bits/stdc.h> using namespace std; typedef long long ll; typedef unsigned long long ull; typedef pair<ll,ll> pii; const int inf0x3f3f3f3f; const int N1e510; const int mod1e97; //#define int long…...

为什么有的地方笔记本经常连不上wifi,而手机可以?

mm&#xff1a;程程&#xff0c;为什么我的笔记本在图书馆&#xff0c;老是连不上wifi&#xff1f;经常要手工连好几次&#xff0c;我的手机却没有这样的问题。 我&#xff1a;你先用手机热点连一下&#xff0c;我给你远程看一下吧。 mm&#xff1a;好了&#xff0c;我的远程代…...

组件化开发

iOS的组件化开发是一种将大型应用拆分成多个独立、可复用的组件的开发模式。每个组件负责完成特定的功能&#xff0c;并通过明确定义的接口与其他组件进行交互。这种开发模式有助于提高代码的可维护性、可读性和可扩展性&#xff0c;同时降低模块之间的耦合度。 组件化开发的概…...

完全掌控:揭秘G-Helper如何解决华硕笔记本散热与性能调节难题

完全掌控&#xff1a;揭秘G-Helper如何解决华硕笔记本散热与性能调节难题 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, St…...

保姆级教程:用Python解析大疆无人机照片EXIF,实现正射影像像素坐标定位

大疆无人机正射影像像素级地理定位实战指南 从航拍到测绘&#xff1a;解锁影像元数据的空间密码 当大疆无人机的快门按下瞬间&#xff0c;传感器记录的远不止是可见光信息。每一张正射影像都像被精心封装的时间胶囊&#xff0c;内部藏着完整的空间坐标、飞行姿态和相机参数。这…...

快速验证域名跳转思路:用快马十分钟搭建jxx登录页检测工具原型

快速验证域名跳转思路&#xff1a;用快马十分钟搭建jxx登录页检测工具原型 最近注意到"jxx登录网页最新域名在哪"这个关键词搜索量突然增加&#xff0c;很多用户都在寻找特定网站的访问入口。这种需求其实很常见——当某个服务频繁更换域名时&#xff0c;普通用户很…...

PixEz-flutter全链路网络可靠性架构实战:从数据同步到动态优化

PixEz-flutter全链路网络可靠性架构实战&#xff1a;从数据同步到动态优化 【免费下载链接】pixez-flutter 一个支持免代理直连及查看动图的第三方Pixiv flutter客户端 项目地址: https://gitcode.com/gh_mirrors/pi/pixez-flutter 在移动应用开发中&#xff0c;网络请求…...

如何构建跨平台漫画阅读器Venera:从零开始实现本地与网络漫画管理

如何构建跨平台漫画阅读器Venera&#xff1a;从零开始实现本地与网络漫画管理 【免费下载链接】venera A comic app 项目地址: https://gitcode.com/gh_mirrors/ve/venera 作为一名漫画爱好者&#xff0c;你是否曾为找不到合适的阅读工具而烦恼&#xff1f;本地漫画文件…...

NCM格式解密终极指南:三分钟解锁网易云音乐加密文件

NCM格式解密终极指南&#xff1a;三分钟解锁网易云音乐加密文件 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM格式文件无法在其他播放器使用而烦恼吗&#xff1f;ncmdump工具为你提供完整解决方案&#…...

利用快马平台与ccswitch快速构建可切换功能模块的web应用原型

今天想和大家分享一个快速验证前端功能模块切换方案的小技巧。最近在做一个需要动态切换不同功能模块的项目&#xff0c;尝试了用ccswitch工具配合InsCode(快马)平台来搭建原型&#xff0c;效果出乎意料地好。 为什么选择ccswitch ccswitch是一个轻量级的JavaScript工具&…...

如何高效解密网易云音乐NCM文件?ncmdump工具全指南

如何高效解密网易云音乐NCM文件&#xff1f;ncmdump工具全指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否遇到过下载的网易云音乐NCM文件无法在其他播放器中打开的问题&#xff1f;ncmdump作为一款专业的NCM格式解密工具…...

百川2-13B量化模型+OpenClaw:低成本搭建24/7内容摘要服务

百川2-13B量化模型OpenClaw&#xff1a;低成本搭建24/7内容摘要服务 1. 为什么需要本地化内容摘要服务 在信息爆炸的时代&#xff0c;我们每天都会接触到大量网页内容。从行业报告到技术文档&#xff0c;从新闻资讯到研究论文&#xff0c;手动阅读和整理这些内容既耗时又低效…...

Python爬虫实战:用Qwen2.5-VL智能解析网页图片内容

Python爬虫实战&#xff1a;用Qwen2.5-VL智能解析网页图片内容 1. 引言 你有没有遇到过这样的情况&#xff1a;爬取了大量网页图片&#xff0c;却要人工一张张查看内容&#xff1f;或者需要从海量图片中筛选出特定类型的商品、识别图中的文字信息&#xff1f;传统爬虫只能获取…...