python爬虫实战——今日头条新闻数据获取
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码
第三方库:
- requests >>> pip install requests
第三方模块安装:
win + R 输入cmd 输入安装命令 pip install 模块名
(如果你觉得安装速度比较慢, 你可以切换国内镜像源)
开发环境:
-
python 3.8
-
pycharm 专业版
案例步骤:
一. 思路分析
-
找到数据来源地址
文章标题 文章发布时间 文章内容
-
在列表页当中获取详情页的链接
-
访问详情页链接 拿到 需要的数据
二. 代码实现
- 访问列表页链接
本案例视频教程/源码可+V:qian97378,还可获取:
-
python安装包 安装教程视频
-
pycharm 社区版 专业版 及 激活码免费
代码展示
'''
python资料获取看这里噢!! 小编 V:qian97378,即可获取:
文章源码/教程/资料/解答等福利,还有不错的视频学习教程和PDF电子书!
'''
import requests
from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
headers = {'Referer': 'https://***屏蔽,不然发不出***/?wid=1697699263232','cookie': 'ttcid=92ece02000f2467c8199a042d1a7783d39; csrftoken=ae047567561c48e5dd9e2fc0b22ea545; tt_anti_token=04f1H0rq1BU-9b92ba89f64e967f88b554f9888051221bf2afb87f2d4944350b78b2a42969f6; tt_webid=7194689479734134327; local_city_cache=%E9%95%BF%E6%B2%99; _ga=GA1.1.1774896154.1697699265; s_v_web_id=verify_lnwub4sw_omFJ90tA_qOum_4AzC_8f7f_zAvYWn8bjFbi; _S_WIN_WH=1611_817; _S_DPR=1; _S_IPAD=0; msToken=tlOZw3Cf8-FurmSOujuTolA64e0t8pvjXe0ZvtWz8xZnlufMZEA3jAuXwmeVMujIh2nnkoNEDndXJc83JtWJctnhGizVqudQLY9hhrJd; _ga_QEHZPBE5HH=GS1.1.1697699264.1.1.1697700966.0.0.0; tt_scid=rI2Aqe4745U2cQcnyiJFQquxaMuGqBEeR849tR2hG41-cApqsmw2F3uBx7Fjtl0f72db; ttwid=1%7CiWx9zpr2eLSL5pxwfW7PdpTasAnL2Tszm5jFlS0A_ac%7C1697700966%7C075ec2a1c6ec5be355f2cdf0f5bbb1d33c2a2ed36743aebea5dc2609b1e73a79','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
}
url = 'https://***屏蔽,不然发不出***/api/pc/list/feed?channel_id=0&max_behot_time=1697699614&offset=0&category=pc_profile_recommend&aid=24&app_name=toutiao_web&_signature=_02B4Z6wo00101.CXQxAAAIDCk52Derk.V6Pws0eAAJkeQEsbY9XZOs-9WUI.4KOjzx5RWdVK7Uc6XjjHHZwZUf3MSEY9lGtY1O7hGUt4Ji3bXrDCOlnlmIYTKDhUlOIpPF0OjwF4K22oKIrMe2'
# 1. 访问列表页链接
response = requests.get(url=url, headers=headers)
# 2. 提取数据
json_data = response.json() # 拿到所有的数据
# 将这个数据里面的 详情页链接 标题 拿到
data_list = json_data['data']
for data in data_list:detail_url = data['url']print(detail_url)title = data['title']driver.get(detail_url)driver.implicitly_wait(2)create_time = driver.find_element(By.XPATH, '//div[@class="article-meta"]').textcontent = driver.find_element(By.XPATH, '//article').get_attribute("outerHTML")print(title, create_time, content)
尾语
好了,今天的分享就差不多到这里了!
对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

相关文章:
python爬虫实战——今日头条新闻数据获取
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码 第三方库: requests >>> pip install requests 第三方模块安装: win R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你…...
ardupilot开发 --- gdb 篇
环境 win11 vscode 1.81.0 wsl2 ardupilot 利用gdb工具在vsCode中实现 Ardupilot SITL的断点调试 优点:可在vsCode中实现断点调试。 参考文献:https://ardupilot.org/dev/docs/debugging-with-gdb-using-vscode.html 安装gdb工具 打开wsl࿰…...
在Vue项目中定义全局变量
在Vue项目中我们需要使用许多的变量来维护数据的流向和状态,这些变量可以是本地变量、组件变量、父子组件变量等,但这些变量都是有局限性的。在一些场景中,可能需要在多个组件中共享某个变量,此时全局变量就派上了用场。 定义全局…...
.net 写了一个支持重试、熔断和超时策略的 HttpClient 实例池
public class HttpClientPool : IDisposable {private readonly ConcurrentQueue<HttpClient> _httpClientPool; // HttpClient 对象池private readonly SemaphoreSlim _semaphore; // 控制同时访问 HttpClient 对象池的线程数private readonly TimeSpan _timeout; // 获…...
大促期间如何监测竞品数据
无论在什么时候,竞品的数据都是品牌非常关注的,大促当然也不例外,所以准确监测到竞品数据应该如何分析也很关键,通过分析竞品,品牌可以获取非常多有价值的内容,如竞品王牌产品的分析、行业分析报告等。 力维…...
Linux yum 没有可用软件包 fping。 错误:无须任何处理 的解决办法
yum install fping -y 报错解决: [rootcpcs-node-d4n591 ~]# yum install fping -y 已加载插件:fastestmirror Determining fastest mirrors* base: mirrors.aliyun.com* extras: mirrors.aliyun.com* updates: mirrors.aliyun.com base …...
人工智能与脑机接口:开启人机融合的新时代
人工智能与脑机接口:开启人机融合的新时代 随着人工智能(AI)技术的飞速发展,我们正与一个全新的时代相遇——人工智能与脑机接口相融合的时代。这个时代将带来前所未有的变革,让人类与机器的交互方式发生根本性的改变。…...
【多线程面试题二十二】、 说说你对读写锁的了解
文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 面试官:说说你对读写锁的了解 …...
Panda3d 相机控制
Panda3d 相机控制 文章目录 Panda3d 相机控制Panda3d中的透视镜头和垂直镜头透视镜头垂直镜头 Panda3d 中用代码控制相机的移动用键盘控制相机的移动用鼠标控制相机的移动 Panda3d 把相机也当做是一个 PandaNode,因此可以向操作其他节点对其进行操作。 真正的相机是…...
Linux(CentOS)安装MySQL教程
主要参考链接 教程 1. 准备工作 1.1 安装CentOS虚拟机 教程点击 1.2 将CentOS虚拟机设置为静态IP,否则你每次重启虚拟机后连接数据库都要重新查IP 教程点击 1.3 如果有安装过MySQL,请先卸载MySQL 教程点击 1.4 虚拟机执行命令su切换到root账号(输…...
使用 OpenSSL 工具撰写 Bash 脚本进行密码明文的加密与解密
使用 OpenSSL 工具进行密码明文的加密与解密 Written By: Xinyao Tian 简介 本文档描述了使用 OpenSSL 工具在 Bash 脚本中对密码进行加密和解密的简单方式。 BASE64 的加密与解密脚本 使用 Base64 算法进行密码的加密 脚本名称为 encryptPasswd.sh, 脚本内容如下: #!/b…...
uniapp之actionsheet 自定义组件
uniapp本身自带的actionsheet太丑,不够美观。闲着也是闲着,自己实现了一个类似的选择器。 支持功能: 1、左对齐 2、右对齐 3、居中 4、可加图标 下面贴出使用教程: <template><view><action-sheet alignment&…...
在nodejs中使用Mongoose和MongoDB实现curd操作
在nodejs中使用Mongoose和MongoDB实现curd操作 在Node.js中,数据库被用来存储和检索Web应用程序的数据。它们是构建动态和可伸缩应用程序的重要组成部分。Node.js提供了各种模块和包,可以与数据库一起工作,如MySQL、PostgreSQL、MongoDB等。它们允许开发人员使用各…...
10.28 校招 实习 内推 面经
绿*泡*泡: neituijunsir 交流裙 ,内推/实习/校招汇总表格 1、校招|理想汽车2024校园招聘算法类岗位特辑(内推) 校招|理想汽车2024校园招聘算法类岗位特辑(内推) 2、校招 | 国网信…...
Azure 机器学习 - 使用无代码 AutoML 训练分类模型
了解如何在 Azure 机器学习工作室中使用 Azure 机器学习自动化 ML,通过无代码 AutoML 来训练分类模型。 此分类模型预测某个金融机构的客户是否会认购定期存款产品。 关注TechLead,分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管…...
【调试技术】用户态查看PEB和TEB
概述:用户态查看进程 PEB 和 TEB(通过windbg附加或启动调试的exe) 0x01 用户态查看 TEB 和 PEB 在双机调试的时候,可以直接使用 !PEB PID 和 !TEB TID 获取进程和线程的相关信息,在用户态这两个命令就会失效。原因就是用户态不支持大写的 !T…...
如何搭建一个Spring MVC和Vue3的应用程序
要搭建一个基于Spring MVC框架和Vue3框架的前端应用程序,可以按照以下步骤进行: 创建Java项目并添加Spring MVC依赖 使用Maven或Gradle等构建工具创建一个Java项目,并在项目的pom.xml或build.gradle文件中添加Spring MVC依赖。例如…...
CSS3设计动画样式
CSS3动画包括过渡动画和关键帧动画,它们主要通过改变CSS属性值来模拟实现。我将详细介绍Transform、Transitions和Animations 3大功能模块,其中Transform实现对网页对象的变形操作,Transitions实现CSS属性过渡变化,Animations实现…...
AtCoder abc 144
D - Water Bottle x先除以a,得到面积。体积和面积是等同考虑的。 分两种情况,一种是水比一半面积少,一种是水比一半面积多。 # -*- coding: utf-8 -*- # time : 2023/6/2 13:30 # author : yhdutongwoo.cn # desc : # file : …...
【开题报告】基于SpringBoot的医美在线预约系统的设计与实现
1.研究背景 医美行业是指结合医学和美容技术,为人们提供外貌改善和整容手术等服务的领域。随着社会经济的发展和人们审美观念的变化,医美行业得到了快速的发展,并受到越来越多人的关注和需求。 传统的医美预约方式主要依赖于电话预约或现场…...
UE5运行时动态调整游戏视口:解决UI遮挡导致物体位置偏移的实战方案
UE5运行时动态调整游戏视口:解决UI遮挡导致物体位置偏移的实战方案 当你在UE5项目中设计了一个精美的HUD界面,却发现那些半透明的UI元素正在悄悄改变游戏世界的坐标规则——原本应该出现在屏幕中心的角色突然偏离了位置。这不是视觉错觉,而是…...
2026,AI Agent 真的开始上班了——从 MCP 协议到生产部署,一份踩坑实录
爆款标题备选2026 年,我司来了一个 AI 同事——Agent 落地实录MCP 协议 LangChain Dify:把 AI Agent 塞进生产环境的正确姿势BBC 报道了三个中国人的 AI 恐惧,但我想说点不一样的AI Agent 从 Demo 到生产,中间隔着一个 MCP 协议…...
Android 开发问题:It‘s possible to extract method returning XXX from a long surrounding...
在 Android 开发中,Android Studio 出现如下提示信息 Its possible to extract method returning TakeCardRecordListDTO from a long surrounding method# 解读可以从长方法中提取返回“TakeCardRecordListDTO”的方法问题原因这段提示是提取方法重构策略ÿ…...
RT-Thread下lwIP协议栈内存优化实战:从300KB降至120KB
1. 项目概述与核心价值最近在做一个基于RT-Thread的物联网网关项目,硬件资源是STM32F407,带1MB的RAM。项目需要同时处理4路TCP长连接和若干UDP广播包,原本以为内存绰绰有余,结果一上电跑起来,系统内存占用直接飙到了90…...
别再死记硬背ELMo、GPT、BERT的区别了!一张图带你搞懂它们的核心差异与适用场景
一图胜千言:ELMo、GPT、BERT技术差异与实战选型指南 刚接触NLP时,我也曾被各种预训练模型绕得头晕眼花——它们看起来都能处理文本,但面试官一问"为什么用BERT不用GPT"就瞬间语塞。直到我把这些模型拆解成汽车零件,才真…...
2026年降AI工具万方检测专项测试:五款工具万方AIGC检测通过率完整横评
2026年降AI工具万方检测专项测试:五款工具万方AIGC检测通过率完整横评 选工具之前做了一周功课,试用了三款,最后定了嘎嘎降AI(www.aigcleaner.com)。 4.8元,知网AI率从61%降到了5.3%,达标率99…...
基于Atmega8的红外通信系统:从原理到自定义协议实现
1. 项目概述:为什么是Atmega8?在嵌入式开发领域,红外遥控是一个经典且应用广泛的课题。从家里的电视、空调遥控器,到一些工业设备的非接触式控制,红外通信无处不在。市面上有大量现成的红外编解码芯片,比如…...
STM32开发库选型指南:标准库、HAL库与LL库的深度对比与实战应用
1. 项目概述:从寄存器到库,STM32开发的演进之路十年前,当我第一次接触STM32时,面对的是密密麻麻的寄存器手册和几百页的参考手册,一个简单的GPIO点灯操作都需要配置好几个寄存器。那时候,标准库(…...
【ACM出版、往届已稳定EI检索】第二届大数据与智慧医学国际学术会议(BDIMed 2026)
第二届大数据与智慧医学国际学术会议(BDIMed 2026)将于2026年6月26-28日在中国重庆市举行。 随着科技与医疗的交汇不断演变,BDIMed 2026将为与会者提供一个知识分享、挑战讨论及促进合作的平台。我们荣幸地邀请您参加此次盛会,会…...
全息三维空间孪生,全域无感精准智位系列:UWB:多路径干扰精度失稳|镜像:多源时空误差融合
在全域空间数字化、实景虚实融合与空间智能快速演进的产业周期中,镜像视界(浙江)科技有限公司持续深耕视频原生三维重构、时空AI像素解算、全域无感精准定位、跨镜轨迹智能推演底层核心领域,依托八大自主可控核心引擎构筑全栈技术…...
