爬虫第七篇数据爬取及解析
这篇博客旨在分享学习过程中的心得和体会,如果有错误请指出,感谢大家。
经过前面的学习,那么我们也就进入了数据爬取的阶段,大家跟着我的步伐一起来学习一下,爬虫的数据爬取与数据解析(本篇主要针对于带有页码的网页)
第一站单页数据获取
首先我们从简单的带页码的网页开始爬取,为啥从带页码的网页开始,有页码的网页点击页码会重新刷新页码数据,可以去掉一部分我们不需要的数据(因为我们一般需要的数据都在页码包含的url里面)
我们接下来实现输入我们需要的页码,然后爬虫自动去获取对应页面的数据,然后返回给我们,再将页码内容需要的具体数据输出
第一步找到页码在url上面的对应数据位置
我们先将其中几页的目标url,将其取下来,比对一下,哪个数据有可能是对应页码的数据
我试验的网址是{pageindex=页码}所以我们可以把url = f‘http://....&pageindex={你定义的变量}
这样改完url之后,获取完你输入的数字后,他会自动写入url,取获取对应网页的数据那么代码如下
import requests# 用户输入页码
pageindex = input('请输入你要查看的神秘页码:')
url = f'https://example.com/api/data?pageIndex={pageindex}'
res = requests.get(url)
记得url都最好带上这个f,这样他会用fstring去获取,不容易出错 ,不然会出现解析不出来的情况
第二步解析目标数据
然后就是解析目标数据,然后去获取我们需要的数据
比如目标数据格式为
{"code":200,"data":{
"posts":[{"id"=0,"name"=xiaoli
}]}}
这个时候我们需要去获取最里面的id和name数据我们应该怎么写呢?
print(['data']['post'][0]['id'])
第三步循环取出所有需要的id
那么我们再衍生一下,通过循环将列表post里面的所有的id都取出来需要怎么写呢?
#将响应数据转换为字典类型
res_data = res.jason()
for i in res_data['data']['post']#通过for循环遍历数据,取出其中的idprint(i['id'])
由此我们就完成了我们最开始的第一个目标,输入页码跳转对应页面,并输出需要的数据
第二站多页数据获取
获取多页的数据比如获取1-10页的全部的id数据
第一步构建循环去获取1-10页的全部数据
这是知道需要的页码数量的情况下的
import request
for page_index in range(1,11):url = https://....pageindex={page_index}....res = request.get(url)res=res.jason()
第二步通过循环去解析对应页码里面数据里的id
import request
num = 1
for page_index in range(1,11):url = https://....pageindex={page_index}....res = request.get(url)res_data=res.jason()for i in res_data['data']['post']#通过for循环遍历数据,取出其中的idprint(i['id'])
第三站未知页数数据获取
根据上面的内容,那么我们只要加一个判定上面时候拉去数据为空就停止即可完成全部网页的拉取
import requestspage_index = 1 # 代表分页
count = 1 # 代表取出的序号
while True:url = f'https://...pageIndex={page_index}...'res = requests.get(url)res_data = res.json()# 结束的判断条件if res_data['Data']['Posts'] == []:#根据网页的数据去判断什么时候拉不到数据break# 解析数据for i in res_data['Data']['Posts']:print(count, i['id'])count += 1print(f'第{page_index}页数据已经全部获取完毕')page_index += 1
以上可以去弄比较简单的网页,如果网页会去判断你是否为真人,那么你就需要加上伪装
headers = {'user-agent':'你网页里的useragent'
}
相关文章:
爬虫第七篇数据爬取及解析
这篇博客旨在分享学习过程中的心得和体会,如果有错误请指出,感谢大家。 经过前面的学习,那么我们也就进入了数据爬取的阶段,大家跟着我的步伐一起来学习一下,爬虫的数据爬取与数据解析(本篇主要针对于带有…...
LangChain 技术入门指南:探索语言模型的无限可能
在当今的技术领域,LangChain 正逐渐崭露头角,成为开发语言模型应用的强大工具。如果你渴望深入了解并掌握这一技术,那么就跟随本文一起开启 LangChain 的入门之旅吧! (后续将持续输出关于LangChain的技术文章,有兴趣的同学可以关注…...
解锁D3.js与PlantUML的交互奥秘:探索知识图谱数据可视化新领域
解锁D3.js与PlantUML的交互魔法:数据可视化新征程 在前端开发的广袤天地里,数据可视化一直是一颗璀璨的明珠,吸引着无数开发者探索其奥秘。而当D3.js这一强大的JavaScript库,遇上专注于创建UML图的PlantUML,一场奇妙的…...
OpenCV机器学习(8)随机森林(Random Forests)算法cv::ml::RTrees类
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::ml::RTrees 是 OpenCV 机器学习模块中的一部分,用于实现随机森林(Random Forests)算法。随机森林是一种集…...
Java四大框架深度剖析:MyBatis、Spring、SpringMVC与SpringBoot
目录 前言: 一、MyBatis框架 1. 概述 2. 核心特性 3. 应用场景 4. 示例代码 二、Spring框架 1. 概述 2. 核心模块 3. 应用场景 4. 示例代码 三、SpringMVC框架 1. 概述 2. 核心特性 3. 应用场景 4. 示例代码 四、SpringBoot框架 1. 概述 2. 核心…...
MySQL系列之身份鉴别(安全)
导览 前言Q:如何保障MySQL数据库身份鉴别的有效性一、有效性检查 1. 用户唯一2. 启用密码验证3. 是否存在空口令用户4. 是否启用口令复杂度校验5. 是否设置口令的有效期6. 是否限制登录失败尝试次数7. 是否设置(超过尝试次数)锁定的最小时长…...
纯手工搭建整套CI/CD流水线指南
目录 一、前言 二、环境准备 1、服务器开荒(192.168.1.200) 2、离线资源清单(提前用U盘拷好) 三、硬核安装:比拧螺丝还细的步骤 Step1:搭建GitLab(注意!这是只内存饕餮…...
侯捷 C++ 课程学习笔记:C++ 基础与演化
一、课程基础要求 在侯捷老师C 课程中,首先强调了学习 C 前应具备的基础知识。这些基础知识对于理解 C 的核心概念和编程技巧至关重要。 掌握某种过程式语言(C 语言最佳): 变量(Variables):理解…...
LangChain:AI大模型开发与分布式系统设计
文章目录 第一部分:大模型与 LangChain 基础1.1 大语言模型概述1.2 LangChain 基础 第二部分:模型初始化与调用2.1 自定义大模型架构 第三部分:高级模型设计与优化3.1 提示工程与模型调优3.2 高效处理大规模数据 第四部分:分布式系…...
AI赋能编程:PyCharm与DeepSeek的智能开发革命
在这个智能化的时代,人工智能技术正在深刻地改变着我们的工作方式,尤其是在编程领域。无论是初学者还是资深开发者,都希望借助更高效的工具和智能助手来提升生产力、优化代码质量。今天,我们将聚焦于两个强大的工具:Py…...
c++:stack与deque
1.stack使用 1.1empty 作用:判断栈中是否为空 我们看到这里s1初始化的时候是空初始化,所以用empty来判断出的就是空的栈 1.2size size的作用就是判断栈中的数据个数 1.3push 与vector,string,list不同的是,stack中没有头插尾插的概念 因为栈有一个原则&…...
Linux-C/C++《C++/1、C++基础》(C++语言特性、面向对象等)
这里主要介绍概念为主,主要介绍 C与 C 语言中常用的不同点,和一些新的变化。其中不会去说指针、数据类型、变量类型、判断和循环等这些知识,这些和C 语言基本是一样使用的。我们主要学习 C的面向对象编程,对学习 Qt 有很大的帮助。…...
交易所开发:数字市场的核心动力
数字资产交易所作为连接用户与市场的核心枢纽,已成为推动数字经济发展的关键引擎。其开发不仅需要技术创新,还需兼顾用户体验、合规安全与生态构建,以下是交易所开发的核心要素与实践路径分析: 一、交易所的核心定位与技术架构…...
Spring Boot 应用(官网文档解读)
Spring Boot 启动方式 SpringApplication.run(MyApplication.class, args); Spring Boot 故障分析器 在Spring Boot 项目启动发生错误的时候,我们通常可以看到上面的内容,即 APPLICATION FAILED TO START,以及后面的错误描述。这个功能是通过…...
.Net面试宝典【刷题系列】
文章目录 1、JIT是如何工作的2、值类型和引用类型的区别3、解释泛型的基本原理4、如何自定义序列化和反序列化的过程5、如何使用 IFormattable 接口实现格式化输出6、请解释委托的基本原理7、什么是链式委托8、请解释反射的基本原理和其实现的基石9、如何利用反射来实现工厂模式…...
Unity游戏制作中的C#基础(3)加减乘除算术操作符,比较运算符,逻辑与,或运算符
1. 基本算术运算符 算术运算符主要用于对数值类型(整型和浮点型)进行基本的数学运算。以下是常见的算术运算符及其说明: 运算符描述示例结果加法运算符,用于两个数相加,也可用于字符串连接int a 5 3; string str &…...
如何优化 Webpack 的构建速度?
优化 Webpack 的构建速度是现代前端开发中至关重要的任务。随着项目规模的扩大,构建时间可能会显著增加,影响开发效率。以下是一些实用的方法和策略,以帮助你优化 Webpack 的构建速度。 一、使用生产模式和开发模式 1. 生产模式与开发模式 …...
win10把c盘docker虚拟硬盘映射迁移到别的磁盘
c盘空间本身就比较小、如果安装了docker服务后,安装的时候没选择其他硬盘,虚拟磁盘也在c盘会占用很大的空间,像我的就三十多个G,把它迁移到其他磁盘一下子节约几十G 1、先输入下面命令查看 docker 状态 wsl -l -v 2、如果没有停止…...
conda 配置源
无论是Anaconda vs Miniconda vs Miniforge 中的哪个,只要使用conda就涉及源,换源的目的是为了加速包的获取 修改配置文件 通过修改用户目录下的 .condarc 文件来使用 不同系统下的 .condarc 目录如下: Linux: ${HOME}/.condarcmacOS: ${…...
使用nvm管理node.js版本,方便vue2,vue3开发
在Vue项目开发过程中,我们常常会遇到同时维护Vue2和Vue3项目的情况。由于不同版本的Vue对Node.js 版本的要求有所差异,这就使得Node.js 版本管理成为了一个关键问题。NVM(Node Version Manager)作为一款强大的Node.js 版本管理工具…...
Rednote推行全球化战略:数据分离、服务条款差异,国际业务布局几何?
Rednote的全球化目标与初步举措去年在“TikTok难民”潮流中短暂成名的中国应用Rednote,立志成为全球社交媒体巨头。《连线》杂志发现,随着业务拓展,该公司正逐步将中国和国际用户群体区分开来。Rednote近期推出了新的网络域名Rednote.com&…...
深度解析DeepSeek-V4预览版:1M上下文普惠时代,国产大模型凭什么与巨头掰手腕?
推理性能比肩顶级闭源、百万上下文成标配、Agent能力开源领跑 2026年4月24日,距离前代大版本更新整整15个月之后,DeepSeek终于亮出了万众期待的DeepSeek-V4预览版,同步开源模型权重和技术报告。这不是一次简单的升级迭代——DeepSeek在技术报…...
不再停留在概念!金融垂直智能体,营销风控价值逐步兑现
今年以来,OpenClaw 小龙虾的横空出世,再度唤醒了社会大众对智能体助手的追捧,这一热门趋势也进一步延伸到金融行业。尽管像OpenClaw这样的智能体能够为金融机构提供更平价、易用的智能体落地痛到,但是碍于金融行业的强数据驱动、严…...
三大主流推理框架如何选型--SGLang、KTransformers、vLLM
文章目录一、基础信息与核心定位1. vLLM2. SGLang3. KTransformers二、统一测试基准(数据可信前提)三、三大框架量化实测数据(关键支撑)1. 单轮普通对话(无重复上下文)2. 多轮对话 / 重复上下文(…...
在Firefly RK3399 ProC上部署Python 3.7:一份保姆级的交叉编译与第三方库安装指南
在Firefly RK3399 ProC上部署Python 3.7:一份保姆级的交叉编译与第三方库安装指南 当开发者需要在嵌入式设备上运行Python应用时,往往会遇到一个关键挑战:如何在资源受限的ARM架构设备上构建完整的Python环境。Firefly RK3399 ProC作为一款高…...
RWKV-7 (1.5B World)镜像部署:腾讯云TI-ONE平台GPU容器配置
RWKV-7 (1.5B World)镜像部署:腾讯云TI-ONE平台GPU容器配置 1. 项目概述 RWKV-7 (1.5B World)是一款专为单卡GPU优化的轻量级对话模型,基于RWKV架构开发。这个1.5B参数的模型虽然体积小巧,却具备出色的多语言理解能力,特别适合在…...
Office界面定制神器:3步打造你的专属办公功能区
Office界面定制神器:3步打造你的专属办公功能区 【免费下载链接】office-custom-ui-editor Standalone tool to edit custom UI part of Office open document file format 项目地址: https://gitcode.com/gh_mirrors/of/office-custom-ui-editor 还在为每天…...
别再只用最近邻了!CloudCompare点云距离计算的三种局部模型怎么选?
别再只用最近邻了!CloudCompare点云距离计算的三种局部模型怎么选? 当你在CloudCompare中计算两个点云之间的距离时,是否经常直接使用默认的"最近邻"方法?这就像用锤子解决所有问题——有时有效,但更多时候会…...
如何利用Windows通知栏实现“摸鱼式“英语学习:ToastFish终极指南
如何利用Windows通知栏实现"摸鱼式"英语学习:ToastFish终极指南 【免费下载链接】ToastFish 一个利用摸鱼时间背单词的软件。 项目地址: https://gitcode.com/GitHub_Trending/to/ToastFish 你是否曾经想要在忙碌的工作间隙提升英语词汇量…...
让你的D435i在ROS Noetic下跑起来:一个完整的自定义CV节点开发与调试实战
深度视觉开发实战:基于D435i与ROS Noetic构建自定义CV处理节点 当RGB-D相机遇上机器人操作系统,开发者便拥有了感知三维世界的数字之眼。Intel RealSense D435i作为一款集成IMU的深度相机,在SLAM、物体识别和三维重建等领域展现出独特优势。本…...
