当前位置：首页 > news >正文

python网络爬虫（四）——实战练习

news 2025/7/7 18:34:25

0.为什么要学习网络爬虫

深度学习一般过程:
在这里插入图片描述
收集数据，尤其是有标签、高质量的数据是一件昂贵的工作。
爬虫的过程，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息，并进行保存的过程。
Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库

1.爬虫练习前言

本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。
数据获取：https://baike.baidu.com/item/青春有你第二季
在这里插入图片描述

普通用户:
打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:
模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。

本实践中将会使用以下两个模块，首先对这两个模块简单了解以下：

request模块：

requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/
requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup库：

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。
网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup,
“lxml”)，推荐使用lxml作为解析器,因为效率更高。

2.程序代码

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
from urllib import parse
import ostoday = datetime.date.today().strftime('%Y%m%d')def crawl_wiki_data():"""爬取百度百科中《青春有你2》中参赛选手信息，返回html"""headers = {#'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'#'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36 Edg/101.0.1210.32''User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'}url='https://baike.baidu.com/item/青春有你第二季'try:response = requests.get(url, headers=headers)print(response.status_code)# 将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串soup = BeautifulSoup(response.text, 'lxml')# 返回的是class为table-view log-set-param的<table>所有标签tables = soup.find_all('table', {'class': 'table-view log-set-param'})crawl_table_title = "参赛学员"for table in tables:# 对当前节点前面的标签和字符串进行查找table_titles = table.find_previous('div').find_all('h3')for title in table_titles:if (crawl_table_title in title):return tableexcept Exception as e:print(e)def parse_wiki_data(table_html):'''从百度百科返回的html中解析得到选手信息，以当前日期作为文件名，存JSON文件,保存到work目录下'''bs = BeautifulSoup(str(table_html), 'lxml')all_trs = bs.find_all('tr')error_list = ['\'', '\"']stars = []for tr in all_trs[1:]:all_tds = tr.find_all('td')star = {}# 姓名star["name"] = all_tds[0].text# 个人百度百科链接star["link"] = 'https://baike.baidu.com' + all_tds[0].find('a').get('href')# 籍贯star["zone"] = all_tds[1].text# 星座star["constellation"] = all_tds[2].text# 身高star["height"] = all_tds[3].text# 体重star["weight"] = all_tds[4].text# 花语,去除掉花语中的单引号或双引号flower_word = all_tds[5].textfor c in flower_word:if c in error_list:flower_word = flower_word.replace(c, '')# 公司if not all_tds[6].find('a') is None:star["company"] = all_tds[6].find('a').textelse:star["company"] = all_tds[6].textstar["flower_word"] = flower_wordstars.append(star)json_data = json.loads(str(stars).replace("\'", "\""))with open('data/' + today + '.json', 'w', encoding='UTF-8') as f:json.dump(json_data, f, ensure_ascii=False)def crawl_pic_urls():'''爬取每个选手的百度百科图片，并保存'''with open('data/' + today + '.json', 'r', encoding='UTF-8') as file:json_array = json.loads(file.read())statistics_datas = []headers = {# 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36''User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36 Edg/101.0.1210.32'}for star in json_array:name = star['name']link = star['link']# 向选手个人百度百科发送一个http get请求response = requests.get(link, headers=headers)# 将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象bs = BeautifulSoup(response.text, 'lxml')# 从个人百度百科页面中解析得到一个链接，该链接指向选手图片列表页面pic_list_url = bs.select('.summary-pic a')[0].get('href')pic_list_url = 'https://baike.baidu.com' + pic_list_url# 向选手图片列表页面发送http get请求pic_list_response = requests.get(pic_list_url, headers=headers)# 对选手图片列表页面进行解析，获取所有图片链接bs = BeautifulSoup(pic_list_response.text, 'lxml')pic_list_html = bs.select('.pic-list img ')pic_urls = []for pic_html in pic_list_html:pic_url = pic_html.get('src')pic_urls.append(pic_url)# 根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中down_pic(name, pic_urls)def down_pic(name,pic_urls):'''根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中,'''path = 'work/'+'pics/'+name+'/'if not os.path.exists(path):os.makedirs(path)for i, pic_url in enumerate(pic_urls):try:pic = requests.get(pic_url, timeout=15)string = str(i + 1) + '.jpg'with open(path+string, 'wb') as f:f.write(pic.content)print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))except Exception as e:print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))print(e)continuedef show_pic_path(path):'''遍历所爬取的每张图片，并打印所有图片的绝对路径'''pic_num = 0for (dirpath, dirnames, filenames) in os.walk(path):for filename in filenames:pic_num += 1print("第%d张照片：%s" % (pic_num, os.path.join(dirpath, filename)))print("共爬取《青春有你2》选手的%d照片" % pic_num)if __name__ == '__main__':#爬取百度百科中《青春有你2》中参赛选手信息，返回htmlhtml = crawl_wiki_data()#解析html,得到选手信息，保存为json文件parse_wiki_data(html)#从每个选手的百度百科页面上爬取图片,并保存crawl_pic_urls()#打印所爬取的选手图片路径#('/home/aistudio/work/pics/')print("所有信息爬取完成！")

python网络爬虫（四）——实战练习

0.为什么要学习网络爬虫深度学习一般过程: 收集数据，尤其是有标签、高质量的数据是一件昂贵的工作。爬虫的过程，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息&#xff0c…...

编程日记 2024/9/8 17:30:46

tio websocket 客户端 java 代码工具类

为了更好地组织代码并提高可复用性，我们可以将WebSocket客户端封装成一个工具类。这样可以在多个地方方便地使用WebSocket客户端功能。以下是使用tio库实现的一个WebSocket客户端工具类。 1. 添加依赖确保项目中添加了tio的依赖。如果使用的是Maven，可以…...

编程日记 2024/9/8 17:27:43

通过卷积神经网络（CNN）识别和预测手写数字

一：卷积神经网络（CNN）和手写数字识别MNIST数据集的介绍卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，它在图像和视频识别、分类和分割任务中表现出色。CNN通过模仿…...

编程日记 2024/9/8 17:25:41

【A题第二套完整论文已出】2024数模国赛A题第二套完整论文+可运行代码参考（无偿分享）

“板凳龙” 闹元宵路径速度问题摘要本文针对传统舞龙进行了轨迹分析，并针对一系列问题提出了解决方案，将这一运动进行了模型可视化。针对问题一，我们首先对舞龙的螺线轨迹进行了建模，将直角坐标系转换为极坐标系&#xff0…...

编程日记 2024/9/8 17:24:40

一份热乎的数据分析(数仓)面试题 | 每天一点点，收获不止一点

目录 1. 已有ods层⽤⼾表为ods_online.user_info，有两个字段userid和age，现设计数仓⽤⼾表结构如下： 2. 设计数据仓库的保单表（⾃⾏命名） 3. 根据上述两表，查询2024年8⽉份，每⽇&#xff0c…...

编程日记 2024/9/8 17:23:39

3 html5之css新选择器和属性

要说css的变化那是发展比较快的，新增的选择器也很多，而且还有很多都是比较实用的。这里举出一些案例，看看你平时都是否用过。 1 新增的一些写法： 1.1 导入css 这个是非常好的一个变化。这样可以让我们将css拆分成公共部分或者多…...

编程日记 2024/9/8 17:21:37

【Kubernetes】K8s 的鉴权管理（一）：基于角色的访问控制（RBAC 鉴权）

K8s 的鉴权管理（一）：基于角色的访问控制（RBAC 鉴权） 1.Kubernetes 的鉴权管理1.1 审查客户端请求的属性1.2 确定请求的操作 2.基于角色的访问控制（RBAC 鉴权）2.1 基于角色的访问控制中的概念2.1…...

编程日记 2024/9/8 17:20:36

保研比赛利器：用AI比赛助手降维打击数学建模

数学建模作为一个热门但又具有挑战性的赛道，在保研、学分加分、简历增色等方面具有独特优势。近年来，随着AI技术的发展，特别是像GPT-4模型的应用，数学建模的比赛变得不再那么“艰深”。通过利用AI比赛助手，不仅可以大大…...

编程日记 2024/9/8 17:19:34

秋招校招，在线性格测评应该如何应对

秋招校招，如果遇到在线测评，如何应对？ 这里写个总结稿，希望对大家有些帮助。在线测评是企业深入了解求职人的渠道，如果是性格测试，会要求测试者能够快速答出，以便于反应实际情况（时间…...

编程日记 2024/9/8 17:17:32

chrome 插件开发入门

1. 介绍 Chrome 插件可用于在谷歌浏览器上控制当前页面的一些操作，可自主控制网页，提升效率。平常我们可在谷歌应用商店中下载谷歌插件来增强浏览器功能，作为开发者，我们也可以自己开发一个浏览器插件来配合我们的日常学习工作…...

编程日记 2024/9/8 17:14:29

一、人工智能三大概念 1.1 AI、ML、DL 1.1.1 什么是人工智能? AI：Artificial Intelligence 人工智能 AI is the field that studies the synthesis and analysis of computational agents that act intelligently AI is to use computers to analog and instead…...

编程日记 2024/9/8 17:12:27

Python中的私有属性与方法：解锁面向对象编程的秘密

在Python的广阔世界里，面向对象编程（OOP）是一种强大而灵活的方法论，它帮助我们更好地组织代码、管理状态，并构建可复用的软件组件。而在这个框架内，私有属性与方法则是实现封装的关键机制之一。它们不仅有助…...

编程日记 2024/9/8 17:11:26

开篇_____何谓安卓机型“工程固件” 与其他固件的区别作用

此系列博文将分析安卓系列机型与一些车机 wifi板子等工程固件的一些常识。从早期安卓1.0起始到目前的安卓15，一些厂家发布新机型的常规流程都是从工程机到量产的过程。在其中就需要调试各种参数以便后续的量产参数可以固定到最佳，工程固件由此诞生。后…...

编程日记 2024/9/8 17:10:25

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed 文章目录 DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed问题解决办法问题使用 DBeaver 连接 MySQL 数据库的时候， 一直报错下面的错误 Public Key Retrieval is not allowed详细…...

编程日记 2024/9/8 17:09:23

三个月涨粉两万，只因为知道了这个AI神器

大家好，我是凡人，最近midjourney的账号到期了，正准备充值时，被一个国内AI图片的生成神器给震惊了，不说废话，先上图看看生成效果。怎么样还不错吧，是我非常喜欢的国风画，哈哈&#x…...

编程日记 2024/9/8 17:08:22

vulhub GhostScript 沙箱绕过（CVE-2018-16509）

1.搭建环境 2.进入网站 3.下载包含payload的png文件 vulhub/ghostscript/CVE-2018-16509/poc.png at master vulhub/vulhub GitHub 4.上传poc.png图片 5.查看创建的文件...

编程日记 2024/9/8 17:07:21

李宏毅机器学习笔记——反向传播算法

反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降…...

编程日记 2024/9/8 17:06:20

内推｜京东｜后端开发｜运维｜算法...｜北京更多岗位扫内推码了解，直接投递，跟踪进度

热招岗位更多岗位欢迎扫描末尾二维码，小程序直接提交简历等面试。实时帮你查询面试进程。安全运营中心研发工程师岗位要求 1、本科及以上学历，3年以上的安全相关工作经验； 2、熟悉c/c、go编程语言之一、熟悉linux网络编程和系统编程 3、…...

编程日记 2024/9/8 17:05:19

编写Dockerfile第二版

目标更快的构建速度更小的Docker镜像大小更少的Docker镜像层充分利用镜像缓存增加Dockerfile可读性让Docker容器使用起来更简单总结编写.dockerignore文件容器只运行单个应用将多个RUN指令合并为一个基础镜像的标签不要用latest 每个RUN指令后删除多余文…...

编程日记 2024/9/8 17:02:16

校验码：奇偶校验，CRC循环冗余校验，海明校验码

文章目录奇偶校验码CRC循环冗余校验码海明校验码奇偶校验码码距：任何一种编码都由许多码字构成，任意两个码字之间最少变化的二进制位数就称为数据检验码的码距。奇偶校验码的编码方法是：由若干位有效信息(如一个字节)，再加上…...

编程日记 2024/9/8 16:59:13

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件，然后打开终端，进入下载文件夹，键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

编程新知 2025/7/7 8:00:22

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2025/7/7 11:58:13

Linux云原生安全：零信任架构与机密计算

Linux云原生安全：零信任架构与机密计算构建坚不可摧的云原生防御体系引言：云原生安全的范式革命随着云原生技术的普及，安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测，到2025年，零信任架构将成为超…...

编程新知 2025/7/5 14:33:07

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

系列回顾： 在上一篇中，我们成功地为应用集成了数据库，并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了！但是，如果你仔细审视那些 API，会发现它们还很“粗糙”：有…...

编程新知 2025/7/6 16:09:40

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2025/7/7 3:26:15

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2025/7/7 14:25:55

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。题目数据保证数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位整数范围内。请不要使用除法，且在 O(n) 时间复杂度…...

编程新知 2025/7/6 15:59:45

【JavaWeb】Docker项目部署

引言之前学习了Linux操作系统的常见命令，在Linux上安装软件，以及如何在Linux上部署一个单体项目，大多数同学都会有相同的感受，那就是麻烦。核心体现在三点： 命令太多了，记不住软件安装包名字复杂&…...

编程新知 2025/7/5 6:38:59

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2025/7/6 22:08:14

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由：大部分的转换软件需要收费，要么功能不齐全，而开会员又用不了几次浪费钱，借用别人的又不安全。这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

编程新知 2025/6/28 13:23:48

python网络爬虫（四）——实战练习

0.为什么要学习网络爬虫

1.爬虫练习前言

2.程序代码

相关文章：

python网络爬虫（四）——实战练习

tio websocket 客户端 java 代码工具类

通过卷积神经网络（CNN）识别和预测手写数字

【A题第二套完整论文已出】2024数模国赛A题第二套完整论文+可运行代码参考（无偿分享）

一份热乎的数据分析(数仓)面试题 | 每天一点点，收获不止一点

3 html5之css新选择器和属性

【Kubernetes】K8s 的鉴权管理（一）：基于角色的访问控制（RBAC 鉴权）

保研比赛利器：用AI比赛助手降维打击数学建模

秋招校招，在线性格测评应该如何应对

chrome 插件开发入门

揭开面纱--机器学习

Python中的私有属性与方法：解锁面向对象编程的秘密

开篇_____何谓安卓机型“工程固件” 与其他固件的区别作用

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

三个月涨粉两万，只因为知道了这个AI神器

vulhub GhostScript 沙箱绕过（CVE-2018-16509）

李宏毅机器学习笔记——反向传播算法

内推｜京东｜后端开发｜运维｜算法...｜北京更多岗位扫内推码了解，直接投递，跟踪进度

编写Dockerfile第二版

校验码：奇偶校验，CRC循环冗余校验，海明校验码

1.3 VSCode安装与环境配置

视频字幕质量评估的大规模细粒度基准

Linux云原生安全：零信任架构与机密计算

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

PL0语法，分析器实现！

数据库分批入库

[Java恶补day16] 238.除自身以外数组的乘积

【JavaWeb】Docker项目部署

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

【分享】推荐一些办公小工具