当前位置：首页 > news >正文

Beaustiful Soup爬虫案例

news 2026/5/27 18:08:21

文章目录

1 第三方库
2 爬取
- 2.1 初始化函数
- 2.2 结束时关闭数据库
- 2.3 生成header
- 2.4 获取请求body
- 2.5 解析异步json数据
- 2.6 使用BS4的find方法解析
- 2.7 写入口函数
- 2.8 调用
3 完整代码

1 第三方库

获取随机UA

pip install fake-useragent

连接数据库

$ pip3 install PyMySQL

发起请求

pip install requests

解析页面

pip install beautifulsoup4

进度条

pip install tqdm

2 爬取

2.1 初始化函数

新建爬虫类

class mySpider:

创建数据库连接和初始化url

# 初始化urldef __init__(self, url):self.url = url# 计数，请求一个页面的次数，初始值为1self.count = 1# 数据库连接对象self.db = pymysql.connect(host='localhost',port=3306,user='root',password='123456',database='test')# 创建游标对象self.cursor = self.db.cursor()

2.2 结束时关闭数据库

关闭数据库释放资源，方法运行完后调用。

# 结束断开数据库连接def __del__(self):self.cursor.close()self.db.close()print("关闭数据库！")

2.3 生成header

使用第三方库fake-useragent生成随机UA

# 获取一个headerdef getHeader(self):# 实例化ua对象ua = UserAgent()# 随机获取一个uaheaders = {'User-Agent': ua.random}return headers

2.4 获取请求body

注意有返回值的递归，要把返回值返回，回调时加return

def getBody(self, url, send_type, data):# 每次请求都随机停顿一些时间# time.sleep(random.randint(1, 2))# 在超时时间内，对于失败页面尝试请求三次if self.count <= 3:try:if send_type == 'get':res = requests.get(url=url, headers=self.getHeader(), params=data, timeout=2)elif send_type == 'post':res = requests.post(url=url, headers=self.getHeader(), data=data, timeout=2)else:print("未输入send_type，直接返回None")res = Nonereturn resexcept Exception as e:print(e)self.count += 1print(f"第{self.count}次，发起请求")# 再次调用自己,并把值返回，（注意要加return）return self.getBody(url, send_type, data)

2.5 解析异步json数据

解析异步json数据

def parseData(self, dataList):# 循环查看详情for row in tqdm(dataList, desc='爬取进度'):# 请求详情页urlurlDetail = f"https://www.baidu.com/CTMDS/pub/PUB010100.do?method=handle04&compId={row['companyId']}"# 发起请求# 每次请求都初始化一次self.countself.count = 1res = self.getBody(url=urlDetail, send_type='get', data={})if res is not None:# 解析htmlself.parseHtml(row=row, htmlText=res.text)else:print(f"{urlDetail}请求失败！")

2.6 使用BS4的find方法解析

find_all() 方法用来搜索当前 tag 的所有子节点，并判断这些节点是否符合过滤条件，最后以列表形式将符合条件的内容返回，语法格式如下
find_all( name , attrs , recursive , text , limit )
参数说明
name：查找所有名字为 name 的 tag 标签，字符串对象会被自动忽略。
attrs：按照属性名和属性值搜索 tag 标签，注意由于 class 是 Python 的关键字吗，所以要使用 “class_”。
recursive：find_all() 会搜索 tag 的所有子孙节点，设置 recursive=False 可以只搜索 tag 的直接子节点。
text：用来搜文档中的字符串内容，该参数可以接受字符串、正则表达式、列表、True。
limit：由于 find_all() 会返回所有的搜索结果，这样会影响执行效率，通过 limit 参数可以限制返回结果的数量。

def parseHtml(self, row, htmlText):soup = BeautifulSoup(htmlText, 'html.parser')# 获取备案信息divList = soup.find_all('div', class_=['col-md-8'])divtextList = [re.sub(r'\s+', '', div.text) for div in divList]# 获取其他机构地址divListOther = soup.find_all('div', class_=['col-sm-8'])divtextListOther = [re.sub(r'\s+', '', div.text) for div in divListOther]otherOrgAdd = ','.join(divtextListOther)# 插入数据库companyId = row['companyId']linkTel = row['linkTel']recordNo = row['recordNo']areaName = row['areaName']linkMan = row['linkMan']address = row['address']compName = row['compName']recordStatus = row['recordStatus']cancelRecordTime = row.get('cancelRecordTime', '')compLevel = divtextList[2]recordTime = divtextList[6]sql1 = "insert INTO medical_register(company_id,area_name,record_no,comp_name,address,link_man,link_tel,record_status,comp_level,record_time,cancel_record_time,other_org_add) "sql2 = f"values('{companyId}','{areaName}','{recordNo}','{compName}','{address}','{linkMan}','{linkTel}','{recordStatus}','{compLevel}','{recordTime}','{cancelRecordTime}','{otherOrgAdd}')"sql3 = sql1 + sql2# 执行sqlself.cursor.execute(sql3)# 提交self.db.commit()# 获取备案专业和主要研究者信息tbody = soup.find('tbody')trList = tbody.find_all('tr')# 对tr循环获取tdfor tr in trList:tdList = tr.find_all('td')tdTextList = [td.text for td in tdList]tdTextList.insert(0, companyId)# print(tdTextList)# 插入数据库sql4 = "insert into medical_register_sub (company_id,professional_name,principal_investigator,job_title) values(%s,%s,%s,%s)"self.cursor.execute(sql4, tdTextList)# 提交到数据库self.db.commit()

2.7 写入口函数

这里pageSize直接干到最大，懂的都懂！

def run(self):try:# 拿第一页的数据data = {'pageSize': 1350, 'curPage': 1}# 每次请求都初始化一次self.countself.count = 1res = self.getBody(url=self.url, send_type='post', data=data)if res is not None:# 加载为jsonjsonRes = json.loads(res.text)# 查看响应状态码status = jsonRes['success']# 如果状态为Trueif status == True:# 获取数据dataList = jsonRes['data']# 处理数据self.parseData(dataList=dataList)else:print(f"{self.url}请求失败")except Exception as e:print('发生错误！', e)

2.8 调用

调用

if __name__ == '__main__':spider = mySpider('https://www.baidu.com/CTMDS/pub/PUB010100.do?method=handle05')spider.run()

3 完整代码

完整代码

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import time
import random
import json
import re
import pymysql
from tqdm import tqdmclass mySpider:# 初始化urldef __init__(self, url):self.url = url# 计数，请求一个页面的次数，初始值为1self.count = 1# 数据库连接对象self.db = pymysql.connect(host='localhost',port=3306,user='root',password='logicfeng',database='test2')# 创建游标对象self.cursor = self.db.cursor()# 结束断开数据库连接def __del__(self):self.cursor.close()self.db.close()print("关闭数据库！")# 获取一个headerdef getHeader(self):# 实例化ua对象ua = UserAgent()# 随机获取一个uaheaders = {'User-Agent': ua.random}return headers# 获取请求bodydef getBody(self, url, send_type, data):# 每次请求都随机停顿一些时间# time.sleep(random.randint(1, 2))# 在超时时间内，对于失败页面尝试请求三次if self.count <= 3:try:if send_type == 'get':res = requests.get(url=url, headers=self.getHeader(), params=data, timeout=2)elif send_type == 'post':res = requests.post(url=url, headers=self.getHeader(), data=data, timeout=2)else:print("未输入send_type，直接返回None")res = Nonereturn resexcept Exception as e:print(e)self.count += 1print(f"第{self.count}次，发起请求")# 再次调用自己,并把值返回，（注意要加return）return self.getBody(url, send_type, data)# 解析bodydef parseData(self, dataList):# 循环查看详情for row in tqdm(dataList, desc='爬取进度'):# 请求详情页urlurlDetail = f"https://www.baidu.com/CTMDS/pub/PUB010100.do?method=handle04&compId={row['companyId']}"# 发起请求# 每次请求都初始化一次self.countself.count = 1res = self.getBody(url=urlDetail, send_type='get', data={})if res is not None:# 解析htmlself.parseHtml(row=row, htmlText=res.text)else:print(f"{urlDetail}请求失败！")# 解析页面def parseHtml(self, row, htmlText):soup = BeautifulSoup(htmlText, 'html.parser')# 获取备案信息divList = soup.find_all('div', class_=['col-md-8'])divtextList = [re.sub(r'\s+', '', div.text) for div in divList]# 获取其他机构地址divListOther = soup.find_all('div', class_=['col-sm-8'])divtextListOther = [re.sub(r'\s+', '', div.text) for div in divListOther]otherOrgAdd = ','.join(divtextListOther)# 插入数据库companyId = row['companyId']linkTel = row['linkTel']recordNo = row['recordNo']areaName = row['areaName']linkMan = row['linkMan']address = row['address']compName = row['compName']recordStatus = row['recordStatus']cancelRecordTime = row.get('cancelRecordTime', '')compLevel = divtextList[2]recordTime = divtextList[6]sql1 = "insert INTO medical_register(company_id,area_name,record_no,comp_name,address,link_man,link_tel,record_status,comp_level,record_time,cancel_record_time,other_org_add) "sql2 = f"values('{companyId}','{areaName}','{recordNo}','{compName}','{address}','{linkMan}','{linkTel}','{recordStatus}','{compLevel}','{recordTime}','{cancelRecordTime}','{otherOrgAdd}')"sql3 = sql1 + sql2# 执行sqlself.cursor.execute(sql3)# 提交self.db.commit()# 获取备案专业和主要研究者信息tbody = soup.find('tbody')trList = tbody.find_all('tr')# 对tr循环获取tdfor tr in trList:tdList = tr.find_all('td')tdTextList = [td.text for td in tdList]tdTextList.insert(0, companyId)# print(tdTextList)# 插入数据库sql4 = "insert into medical_register_sub (company_id,professional_name,principal_investigator,job_title) values(%s,%s,%s,%s)"self.cursor.execute(sql4, tdTextList)# 提交到数据库self.db.commit()# 入口函数def run(self):try:# 拿第一页的数据data = {'pageSize': 1350, 'curPage': 1}# 每次请求都初始化一次self.countself.count = 1res = self.getBody(url=self.url, send_type='post', data=data)if res is not None:# 加载为jsonjsonRes = json.loads(res.text)# 查看响应状态码status = jsonRes['success']# 如果状态为Trueif status == True:# 获取数据dataList = jsonRes['data']# 处理数据self.parseData(dataList=dataList)else:print(f"{self.url}请求失败")except Exception as e:print('发生错误！', e)if __name__ == '__main__':spider = mySpider('https://www.百度.com/CTMDS/pub/PUB010100.do?method=handle05')spider.run()

Beaustiful Soup爬虫案例

文章目录 1 第三方库2 爬取2.1 初始化函数2.2 结束时关闭数据库2.3 生成header2.4 获取请求body2.5 解析异步json数据2.6 使用BS4的find方法解析2.7 写入口函数2.8 调用 3 完整代码 1 第三方库获取随机UA pip install fake-useragent连接数据库 $ pip3 install PyMySQL发起…...

编程日记 2023/11/7 12:50:15

【Redis】Redis与SSM整合Redis注解式缓存Redis解决缓存问题

一，Redis与ssm整合 1.1 pom.xml配置在pom.xml中配置相关的redis文件 redis文件： <redis.version>2.9.0</redis.version> <redis.spring.version>1.7.1.RELEASE</redis.spring.version><dependency><groupId>red…...

编程日记 2023/11/7 12:48:14

谈一谈SQLite、MySQL、PostgreSQL三大数据库

每一份付出，必将有一份收货，就像这个小小的果实，时间到了，也就会开花结果… 三大数据库概述 SQLite、MySQL 和 PostgreSQL 都是流行的关系型数据库管理系统（RDBMS），但它们在功能、适用场景和性…...

编程日记 2023/11/7 12:47:13

【微软技术栈】C#.NET 中的本地化

本文内容资源文件注册本地化服务使用 IStringLocalizer<T> 和 IStringLocalizerFactory将其放在一起本地化是针对应用支持的每个区域性，将应用资源转换为本地化版本的过程。只有在完成本地化评审步骤，以验证全球化应用是否做好本地化准备后&a…...

编程日记 2023/11/7 12:45:09

【qemu逃逸】华为云2021-qemu_zzz

前言虚拟机用户名：root 无密码设备逆向经过逆向分析，可得实例结构体大致结构如下： 其中 self 指向的是结构体本身，cpu_physical_memory_rw 就是这个函数的函数指针。arr 应该是 PCI 设备类结构体没啥用，就直接用…...

编程日记 2023/11/7 12:44:08

vue递归获取树形菜单

文章目录前言什么是递归？ 一、数据集二、递归函数三、打印树形结构展示前言什么是递归？ 程序调用自身的编程技巧称为递归（ recursion）。递归粗略的理解为循环 ，只不过递归是调用自身。在实际使用中&#xf…...

编程日记 2023/11/7 12:43:07

[ubuntu]ubuntu22.04默认源和国内源

sudo vi /etc/apt/sources.list 请选择和系统对应的版本，查看系统版本命令： lsb_release -a Distributor ID: Ubuntu Description: Ubuntu 22.04 LTS Release: 22.04 Codename: jammy Ubuntu不同的版本配置的有…...

编程日记 2023/11/7 12:42:06

Map和ForEach的区别，For in和For of的区别

Map和ForEach的区别： 共同点：都可以遍历数组，this指向window，都不会改变原数组。不同点：map返回一个数组，不会对空数组进行检测，如果是空数组map的话还是返回一个空数组，而空数组…...

编程日记 2023/11/7 12:41:04

json字符串属性名与实体类字段名转换

在项目开发过程中，会遇到实体类字段名与交互的json对象属性名不一致的情况，比如前段使用的是下划线方式定义，后端采用的是驼峰式定义，其他系统使用t表示一个时间戳，自己的系统使用timestamp定义。遇到这种情况&#xf…...

编程日记 2023/11/7 12:40:03

Vue Vuex模块化编码

正常写vuex的index的时候如果数据太多很麻烦，如有的模块是管理用户信息或修改课程等这两个是不同一个种类的，如果代码太多会造成混乱，这时候可以使用模块化管理原始写法如果功能模块太多很乱 import Vue from vue import Vuex from vuex …...

编程日记 2023/11/7 12:39:02

消费者忠诚度研究：群狼调研帮您制定忠诚客户计划

在当今竞争激烈的市场环境中，消费者忠诚度对于企业的成功至关重要。消费者忠诚度不仅关系到企业的市场份额和盈利能力，还直接影响着企业的品牌形象和声誉。群狼调研作为一家专业的市场研究机构，专注于消费者忠诚度研究，为企业提供…...

编程日记 2023/11/7 12:38:01

接口幂等性详解

1. 什么是幂等性幂等性指的是对同一个操作的多次执行所产生的影响与一次执行的影响相同。无论操作执行多少次，系统状态都应该保持一致。在计算机科学和网络领域中，幂等性通常用来描述服务或操作的特性。对于RESTful API或HTTP方法，一个幂…...

编程日记 2023/11/7 12:37:00

Java操作redis常见类型数据存储

一，Java连接Redis 1.1 导入依赖打开IDEA在pom.xml导入依赖注意：要在dependencies标签中导入 <dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>2.9.0</version> &…...

编程日记 2023/11/7 12:35:59

【深度学习】pytorch——Autograd

笔记为自我总结整理的学习笔记，若有错误欢迎指出哟~ 深度学习专栏链接： http://t.csdnimg.cn/dscW7 pytorch——Autograd Autograd简介requires_grad计算图没有梯度追踪的张量ensor.data 、tensor.detach()非叶子节点的梯度计算图特点总结利用Autograd实…...

编程日记 2023/11/7 12:34:58

【ARM 安全系列介绍 1 -- 奇偶校验与海明码校验详细介绍】

文章目录奇偶校验介绍奇偶校验 python 实现奇偶校验C代码实现海明码详细介绍奇偶校验介绍奇偶校验是一种错误检测方法，广泛应用于计算机内部以及数据通信领域。其基本原理是为了使得一组数据（通常是一字节8位）中的“1”的个数为偶数或奇…...

编程日记 2023/11/7 12:33:57

分享34个发布商会PPT，总有一款适合您

分享34个发布商会PPT，总有一款适合您链接：https://pan.baidu.com/s/1jP9toqTZONWeDIcxvw1wxg?pwd8888 提取码：8888 Python采集代码下载链接：采集代码.zip - 蓝奏云学习知识费力气，收集整理更不易。知识付费甚…...

编程日记 2023/11/7 12:32:56

047_第三代软件开发-日志分离

第三代软件开发-日志分离文章目录第三代软件开发-日志分离项目介绍日志分离用法关键字： Qt、 Qml、 log、日志、分离项目介绍欢迎来到我们的 QML & C 项目！这个项目结合了 QML（Qt Meta-Object Language）和 C 的强…...

编程日记 2023/11/7 12:31:54

ChinaSoft 论坛巡礼 | 系统与网络安全论坛

2023年CCF中国软件大会（CCF ChinaSoft 2023）由CCF主办，CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办，将于2023年12月1-3日在上海国际会议中心举行。本次大会主题是“智能化软件创新推动数字经济与社…...

编程日记 2023/11/7 12:29:52

Ubuntu Gitlab安javascript:void(‘numberedlist‘)装

原因： 代码越改越多，越难维护，开发代码和发布代码融为一体；2人以上开发，都会修改代码，修改次数一多，代码难以维护其中：前往Gitlab官网：gitlab/gitlab-ce - Packages pa…...

编程日记 2023/11/7 12:28:51

11.4-GPT4AllTools版本已开始对小部分GPT3.5用户内测推送

OpenAI已经开始小规模推送GPT4 AllTools功能，部分GPT博主已经第一时间体验了此功能，此功能特色是整合目前的多模态功能以及文件上传和联网模块，无需切换，更要全面综合可上传包括 PDF、数据文件在内的任意文档，并进行分…...

编程日记 2023/11/7 12:27:50

告别命令行！用Python脚本批量管理Docker容器，效率提升不止一点点

告别命令行！用Python脚本批量管理Docker容器，效率提升不止一点点每次在终端敲入docker ps、docker stop、docker rm时，你是否想过——当容器数量超过两位数，这种重复劳动是否在消耗你的生命？去年我们团队在迁移微服务架…...

编程新知 2026/5/26 3:32:08

用C语言解决‘换硬币’问题？我来教你如何调试和验证你的循环逻辑

用C语言解决‘换硬币’问题？我来教你如何调试和验证你的循环逻辑当你第一次面对"换硬币"这类组合问题时，那种既兴奋又困惑的感觉我至今记忆犹新。作为C语言初学者，理解多重循环的运作机制就像在迷宫中寻找出口——每次你以为找到了…...

编程新知 2026/5/26 3:17:59

ThinkPad开机报错0183/0253？别慌，手把手教你搞定EFI变量错误（附BIOS重置教程）

ThinkPad开机报错0183/0253？EFI变量错误全面解决方案当你按下ThinkPad的电源键，期待熟悉的开机画面时，屏幕上却突然跳出一串神秘代码——"0183: Bad CRC of Security Settings in EFI Variable"或"0253: EFI Variable Block D…...

编程新知 2026/5/26 1:47:12

别再只测accuracy！DeepSeek集成测试必须监控的5个隐性指标（P99首token延迟、context bleed率、tool-call schema漂移）

更多请点击： https://intelliparadigm.com 第一章：DeepSeek集成测试的核心范式演进 DeepSeek大模型的工程化落地对集成测试提出了全新挑战：传统基于接口响应码与字段校验的测试范式已难以覆盖语义一致性、推理链鲁棒性、上下文敏感度等高阶质…...

编程新知 2026/5/26 0:42:31

SMUDebugTool终极指南：如何深度掌控AMD Ryzen处理器的隐藏性能

SMUDebugTool终极指南：如何深度掌控AMD Ryzen处理器的隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: ht…...

编程新知 2026/5/25 23:59:47

2026 文章代码高亮方案选型

将基于 Prism.js 或 Highlight.js 的传统高亮方案与基于 Shiki 的现代化高亮方案进行对比，其核心区别在于底层解析原理的不同（正则表达式 vs. TextMate 语法树）。以下是两种方案的底层原理、各自优缺点、核心对比矩阵以及适用场景的详细分析…...

编程新知 2026/5/25 22:40:37

独立开发者如何利用Taotoken Token Plan，以更低成本启动AI项目

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度独立开发者如何利用Taotoken Token Plan，以更低成本启动AI项目对于独立开发者或小型团队而言，启动一个集成…...

编程新知 2026/5/25 21:21:36

Ubuntu经常安装软件

1、垃圾清理工具stacer sudo apt updatesudo apt install stacer apt cleanapt autocleanapt autoremove 2、类似与everything的工具Fsearcch 1sudo add-apt-repository ppa:christian-boxdoerfer/fsearch-stable 2sudo apt update 3sudo apt install fsearch (注&#xf…...

编程新知 2026/5/25 21:17:35