当前位置：首页 > article >正文

新手必须掌握的6个Python爬虫库，非常实用！

article 2026/3/30 19:54:17

Python中有非常多用于网络数据采集的库功能非常强大有的用于抓取网页有的用于解析网页这里介绍6个最常用的库。1. BeautifulSoupBeautifulSoup是最常用的Python网页解析库之一可将 HTML 和 XML 文档解析为树形结构能更方便地识别和提取数据。BeautifulSoup可以自动将输入文档转换为 Unicode将输出文档转换为 UTF-8。此外你还可以设置 BeautifulSoup 扫描整个解析页面识别所有重复的数据例如查找文档中的所有链接只需几行代码就能自动检测特殊字符等编码。from bs4 import BeautifulSoup # 假设这是我们从某个网页获取的HTML内容这里直接以字符串形式给出 html_content html head title示例网页/title /head body h1欢迎来到BeautifulSoup示例/h1 p classintroduction这是一个关于BeautifulSoup的简单示例。/p a hrefhttps://www.example.com/about classlink关于我们/a /body /html # 使用BeautifulSoup解析HTML内容这里默认使用Python的html.parser作为解析器 # 你也可以指定其他解析器如lxml或html5lib但需要先安装它们 soup BeautifulSoup(html_content, html.parser) # 提取并打印title标签的文本内容 print(网页标题:, soup.title.string) # 网页标题: 示例网页 # 提取并打印p标签的文本内容这里使用class属性来定位 print(介绍内容:, soup.find(p, class_introduction).string) # 介绍内容: 这是一个关于BeautifulSoup的简单示例。 # 提取并打印a标签的href属性和文本内容 link soup.find(a, class_link) print(链接地址:, link[href]) # 链接地址: https://www.example.com/about print(链接文本:, link.string) # 链接文本: 关于我们 # 注意如果HTML内容中包含多个相同条件的标签你可以使用find_all()来获取它们的一个列表 # 例如要获取所有a标签的href属性可以这样做 all_links [a[href] for a in soup.find_all(a)] print(所有链接地址:, all_links) # 假设HTML中有多个a标签这里将列出它们的href属性 # 注意上面的all_links列表在当前的HTML内容中只有一个元素因为只有一个a标签2. ScrapyScrapy是一个流行的高级爬虫框架可快速高效地抓取网站并从其页面中提取结构化数据。由于 Scrapy 主要用于构建复杂的爬虫项目并且它通常与项目文件结构一起使用Scrapy 不仅仅是一个库还可以用于各种任务包括监控、自动测试和数据挖掘。这个 Python 库包含一个内置的选择器Selectors功能可以快速异步处理请求并从网站中提取数据。# 假设这个文件名为 my_spider.py但它实际上应该放在 Scrapy 项目的 spiders 文件夹中 import scrapy class MySpider(scrapy.Spider): # Spider 的名称必须是唯一的 name example_spider # 允许爬取的域名列表可选 # allowed_domains [example.com] # 起始 URL 列表 start_urls [ http://example.com/, ] def parse(self, response): # 这个方法用于处理每个响应 # 例如我们可以提取网页的标题 title response.css(title::text).get() if title: # 打印标题在控制台输出 print(fTitle: {title}) # 你还可以继续爬取页面中的其他链接这里只是简单示例 # 例如提取所有链接并请求它们 # for href in response.css(a::attr(href)).getall(): # yield scrapy.Request(urlresponse.urljoin(href), callbackself.parse) # 注意上面的代码只是一个 Spider 类的定义。 # 要运行这个 Spider你需要将它放在一个 Scrapy 项目中并使用 scrapy crawl 命令来启动爬虫。 # 例如如果你的 Scrapy 项目名为 myproject并且你的 Spider 文件名为 my_spider.py # 那么你应该在项目根目录下运行以下命令 # scrapy crawl example_spider3. SeleniumSelenium 是一款基于浏览器地自动化程序库可以抓取网页数据。它能在 JavaScript 渲染的网页上高效运行这在其他 Python 库中并不多见。在开始使用 Python 处理 Selenium 之前需要先使用 Selenium Web 驱动程序创建功能测试用例。Selenium 库能很好地与任何浏览器如 Firefox、Chrome、IE 等配合进行测试比如表单提交、自动登录、数据添加/删除和警报处理等。from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 设置WebDriver的路径根据你的系统路径和WebDriver版本修改 driver_path /path/to/your/chromedriver # 初始化WebDriver driver webdriver.Chrome(executable_pathdriver_path) try: # 打开网页 driver.get(https://www.example.com) # 等待页面加载完成这里使用隐式等待针对所有元素 # 注意隐式等待可能会影响性能通常在脚本开始时设置一次 driver.implicitly_wait(10) # 秒 # 查找并输入文本到搜索框假设搜索框有一个特定的ID或类名等 # 这里以ID为search的输入框为例 search_box driver.find_element(By.ID, search) search_box.send_keys(Selenium WebDriver) # 提交搜索假设搜索按钮是一个类型为submit的按钮或是一个可以点击的输入框 # 如果搜索是通过按Enter键触发的可以直接在search_box上使用send_keys(Keys.ENTER) # 这里假设有一个ID为submit的按钮 submit_button driver.find_element(By.ID, submit) submit_button.click() # 等待搜索结果加载完成这里使用显式等待作为示例 # 假设搜索结果页面有一个特定的元素我们等待它出现 wait WebDriverWait(driver, 10) # 等待最多10秒 element wait.until(EC.presence_of_element_located((By.ID, results))) # 执行其他操作... finally: # 关闭浏览器 driver.quit()4. requests不用多说requests 是 Python 中一个非常流行的第三方库用于发送各种 HTTP 请求。它简化了 HTTP 请求的发送过程使得从网页获取数据变得非常简单和直观。requests 库提供了丰富的功能和灵活性支持多种请求类型如 GET、POST、PUT、DELETE 等可以发送带有参数、头信息、文件等的请求并且能够处理复杂的响应内容如 JSON、XML 等。import requests # 目标URL url https://httpbin.org/get # 发送GET请求 response requests.get(url) # 检查请求是否成功 if response.status_code 200: # 打印响应内容 print(response.text) else: # 打印错误信息 print(f请求失败状态码{response.status_code})5. urllib3urllib3 是 Python内置网页请求库类似于 Python 中的requests库主要用于发送HTTP请求和处理HTTP响应。它建立在Python标准库的urllib模块之上但提供了更高级别、更健壮的API。urllib3可以用于处理简单身份验证、cookie 和代理等复杂任务。import urllib3 # 创建一个HTTP连接池 http urllib3.PoolManager() # 目标URL url https://httpbin.org/get # 使用连接池发送GET请求 response http.request(GET, url) # 检查响应状态码 if response.status 200: # 打印响应内容注意urllib3默认返回的是bytes类型这里我们将其解码为str print(response.data.decode(utf-8)) else: # 如果响应状态码不是200则打印错误信息 print(f请求失败状态码{response.status}) # 注意urllib3没有直接的方法来处理JSON响应但你可以使用json模块来解析 # 如果响应内容是JSON你可以这样做 # import json # json_response json.loads(response.data.decode(utf-8)) # print(json_response)6. lxmllxml是一个功能强大且高效的Python库主要用于处理XML和HTML文档。它提供了丰富的API使得开发者可以轻松地读取、解析、创建和修改XML和HTML文档。from lxml import etree # 假设我们有一段HTML或XML内容这里以HTML为例 html_content html head title示例页面/title /head body h1欢迎来到我的网站/h1 p classdescription这是一个使用lxml解析的示例页面。/p ul li项目1/li li项目2/li /ul /body /html # 使用lxml的etree模块来解析HTML或XML字符串 # 注意对于HTML内容我们使用HTMLParser解析器 parser etree.HTMLParser() tree etree.fromstring(html_content, parserparser) # 查找并打印title标签的文本 title tree.find(.//title).text print(页面标题:, title) # 查找并打印class为description的p标签的文本 description tree.find(.//p[classdescription]).text print(页面描述:, description) # 查找所有的li标签并打印它们的文本 for li in tree.findall(.//li): print(列表项:, li.text) # 注意lxml也支持XPath表达式来查找元素这里只是简单展示了find和findall的用法 # XPath提供了更强大的查询能力其他爬虫工具除了Python库之外还有其他爬虫工具可以使用。八爪鱼爬虫八爪鱼爬虫是一款功能强大的桌面端爬虫软件主打可视化操作即使是没有任何编程基础的用户也能轻松上手。官网https://affiliate.bazhuayu.com/hEvPKU八爪鱼支持多种数据类型采集包括文本、图片、表格等并提供强大的自定义功能能够满足不同用户需求。此外八爪鱼爬虫支持将采集到的数据导出为多种格式方便后续分析处理。亮数据爬虫亮数据平台提供了强大的数据采集工具比如Web Scraper IDE、亮数据浏览器、SERP API等能够自动化地从网站上抓取所需数据无需分析目标平台的接口直接使用亮数据提供的方案即可安全稳定地获取数据。网站https://get.brightdata.com/weijun亮数据浏览器支持对多个网页进行批量数据抓取适用于需要JavaScript渲染的页面或需要进行网页交互的场景。Web ScraperWeb Scraper是一款轻便易用的浏览器扩展插件用户无需安装额外的软件即可在Chrome浏览器中进行爬虫。插件支持多种数据类型采集并可将采集到的数据导出为多种格式。无论是Python库还是爬虫软件都能实现数据采集任务可以选择适合自己的。当然记得在使用这些工具时一定要遵守相关网站的爬虫政策和法律法规。

新手必须掌握的6个Python爬虫库，非常实用！

相关文章：

新手必须掌握的6个Python爬虫库，非常实用！

如何永久保存微信聊天记录？免费开源工具WeChatMsg完整指南

炸锅！中科院分区永久停更，新锐分区接棒，科研圈要变天？

如何让AI帮你读完100篇文献，并写出综述的核心内容？

DeepSeek-Coder-V2：开源代码助手如何超越商业模型实现90%代码生成准确率？

如何从碎片化信息中构建系统性科研认知？

如何使用USearch构建自动驾驶传感器数据的实时向量搜索系统

FFTW实战指南：从编译优化到音频信号处理

探索时序并行门控网络TPGN：RNN的崭新继任者

如何快速掌握深度学习调参技巧：tuning_playbook_zh_cn完全解析

COMSOL声子晶体复能带模型与PDE模块：声学黑洞复能带模型及实虚能带绘制与二维结构分析

COMSOL 物质传递建模仿真：氯气洗涤与液膜除氯的奇妙之旅

用Lumerical MODE的EME Solver设计硅基波导耦合器：一个完整案例解析

破局MIDI控制困境：SendMIDI让命令行成为音乐创作的神经中枢

数据标注技术指南：高效标注与数据质量优化实践

LVGL下拉列表控件lv_dropdown实战：从基础配置到高级定制（附完整代码示例）

EcomGPT-7B电商大模型Java八股文实践：面试级电商系统设计题解析

Cursor Pro激活器技术深度解析：突破API限制的逆向工程实践

如何快速上手BepInEx：3个高效秘诀解锁Unity游戏插件开发

从报文周期到安全状态：ISO26262通信故障诊断的5个关键时间参数详解

OneNET物联网平台接入避坑指南：Android端用MQTTS协议请求数据，为什么你的Token总失效？

电气工程优化调度Matlab代码优化与注释那些事儿

DDD 领域驱动设计实战：从理论到代码

低头编程：颈椎快要崩溃！

3步解锁Umi-OCR服务化潜能：让自动化文字识别融入工作流

C#桌面开发选型指南：OpenTK vs SharpGL，在.NET Framework 4.7/Winform中谁更香？

ESP32-IDF开发实战：内置JTAG与OpenOCD高效调试指南

交叉调整率差的5大根源—变压器、绕组、反馈、拓扑、元件

DCT-Net新手入门：从镜像部署到生成第一个卡通头像的全流程

opencv利用freetype写中文