当前位置: 首页 > article >正文

新手必须掌握的6个Python爬虫库,非常实用!

Python中有非常多用于网络数据采集的库功能非常强大有的用于抓取网页有的用于解析网页这里介绍6个最常用的库。1. BeautifulSoupBeautifulSoup是最常用的Python网页解析库之一可将 HTML 和 XML 文档解析为树形结构能更方便地识别和提取数据。BeautifulSoup可以自动将输入文档转换为 Unicode将输出文档转换为 UTF-8。此外你还可以设置 BeautifulSoup 扫描整个解析页面识别所有重复的数据例如查找文档中的所有链接只需几行代码就能自动检测特殊字符等编码。from bs4 import BeautifulSoup # 假设这是我们从某个网页获取的HTML内容这里直接以字符串形式给出 html_content html head title示例网页/title /head body h1欢迎来到BeautifulSoup示例/h1 p classintroduction这是一个关于BeautifulSoup的简单示例。/p a hrefhttps://www.example.com/about classlink关于我们/a /body /html # 使用BeautifulSoup解析HTML内容这里默认使用Python的html.parser作为解析器 # 你也可以指定其他解析器如lxml或html5lib但需要先安装它们 soup BeautifulSoup(html_content, html.parser) # 提取并打印title标签的文本内容 print(网页标题:, soup.title.string) # 网页标题: 示例网页 # 提取并打印p标签的文本内容这里使用class属性来定位 print(介绍内容:, soup.find(p, class_introduction).string) # 介绍内容: 这是一个关于BeautifulSoup的简单示例。 # 提取并打印a标签的href属性和文本内容 link soup.find(a, class_link) print(链接地址:, link[href]) # 链接地址: https://www.example.com/about print(链接文本:, link.string) # 链接文本: 关于我们 # 注意如果HTML内容中包含多个相同条件的标签你可以使用find_all()来获取它们的一个列表 # 例如要获取所有a标签的href属性可以这样做 all_links [a[href] for a in soup.find_all(a)] print(所有链接地址:, all_links) # 假设HTML中有多个a标签这里将列出它们的href属性 # 注意上面的all_links列表在当前的HTML内容中只有一个元素因为只有一个a标签2. ScrapyScrapy是一个流行的高级爬虫框架可快速高效地抓取网站并从其页面中提取结构化数据。由于 Scrapy 主要用于构建复杂的爬虫项目并且它通常与项目文件结构一起使用Scrapy 不仅仅是一个库还可以用于各种任务包括监控、自动测试和数据挖掘。这个 Python 库包含一个内置的选择器Selectors功能可以快速异步处理请求并从网站中提取数据。# 假设这个文件名为 my_spider.py但它实际上应该放在 Scrapy 项目的 spiders 文件夹中 import scrapy class MySpider(scrapy.Spider): # Spider 的名称必须是唯一的 name example_spider # 允许爬取的域名列表可选 # allowed_domains [example.com] # 起始 URL 列表 start_urls [ http://example.com/, ] def parse(self, response): # 这个方法用于处理每个响应 # 例如我们可以提取网页的标题 title response.css(title::text).get() if title: # 打印标题在控制台输出 print(fTitle: {title}) # 你还可以继续爬取页面中的其他链接这里只是简单示例 # 例如提取所有链接并请求它们 # for href in response.css(a::attr(href)).getall(): # yield scrapy.Request(urlresponse.urljoin(href), callbackself.parse) # 注意上面的代码只是一个 Spider 类的定义。 # 要运行这个 Spider你需要将它放在一个 Scrapy 项目中并使用 scrapy crawl 命令来启动爬虫。 # 例如如果你的 Scrapy 项目名为 myproject并且你的 Spider 文件名为 my_spider.py # 那么你应该在项目根目录下运行以下命令 # scrapy crawl example_spider3. SeleniumSelenium 是一款基于浏览器地自动化程序库可以抓取网页数据。它能在 JavaScript 渲染的网页上高效运行这在其他 Python 库中并不多见。在开始使用 Python 处理 Selenium 之前需要先使用 Selenium Web 驱动程序创建功能测试用例。Selenium 库能很好地与任何浏览器如 Firefox、Chrome、IE 等配合进行测试比如表单提交、自动登录、数据添加/删除和警报处理等。from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 设置WebDriver的路径根据你的系统路径和WebDriver版本修改 driver_path /path/to/your/chromedriver # 初始化WebDriver driver webdriver.Chrome(executable_pathdriver_path) try: # 打开网页 driver.get(https://www.example.com) # 等待页面加载完成这里使用隐式等待针对所有元素 # 注意隐式等待可能会影响性能通常在脚本开始时设置一次 driver.implicitly_wait(10) # 秒 # 查找并输入文本到搜索框假设搜索框有一个特定的ID或类名等 # 这里以ID为search的输入框为例 search_box driver.find_element(By.ID, search) search_box.send_keys(Selenium WebDriver) # 提交搜索假设搜索按钮是一个类型为submit的按钮或是一个可以点击的输入框 # 如果搜索是通过按Enter键触发的可以直接在search_box上使用send_keys(Keys.ENTER) # 这里假设有一个ID为submit的按钮 submit_button driver.find_element(By.ID, submit) submit_button.click() # 等待搜索结果加载完成这里使用显式等待作为示例 # 假设搜索结果页面有一个特定的元素我们等待它出现 wait WebDriverWait(driver, 10) # 等待最多10秒 element wait.until(EC.presence_of_element_located((By.ID, results))) # 执行其他操作... finally: # 关闭浏览器 driver.quit()4. requests不用多说requests 是 Python 中一个非常流行的第三方库用于发送各种 HTTP 请求。它简化了 HTTP 请求的发送过程使得从网页获取数据变得非常简单和直观。requests 库提供了丰富的功能和灵活性支持多种请求类型如 GET、POST、PUT、DELETE 等可以发送带有参数、头信息、文件等的请求并且能够处理复杂的响应内容如 JSON、XML 等。import requests # 目标URL url https://httpbin.org/get # 发送GET请求 response requests.get(url) # 检查请求是否成功 if response.status_code 200: # 打印响应内容 print(response.text) else: # 打印错误信息 print(f请求失败状态码{response.status_code})5. urllib3urllib3 是 Python内置网页请求库类似于 Python 中的requests库主要用于发送HTTP请求和处理HTTP响应。它建立在Python标准库的urllib模块之上但提供了更高级别、更健壮的API。urllib3可以用于处理简单身份验证、cookie 和代理等复杂任务。import urllib3 # 创建一个HTTP连接池 http urllib3.PoolManager() # 目标URL url https://httpbin.org/get # 使用连接池发送GET请求 response http.request(GET, url) # 检查响应状态码 if response.status 200: # 打印响应内容注意urllib3默认返回的是bytes类型这里我们将其解码为str print(response.data.decode(utf-8)) else: # 如果响应状态码不是200则打印错误信息 print(f请求失败状态码{response.status}) # 注意urllib3没有直接的方法来处理JSON响应但你可以使用json模块来解析 # 如果响应内容是JSON你可以这样做 # import json # json_response json.loads(response.data.decode(utf-8)) # print(json_response)6. lxmllxml是一个功能强大且高效的Python库主要用于处理XML和HTML文档。它提供了丰富的API使得开发者可以轻松地读取、解析、创建和修改XML和HTML文档。from lxml import etree # 假设我们有一段HTML或XML内容这里以HTML为例 html_content html head title示例页面/title /head body h1欢迎来到我的网站/h1 p classdescription这是一个使用lxml解析的示例页面。/p ul li项目1/li li项目2/li /ul /body /html # 使用lxml的etree模块来解析HTML或XML字符串 # 注意对于HTML内容我们使用HTMLParser解析器 parser etree.HTMLParser() tree etree.fromstring(html_content, parserparser) # 查找并打印title标签的文本 title tree.find(.//title).text print(页面标题:, title) # 查找并打印class为description的p标签的文本 description tree.find(.//p[classdescription]).text print(页面描述:, description) # 查找所有的li标签并打印它们的文本 for li in tree.findall(.//li): print(列表项:, li.text) # 注意lxml也支持XPath表达式来查找元素这里只是简单展示了find和findall的用法 # XPath提供了更强大的查询能力其他爬虫工具除了Python库之外还有其他爬虫工具可以使用。八爪鱼爬虫八爪鱼爬虫是一款功能强大的桌面端爬虫软件主打可视化操作即使是没有任何编程基础的用户也能轻松上手。官网https://affiliate.bazhuayu.com/hEvPKU八爪鱼支持多种数据类型采集包括文本、图片、表格等并提供强大的自定义功能能够满足不同用户需求。此外八爪鱼爬虫支持将采集到的数据导出为多种格式方便后续分析处理。亮数据爬虫亮数据平台提供了强大的数据采集工具比如Web Scraper IDE、亮数据浏览器、SERP API等能够自动化地从网站上抓取所需数据无需分析目标平台的接口直接使用亮数据提供的方案即可安全稳定地获取数据。网站https://get.brightdata.com/weijun亮数据浏览器支持对多个网页进行批量数据抓取适用于需要JavaScript渲染的页面或需要进行网页交互的场景。Web ScraperWeb Scraper是一款轻便易用的浏览器扩展插件用户无需安装额外的软件即可在Chrome浏览器中进行爬虫。插件支持多种数据类型采集并可将采集到的数据导出为多种格式。无论是Python库还是爬虫软件都能实现数据采集任务可以选择适合自己的。当然记得在使用这些工具时一定要遵守相关网站的爬虫政策和法律法规。

相关文章:

新手必须掌握的6个Python爬虫库,非常实用!

Python中有非常多用于网络数据采集的库,功能非常强大,有的用于抓取网页,有的用于解析网页,这里介绍6个最常用的库。 1. BeautifulSoup BeautifulSoup是最常用的Python网页解析库之一,可将 HTML 和 XML 文档解析为树形…...

如何永久保存微信聊天记录?免费开源工具WeChatMsg完整指南

如何永久保存微信聊天记录?免费开源工具WeChatMsg完整指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/W…...

炸锅!中科院分区永久停更,新锐分区接棒,科研圈要变天?

最近科研圈最大的瓜,莫过于中科院期刊分区的“换马甲”事件——运行22年的官方中科院分区正式谢幕,原团队转身推出“新锐期刊分区”,一石激起千层浪,不同立场的声音吵翻了论坛。今天就来梳理下整个事件的来龙去脉,拆解…...

如何让AI帮你读完100篇文献,并写出综述的核心内容?

对于每一位科研工作者而言,面对一个新的课题或研究方向,最让人望而生畏的往往不是实验本身,而是前期那如山般堆积的文献调研。当你需要在短时间内读完100篇甚至更多核心文献,并从中提炼出逻辑严密、观点独到的综述核心内容时&…...

DeepSeek-Coder-V2:开源代码助手如何超越商业模型实现90%代码生成准确率?

DeepSeek-Coder-V2:开源代码助手如何超越商业模型实现90%代码生成准确率? 【免费下载链接】DeepSeek-Coder-V2 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-Coder-V2 还在为代码编写效率低下而苦恼吗?作为开发者的你…...

如何从碎片化信息中构建系统性科研认知?

在科研工作中,我们常常面临这样一种困境:每天通过各种渠道接触到海量的学术信息,这些信息如同散落的拼图碎片,虽然珍贵,却难以自动拼凑成一幅完整的画面。对于许多科研人员而言,难以形成系统认知是一个巨大…...

如何使用USearch构建自动驾驶传感器数据的实时向量搜索系统

如何使用USearch构建自动驾驶传感器数据的实时向量搜索系统 【免费下载链接】usearch Fastest Open-Source Search & Clustering engine for Vectors & 🔜 Strings in C, C, Python, JavaScript, Rust, Java, Objective-C, Swift, C#, GoLang, and Wolfra…...

FFTW实战指南:从编译优化到音频信号处理

1. FFTW库简介与核心优势 FFTW(Fastest Fourier Transform in the West)是当前公认性能最优异的快速傅里叶变换开源库,其名称直译为"西方最快的傅里叶变换"。我在音频信号处理项目中首次接触这个库时,就被它惊人的运算…...

探索时序并行门控网络TPGN:RNN的崭新继任者

一种RNN的新继任者—时序并行门控网络TPGN,用于时间序列预测。 作为RNN的新继任者。 PGN通过设计的历史信息提取(HIE)层直接从以前的时间步捕获信息,并利用门通机制选择并将其与当前时间步信息融合。 这将信息传播路径减少到0(1)&…...

如何快速掌握深度学习调参技巧:tuning_playbook_zh_cn完全解析

如何快速掌握深度学习调参技巧:tuning_playbook_zh_cn完全解析 【免费下载链接】tuning_playbook_zh_cn 一本系统地教你将深度学习模型的性能最大化的战术手册。 项目地址: https://gitcode.com/gh_mirrors/tu/tuning_playbook_zh_cn tuning_playbook_zh_cn是…...

COMSOL声子晶体复能带模型与PDE模块:声学黑洞复能带模型及实虚能带绘制与二维结构分析

comsol声子晶体复能带模型 PDE模块 声学黑洞 复能带模型 实能带与虚能带的绘制 参考论文 前两个是论文图,后四个是模型及结果图。 可根据模型设置,进行其他二维结构的分析复能带这玩意儿搞声子晶体的肯定不陌生,但用COMSOL PDE模块手搓模型…...

COMSOL 物质传递建模仿真:氯气洗涤与液膜除氯的奇妙之旅

COMSOL物质传递建模仿真 comsol物质传递反应 氯气洗涤,液膜除氯 液膜交界面氯气浓度衰减在化工领域,物质传递与反应的模拟对于优化工艺、提高效率至关重要。今天咱就唠唠基于 COMSOL 的物质传递建模仿真,特别是围绕氯气洗涤以及液膜除氯这俩关…...

用Lumerical MODE的EME Solver设计硅基波导耦合器:一个完整案例解析

硅基光子集成中的EME Solver实战:定向耦合器设计与性能优化全解析 光子集成电路(PIC)设计领域,模式展开法(EME)因其在长距离波导结构仿真中的独特优势,正成为工程师验证器件性能的首选工具。尤其在硅基定向耦合器这类关键无源器件的设计中&am…...

破局MIDI控制困境:SendMIDI让命令行成为音乐创作的神经中枢

破局MIDI控制困境:SendMIDI让命令行成为音乐创作的神经中枢 【免费下载链接】SendMIDI Multi-platform command-line tool to send out MIDI messages 项目地址: https://gitcode.com/gh_mirrors/se/SendMIDI 在数字音乐制作的世界里,MIDI&#x…...

数据标注技术指南:高效标注与数据质量优化实践

数据标注技术指南:高效标注与数据质量优化实践 【免费下载链接】cvat Annotate better with CVAT, the industry-leading data engine for machine learning. Used and trusted by teams at any scale, for data of any scale. 项目地址: https://gitcode.com/Git…...

LVGL下拉列表控件lv_dropdown实战:从基础配置到高级定制(附完整代码示例)

LVGL下拉列表控件lv_dropdown实战:从基础配置到高级定制(附完整代码示例) 在嵌入式UI开发领域,LVGL(Light and Versatile Graphics Library)凭借其轻量级和高度可定制的特性,已成为许多开发者的…...

EcomGPT-7B电商大模型Java八股文实践:面试级电商系统设计题解析

EcomGPT-7B电商大模型Java八股文实践:面试级电商系统设计题解析 最近在技术社区里,看到不少朋友在讨论一个挺有意思的电商大模型——EcomGPT-7B。它不像那些通用的聊天模型,而是专门针对电商领域训练出来的。我就在想,如果用它来…...

Cursor Pro激活器技术深度解析:突破API限制的逆向工程实践

Cursor Pro激活器技术深度解析:突破API限制的逆向工程实践 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your…...

如何快速上手BepInEx:3个高效秘诀解锁Unity游戏插件开发

如何快速上手BepInEx:3个高效秘诀解锁Unity游戏插件开发 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx 想象一下,你心爱的Unity游戏缺少某个功能&#xff…...

从报文周期到安全状态:ISO26262通信故障诊断的5个关键时间参数详解

从报文周期到安全状态:ISO26262通信故障诊断的5个关键时间参数详解 在智能驾驶系统快速发展的今天,确保车辆电子系统的功能安全已成为行业共识。ISO26262作为汽车功能安全的黄金标准,其核心在于建立一套完整的故障诊断与处理机制。本文将深入…...

OneNET物联网平台接入避坑指南:Android端用MQTTS协议请求数据,为什么你的Token总失效?

OneNET物联网平台MQTTS接入实战:Android端Token失效的深度排查与解决方案 第一次在Android应用中集成OneNET的MQTTS协议时,我盯着调试日志里反复出现的"401 Unauthorized"错误整整两天。官方文档看似清晰,但实际对接时才发现&…...

电气工程优化调度Matlab代码优化与注释那些事儿

优化调度修改、注释、matlab代码,主要为但不限于电气工程优化调度相关方向 主要包括,但不限于: 1、在原有程序基础上替换算法; 2、修改优化调度程序yalmip求解器ipopt; 3、新买的代码没注释,可以注释并可以…...

DDD 领域驱动设计实战:从理论到代码

DDD 领域驱动设计实战:从理论到代码别叫我大神,叫我 Alex 就好。DDD 不是银弹,但它是处理复杂业务逻辑的利器。一、DDD 核心概念 1.1 分层架构 ┌─────────────────────────────────────────┐ │ …...

低头编程:颈椎快要崩溃!

长期低头编写代码、调试程序、查看文档,是程序员、IT 从业者等人群颈椎损伤的高发原因。当你专注于电脑屏幕上的代码时,颈椎会不自觉地向前倾斜,颈部后侧肌肉为了支撑头部重量,会持续处于紧绷痉挛状态,时间一长&#x…...

3步解锁Umi-OCR服务化潜能:让自动化文字识别融入工作流

3步解锁Umi-OCR服务化潜能:让自动化文字识别融入工作流 【免费下载链接】Umi-OCR Umi-OCR: 这是一个免费、开源、可批量处理的离线OCR软件,适用于Windows系统,支持截图OCR、批量OCR、二维码识别等功能。 项目地址: https://gitcode.com/Git…...

C#桌面开发选型指南:OpenTK vs SharpGL,在.NET Framework 4.7/Winform中谁更香?

C#桌面开发选型指南:OpenTK vs SharpGL在WinForm中的深度对决 当我们需要在.NET WinForm项目中集成3D图形功能时,OpenTK和SharpGL这两个库常常成为开发者纠结的选择。作为在.NET生态中封装OpenGL的两种主流方案,它们各有特色,适用…...

ESP32-IDF开发实战:内置JTAG与OpenOCD高效调试指南

1. 为什么选择ESP32内置JTAG调试? 第一次接触ESP32开发时,你可能会有疑问:市面上这么多调试工具,为什么非要折腾内置JTAG?我刚开始用串口打印调试信息,后来发现这种方法在排查复杂逻辑时效率太低。直到尝试…...

交叉调整率差的5大根源—变压器、绕组、反馈、拓扑、元件

Q1:导致交叉调整率差的第一大根源是什么?变压器漏感与绕组耦合不良。漏感使能量不能完全传递到辅路,各绕组漏感不一致,负载变化时电压漂移更明显。耦合系数越接近 1,交叉调整率越好。Q2:绕组绕制方式对交叉…...

DCT-Net新手入门:从镜像部署到生成第一个卡通头像的全流程

DCT-Net新手入门:从镜像部署到生成第一个卡通头像的全流程 1. 准备工作:认识DCT-Net卡通化工具 你有没有想过把自己的照片变成卡通头像?DCT-Net是一个专门用于人像卡通化的AI模型,它能将普通照片转换成风格独特的卡通图像。这个…...

opencv利用freetype写中文

1、ubuntu需要安装环境 sudo apt install libfreetype6-dev libharfbuzz-dev 2、opencv和opencv_contril编译&#xff0c;勾选下面按钮 3、下载字体库 https://github.com/StellarCN/scp_zh/tree/master/fonts 下载SimHei.ttf 4、代码 #include <opencv2/freetype.hpp…...