04-机器学习-网页数据抓取
网络爬取(Web Scraping)深度指南
1. 网络爬取全流程设计
一个完整的网络爬取项目通常包含以下步骤:
-
目标分析:
- 明确需求:需要哪些数据(如商品价格、评论、图片)?
- 网站结构分析:使用浏览器开发者工具(F12)查看页面HTML结构,定位目标数据的CSS选择器或XPath。
- 反爬策略预判:检查目标网站的
robots.txt(如https://example.com/robots.txt),确认允许爬取的路径和频率限制。
-
技术选型:
- 静态页面:使用
Requests+Beautiful Soup。 - 动态页面(JavaScript渲染):使用
Selenium、Playwright或Scrapy-Splash。 - 大规模爬取:分布式框架如
Scrapy-Redis。
- 静态页面:使用
-
爬取与解析:
- 发送HTTP请求:模拟浏览器请求头(User-Agent、Cookies)。
- 解析HTML:提取数据字段(如价格、标题)。
- 分页处理:自动翻页或通过API获取下一页链接。
-
数据存储:
- 本地存储:CSV、JSON文件(适合小规模)。
- 数据库:MySQL(结构化数据)、MongoDB(非结构化数据)。
- 云存储:AWS S3、Google Cloud Storage(适合大规模数据)。
-
反反爬策略:
- 请求间隔:随机延迟(如
time.sleep(random.uniform(1, 5)))。 - IP代理池:使用付费服务(如BrightData)或自建代理。
- 浏览器指纹模拟:通过
fake_useragent库生成随机User-Agent。
- 请求间隔:随机延迟(如
2. 动态页面处理实战
以爬取动态加载的电商网站为例,使用 Selenium 和 Playwright:
# 使用Selenium(需安装ChromeDriver)
from selenium import webdriver
from selenium.webdriver.common.by import By
import timedriver = webdriver.Chrome()
driver.get("https://example.com/dynamic-page")
time.sleep(3) # 等待页面加载# 点击“加载更多”按钮
load_more_button = driver.find_element(By.CSS_SELECTOR, ".load-more")
load_more_button.click()
time.sleep(2)# 提取数据
products = driver.find_elements(By.CLASS_NAME, "product")
for product in products:name = product.find_element(By.CLASS_NAME, "name").textprice = product.find_element(By.CLASS_NAME, "price").textprint(f"商品: {name}, 价格: {price}")driver.quit()
# 使用Playwright(支持异步,效率更高)
from playwright.sync_api import sync_playwrightwith sync_playwright() as p:browser = p.chromium.launch()page = browser.new_page()page.goto("https://example.com/dynamic-page")# 模拟滚动加载for _ in range(3):page.evaluate("window.scrollTo(0, document.body.scrollHeight)")page.wait_for_timeout(2000)# 提取数据products = page.query_selector_all(".product")for product in products:name = product.query_selector(".name").inner_text()price = product.query_selector(".price").inner_text()print(f"商品: {name}, 价格: {price}")browser.close()
3. 应对反爬虫机制
| 反爬手段 | 应对策略 |
|---|---|
| IP封禁 | 使用代理IP池(免费代理需谨慎,推荐付费服务如Luminati)。 |
| 验证码 | 集成第三方验证码识别服务(如2Captcha),或使用OCR库(Tesseract)。 |
| 请求头检测 | 随机化User-Agent、Referer、Accept-Language等字段。 |
| 行为分析 | 模拟人类操作(随机点击、滚动页面、间歇性请求)。 |
| Honeypot陷阱 | 避免爬取隐藏链接(如CSS隐藏的display:none元素)。 |
代理IP示例:
import requestsproxies = {"http": "http://10.10.1.10:3128","https": "http://10.10.1.10:1080",
}
response = requests.get("https://example.com", proxies=proxies)
4. 数据清洗与存储优化
- 去噪与格式化:
import re def clean_price(price_str):# 从 "¥199.99" 中提取数字return float(re.sub(r"[^\d.]", "", price_str)) - 存储到数据库(以MongoDB为例):
from pymongo import MongoClient client = MongoClient("mongodb://localhost:27017/") db = client["scraped_data"] collection = db["products"] collection.insert_one({"name": "手机", "price": 1999})
5. 法律合规与伦理
- 遵守规则:
- 严格遵循
robots.txt中的Disallow规则。 - 避免爬取个人敏感信息(如身份证号、联系方式)。
- 严格遵循
- 伦理建议:
- 控制请求频率,防止对目标服务器造成负担。
- 在学术或商业用途中注明数据来源。
6. 实战案例:爬取豆瓣电影Top250
import requests
from bs4 import BeautifulSoupurl = "https://movie.douban.com/top250"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")movies = soup.find_all("div", class_="item")
for movie in movies:title = movie.find("span", class_="title").textrating = movie.find("span", class_="rating_num").textprint(f"电影: {title}, 评分: {rating}")
输出示例:
电影: 肖申克的救赎, 评分: 9.7
电影: 霸王别姬, 评分: 9.6
...
7. 高级技巧与工具
- Scrapy中间件:自定义下载中间件处理请求和响应。
- 分布式爬虫:使用
Scrapy-Redis实现多节点协同爬取。 - Headless浏览器:通过无头模式提升性能(如
ChromeOptions().add_argument("--headless"))。
总结
网络爬取是一项强大但需谨慎使用的技术,关键在于:
- 技术实现:选择合适的工具应对静态/动态页面。
- 反反爬策略:灵活使用代理、请求头伪装和人类行为模拟。
- 合规性:尊重目标网站的规则和数据隐私。
通过系统化的流程设计和持续优化,可高效获取高质量数据,为机器学习、市场分析等场景提供坚实基础!
相关文章:
04-机器学习-网页数据抓取
网络爬取(Web Scraping)深度指南 1. 网络爬取全流程设计 一个完整的网络爬取项目通常包含以下步骤: 目标分析: 明确需求:需要哪些数据(如商品价格、评论、图片)?网站结构分析&…...
计网week1+2
计网 一.概念 1.什么是Internet 节点:主机及其运行的应用程序、路由器、交换机 边:通信链路,接入网链路主机连接到互联网的链路,光纤、网输电缆 协议:对等层的实体之间通信要遵守的标准,规定了语法、语义…...
重定向与缓冲区
4种重定向 我们有如下的代码: #include <stdio.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <unistd.h> #include <string.h>#define FILE_NAME "log.txt"int main() {close(1)…...
练习题 - Django 4.x File 文件上传使用示例和配置方法
在现代的 web 应用开发中,文件上传是一个常见的功能,无论是用户上传头像、上传文档,还是其他类型的文件,处理文件上传都是开发者必须掌握的技能之一。Django 作为一个流行的 Python web 框架,提供了便捷的文件上传功能和配置方法。学习如何在 Django 中实现文件上传,不仅…...
[VSCode] vscode下载安装及安装中文插件详解(附下载链接)
VSCode 是一款由微软开发且跨平台的免费源代码编辑器;该软件支持语法高亮、代码自动补全、代码重构、查看定义功能,并且内置了命令行工具和Git版本控制系统。 下载链接:https://pan.quark.cn/s/3a90aef4b645 提取码:NFy5 通过上面…...
JVM常见知识点
在《深入理解Java虚拟机》一书中,介绍了JVM的相关特性。 1、JVM的内存区域划分 在真实的操作系统中,对于地址空间进行了分区域的设计,由于JVM是仿照真实的机器进行设计的,那么也进行了分区域的设计。核心区域有四个,…...
深入探索 Vue 3 Markdown 编辑器:高级功能与实现
目录 1. 为什么选择 Markdown 编辑器?2. 选择合适的 Markdown 编辑器3. 安装与基本配置安装 配置 Markdown 编辑器代码说明 4. 高级功能实现4.1 实时预览与双向绑定4.2 插入图片和图像上传安装图像上传插件配置图像上传插件 4.3 数学公式支持安装 KaTeX配置 KaTeX 插…...
vscode无法格式化go代码的问题
CTRLshiftp 点击Go:Install/Update Tools 点击全选,OK!...
《Java程序设计》课程考核试卷
一、单项选择题(本大题共10个小题,每小题2分,共20分) 1.下列用来编译Java源文件为字节码文件的工具是( )。 A.java B.javadoc C.jar D.javac 2…...
one-hot (独热编码)
一、目的 假设我们现在需要对猫、 狗、 人这三个类别进行分类。 若以 0 代表猫, 以 1 代表狗, 以 2 代表人,会发现那么猫和狗之间距离为 1, 狗和人之间距离为 1, 而猫和人之间距离为 2。 假设真实标签是猫࿰…...
寒假1.23
题解 web:[极客大挑战 2019]Secret File(文件包含漏洞) 打开链接是一个普通的文字界面 查看一下源代码 发现一个链接,点进去看看 再点一次看看,没什么用 仔细看,有一个问题,当点击./action.ph…...
unity 粒子系统设置触发
1、勾选Triggers选项 2、将作为触发器的物体拉入队列当中,物体上必须挂载collider 3、将想要触发的方式(Inide、Outside、Enter和Exit)选择为”Callback“,其他默认为”Ignore“ 4、Collider Query Mode 设置为All:…...
【C++】类和对象(五)
1、初始化列表 作用:C提供了初始化列表语法,用来初始化属性。 语法: 构造函数():属性1(值1),属性2(值2)...{}示例: #include<i…...
超分辨率体积重建实现术前前列腺MRI和大病理切片组织病理学图像的3D配准
摘要: 磁共振成像(MRI)在前列腺癌诊断和治疗中的应用正在迅速增加。然而,在MRI上识别癌症的存在和范围仍然具有挑战性,导致即使是专家放射科医生在检测结果上也存在高度变异性。提高MRI上的癌症检测能力对于减少这种变异性并最大化MRI的临床效用至关重要。迄今为止,这种改…...
第13章 深入volatile关键字(Java高并发编程详解:多线程与系统设计)
1.并发编程的三个重要特性 并发编程有三个至关重要的特性,分别是原子性、有序性和可见性 1.1 原子性 所谓原子性是指在一次的操作或者多次操作中,要么所有的操作全部都得到了执行并 且不会受到任何因素的干扰而中断,要么所有的操作都不执行…...
[STM32 标准库]定时器输出PWM配置流程 PWM模式解析
前言: 本文内容基本来自江协,整理起来方便日后开发使用。MCU:STM32F103C8T6。 一、配置流程 1、开启GPIO,TIM的时钟 /*开启时钟*/RCC_APB1PeriphClockCmd(RCC_APB1Periph_TIM2, ENABLE); //开启TIM2的时钟RCC_APB2PeriphClockC…...
web3py+flask+ganache的智能合约教育平台
最近在学习web3的接口文档,使用web3pyflaskganache写了一个简易的智能合约教育平台,语言用的是python,ganche直接使用的本地区块链网络,用web3py进行交互。 代码逻辑不难,可以私信或者到我的闲鱼号夏沫mds获取我的代码…...
< OS 有关 > 阿里云:轻量应用服务器 的使用 :轻量化 阿里云 vpm 主机
原因: < OS 有关 > 阿里云:轻量应用服务器 的使用 :从新开始 配置 SSH 主机名 DNS Tailscale 更新OS安装包 最主要是 清除阿里云客户端这个性能杀手-CSDN博客 防止 I/O 祸害系统 操作: 查看进程&#x…...
【技术】TensorRT 10.7 安装指南(Ubuntu22.04)
原文链接:https://mengwoods.github.io/post/tech/008-tensorrt-installation/ 本文安装的版本如下: Ubuntu 22.04 Nvidia Driver 538.78 CUDA 12.2 cuDNN 8.9.7 TensorRT 10.7 安装前的准备(可选) 在安装新版本之前…...
Linux 权限管理
hello!这里是敲代码的小董,很荣幸您阅读此文,本文只是自己在学习Linux过程中的笔记,如有不足,期待您的评论指点和关注,欢迎欢迎~~ ✨✨个人主页:敲代码的小董 💗💗系列专…...
S32DS隐藏技巧:用FTM定时器实现精准延时(替代低效for循环)
S32DS隐藏技巧:用FTM定时器实现精准延时(替代低效for循环) 在嵌入式开发中,延时功能几乎是每个项目都无法绕开的基础需求。从简单的LED闪烁到复杂的通信协议时序控制,精准的延时控制直接影响着系统的稳定性和响应速度。…...
从零到一:在本地CentOS环境完整部署yshop-drink扫码点餐系统的实战指南
1. 环境准备:从零搭建CentOS基础系统 第一次在本地部署yshop-drink扫码点餐系统时,我选择了CentOS 7.9作为基础环境。这个版本既稳定又兼容大多数现代软件包,特别适合作为生产环境使用。建议直接使用阿里云镜像站下载Minimal版本ISO文件&…...
SpringBoot WebSocket 客户端断线重连:从心跳检测到优雅恢复
1. WebSocket与实时通信的挑战 想象一下你正在玩一款多人在线游戏,突然网络卡顿导致角色掉线,重新登录后发现之前的战斗进度全部丢失——这种糟糕体验正是WebSocket重连机制要解决的问题。WebSocket作为HTTP的"升级版",确实解决了服…...
如何快速解放双手:MaaYuan游戏日常任务自动化完整指南
如何快速解放双手:MaaYuan游戏日常任务自动化完整指南 【免费下载链接】MaaYuan 代号鸢 / 如鸢 一键长草小助手 项目地址: https://gitcode.com/gh_mirrors/ma/MaaYuan 厌倦了每天花费大量时间在重复的游戏日常任务上吗?MaaYuan作为一款免费开源的…...
从收音机到Wi-Fi:手把手复现经典小信号调谐放大器实验(附Multisim仿真文件)
从矿石收音机到5G射频前端:调谐放大器技术演进与Multisim仿真实践 上世纪二十年代,当业余无线电爱好者们用矿石和线圈组装出最简单的接收装置时,他们可能不会想到,这种基于LC谐振原理的选频技术会延续百年,成为现代无线…...
这份榜单够用!AI论文网站深度测评与推荐
2026年真正好用的AI论文网站,核心看生成的论文质量、低AI味、格式正确、学术适配四大指标。综合实测,千笔AI、ThouPen、豆包、DeepSeek、Grammarly 是当前最值得推荐的梯队,覆盖从免费到付费、从中文到英文、从文科到理工的全场景需求。 一、…...
OpenClaw v2026.3.24-beta.1 深度技术分析报告:体验、生态与协作的“精装修”
报告版本: 1.1分析基准: v2026.3.23 (稳定化修复版本) -> v2026.3.24-beta.1 (预发布版)核心论点: 在经历了v2026.3.22的“架构大换血”与v2026.3.23的“系统性修复”之后,v2026.3.24-beta.1标志着OpenClaw的迭代节奏进入了一个…...
通义千问多模态检索系统:图文视频混合输入全解析
通义千问多模态检索系统:图文视频混合输入全解析 1. 多模态检索的行业痛点与解决方案 在信息爆炸的时代,传统文本检索系统面临三大核心挑战: 跨模态匹配失效:用户用文字描述"红色跑车在沙漠驰骋",系统却返…...
双屏生产力拉满!YogaBook 9i 多屏操作玩法与效率指南
YogaBook 9i 凭借独特的双屏设计,打破了传统笔记本的使用边界,成为移动办公、创意创作、高效学习的热门机型。但很多用户拿到手后,只把它当作普通笔记本使用,没能发挥双屏协同的真正优势,多任务处理、分屏操作、跨屏交…...
AI建站避坑指南:10个高频问题与风险防范全解析
用AI建站虽然快,但过程中隐藏的风险如果没到,轻则内容效果差,重则可能有版权或合规隐患。这份避坑指南,围绕大家最关心的10个核心问题,给出客观的分析和可操作的防范建议,帮你安心用好AI建站工具。\### 核心…...
