python爬虫指南——初学者避坑篇
目录
- Python爬虫初学者学习指南
- 一、学习方向
- 二、Python爬虫知识点总结
- 三、具体知识点详解和实现步骤
- 1. HTTP请求和HTML解析
- 2. 正则表达式提取数据
- 3. 动态内容爬取
- 4. 数据存储
- 5. 反爬虫应对措施
- 四、完整案例:爬取京东商品信息
- 1. 导入库和设置基本信息
- 2. 获取网页内容
- 3. 解析数据
- 4. 保存数据到CSV
- 5. 结果展示
- 示例数据结构(CSV文件)
- 五、常见学习资源
Python爬虫初学者学习指南
一、学习方向
- Python基础:掌握Python基础语法、文件处理、正则表达式(re模块)和数据处理(Pandas库)。
- HTTP与HTML解析基础:理解HTTP协议和HTML结构,学习请求库(Requests)和解析库(BeautifulSoup)。
- 动态页面处理:学习如何使用Selenium处理JavaScript动态加载内容。
- 反爬虫机制及应对方法:了解常见反爬虫机制,学习代理设置、请求头伪装、IP池等应对方法。
- 数据存储:学习如何将爬取的数据存储到CSV、JSON、数据库中,熟悉Pandas、SQLite等数据处理和存储工具。
- 实战案例:完成一些经典爬虫项目,如商品价格爬取、评论分析等,强化综合应用能力。
二、Python爬虫知识点总结
知识点 | 描述 | 常用方法或库 |
---|---|---|
HTTP基础 | 了解HTTP请求和响应,GET、POST、状态码等 | requests.get() 、requests.post() |
HTML结构解析 | 通过标签定位、CSS选择器、XPath解析HTML内容 | BeautifulSoup 、lxml |
正则表达式 | 使用正则表达式从文本中匹配特定模式的数据 | re 库、re.findall() |
动态内容爬取 | 处理JavaScript生成的动态数据,抓取动态加载的内容 | Selenium 、Pyppeteer |
代理与请求头伪装 | 防止被封禁,使用代理IP和伪装User-Agent | requests.Session() 、代理池 |
Cookies处理 | 模拟登录和保持会话,获取需要登录的页面 | requests.Session() , headers |
数据清洗与存储 | 清洗数据格式,保存到CSV、JSON或数据库中 | Pandas 、json 、sqlite3 |
多线程与异步爬取 | 提高爬取速度,使用多线程或异步编程 | concurrent.futures 、asyncio 、aiohttp |
反爬虫应对措施 | 随机请求头、延迟请求、使用代理IP等 | fake_useragent 、time.sleep() |
三、具体知识点详解和实现步骤
1. HTTP请求和HTML解析
通过 Requests
和 BeautifulSoup
库发送请求并解析内容。
import requests
from bs4 import BeautifulSoup# 获取页面内容
url = "https://example.com"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
response = requests.get(url, headers=headers)# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('title').text # 提取页面标题
print("页面标题:", title)
2. 正则表达式提取数据
使用正则表达式从HTML或文本中提取数据,适用于格式固定的数据。
import rehtml = "<div><p>价格: ¥100</p></div>"
price = re.findall(r"¥(\d+)", html)
print("价格:", price[0])
3. 动态内容爬取
处理JavaScript加载的内容,可以使用Selenium模拟浏览器行为。
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time# 设置Selenium驱动
service = Service("chromedriver_path") # 替换为Chromedriver路径
driver = webdriver.Chrome(service=service)
driver.get("https://example.com")# 等待页面加载
time.sleep(3)
content = driver.find_element(By.CLASS_NAME, "target-class").text # 获取内容
print("页面内容:", content)# 关闭浏览器
driver.quit()
4. 数据存储
爬取的数据可以存储为CSV、JSON文件,或保存到数据库中。
- 存储为CSV文件:
import pandas as pddata = [{"Title": "Example", "Price": "100"}]
df = pd.DataFrame(data)
df.to_csv("output.csv", index=False)
- 存储为JSON文件:
import jsondata = [{"Title": "Example", "Price": "100"}]
with open("output.json", "w") as f:json.dump(data, f)
- 存储到SQLite数据库:
import sqlite3connection = sqlite3.connect('example.db')
cursor = connection.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS Products (Title TEXT, Price TEXT)''')
cursor.execute("INSERT INTO Products VALUES (?, ?)", ("Example", "100"))
connection.commit()
connection.close()
5. 反爬虫应对措施
常见反爬虫措施及对应的应对方案。
反爬虫措施 | 应对方法 |
---|---|
IP封禁 | 使用代理IP池,定期更换IP |
User-Agent检测 | 随机切换User-Agent,使用fake_useragent 库 |
访问频率限制 | 设置请求延迟,使用time.sleep() 控制速度 |
验证码 | 手动输入验证码或使用OCR识别工具 |
JavaScript检测 | 使用Selenium模拟浏览器,执行JavaScript代码 |
四、完整案例:爬取京东商品信息
通过以下案例将知识点进行综合运用,爬取京东指定商品的价格、名称及评价数。
1. 导入库和设置基本信息
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time# 基础设置
url = "https://search.jd.com/Search?keyword=python书籍&enc=utf-8"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
2. 获取网页内容
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
3. 解析数据
products = []
for item in soup.select(".gl-item"):title = item.select_one(".p-name em").text.strip()price = item.select_one(".p-price i").text.strip()comment = item.select_one(".p-commit a").text.strip()products.append({"Title": title, "Price": price, "Comment": comment})
4. 保存数据到CSV
df = pd.DataFrame(products)
df.to_csv("jd_products.csv", index=False, encoding='utf-8')
print("数据已保存到jd_products.csv")
5. 结果展示
结果文件jd_products.csv
将包含商品标题、价格和评论数等信息。
示例数据结构(CSV文件)
Title | Price | Comment |
---|---|---|
Python编程从入门到实践 | 55.8 | 5000+ |
深入理解Python编程 | 75.2 | 3000+ |
五、常见学习资源
- Python网络爬虫:官方文档
- BeautifulSoup使用指南:官方文档
- Selenium浏览器自动化:官方文档
- Scrapy爬虫框架:Scrapy
相关文章:

python爬虫指南——初学者避坑篇
目录 Python爬虫初学者学习指南一、学习方向二、Python爬虫知识点总结三、具体知识点详解和实现步骤1. HTTP请求和HTML解析2. 正则表达式提取数据3. 动态内容爬取4. 数据存储5. 反爬虫应对措施 四、完整案例:爬取京东商品信息1. 导入库和设置基本信息2. 获取网页内容…...

Vivado+Vscode联合打造verilog环境
一、Vivado下载安装 详细参考我另一篇文章: Vivado2022.2下载安装_fpga vivado下载-CSDN博客https://blog.csdn.net/weixin_61081689/article/details/143460790?spm1001.2014.3001.5501 二、Vscode下载安装 详细参考我另一篇文章: VscodeAnacond…...

Python 微服务架构
Python 微服务架构 目录 🛠 微服务架构的基本概念与设计原则⚡ Python 在微服务中的应用(Flask、FastAPI等框架)🚀 微服务的自动化部署与运维🔍 服务发现与负载均衡📊 微服务中的日志集中管理与监控&…...

Android JNI 技术入门指南
引言 在Android开发中,Java是一种主要的编程语言,然而,对于一些性能要求较高的场景(如音视频处理、图像处理、计算密集型任务等),我们可能需要使用到C或C等语言来编写底层的高效代码。为了实现Java代码与C…...

实在智能受邀出席柳州市智能终端及机器人产业发展合作大会
10 月 27 日至 28 日,由中共柳州市委员会与柳州市人民政府主办的2024柳州市智能终端及机器人产业发展合作大会在柳州莲花山庄隆重举行。大会充分整合各方资源,持续深化与柳州在重大战略规划、重大平台建设、重点产业培育等领域的合作。作为智能体行业的知…...

算法求解(C#)-- 寻找包含目标字符串的最短子串算法
1. 引言 在字符串处理中,我们经常需要从一个较长的字符串中找到包含特定目标字符串的最短子串。这个问题在文本搜索、基因序列分析等领域有着广泛的应用。本文将介绍一种高效的算法来解决这个问题。 2. 问题描述 给定一个源字符串 source 和一个目标字符串 targe…...

AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子
本次主要讨论下AscendC算子的开发流程,基于Kernel直调工程的算子开发。 1 AscendC算子开发的基本流程 使用Ascend C完成Add算子核函数开发; 使用ICPU_RUN_KF CPU调测宏完成算子核函数CPU侧运行验证; 使用<<<>>>内核调用符…...

DAO模式的理解
目录 DAO模式 含义 DAO模式 的理解 分层思维 分层含义 分层目的 dao层 dao包(对接的是操作数据库的接口) dao包下lmpl 包(dao包中接口的实现类) 补充 1 你创建的实体类需要和数据库中建的表一一对应。 总结 DAO模式 含义…...

使用GitHub Actions实现CI/CD流程
💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 使用GitHub Actions实现CI/CD流程 GitHub Actions 简介 创建仓库 配置工作流 示例工作流文件 触发和运行工作流 部署应用 最佳实…...

机器人助力Bridge Champ游戏:1.4.2版本如何提升玩家体验
在Bridge Champ游戏中,机器人扮演着桥牌游戏的“无名英雄”角色,默默地提升玩家体验。凭借智能化的设计,这些机器人不仅能够陪练,也大大提升了比赛的流畅度与趣味性。 Bridge Champ是什么 Bridge Champ是一个基于Ignis公链的在线…...

滑动窗口(单调队列维护窗口)-acwing
题目: 154. 滑动窗口 - AcWing题库 代码(删除队列窗口多余的>单调队列) 判断最值是否滑出窗口可以放在 入队的后面。 但是,判断,准备入队元素比前面小,要从队尾出队,放在入队前。 总之&a…...

ALB搭建
ALB: 多级分发、消除单点故障提升应用系统的可用性(健康检查)。 海量微服务间的高效API通信。 自带DDoS防护,集成Web应用防火墙 配置: 1.创建ECS实例 2.搭建应用 此处安装的LNMP 3.创建应用型负载均衡ALB实例 需要创建服务关联角…...

c# 动态lambda实现二级过滤(支持多种参数类型和模糊查询)
效果 调用方法 实体类(可以根据需求更换) public class ToolStr50 {public bool isSelected { get; set; }public string toolStr1 { get; set; }public string toolStr2 { get; set; }public string toolStr3 { get; set; }public string toolStr4 { …...

第J5周:DenseNet+SE-Net实战
🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 任务: ●1. 在DenseNet系列算法中插入SE-Net通道注意力机制,并完成猴痘病识别 ●2. 改进思路是否可以迁移到其他地方呢 ●3. 测试集acc…...

Intern大模型训练营(五):书生大模型全链路开源体系笔记
观看视频,可以比较详细地了解到书生大模型全链路开源体系。 其中有几个印象比较深的点: 这张图讲述了书生浦语大模型开源的发展史,同时与主流的llama和Chatgpt模型进行比较,可以看出在参数上,InterLM在努力追赶甚至超…...

聚观早报 | 比亚迪腾势D9登陆泰国;苹果 iOS 18.2 将发布
聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 11月5日消息 比亚迪腾势D9登陆泰国 苹果 iOS 18.2 将发布 真我GT7 Pro防尘防水细节 小米15 Ultra最快明年登场 …...

微信小程序开发,诗词鉴赏app,诗词搜索实现(三)
微信小程序开发,诗词鉴赏app(一): https://blog.csdn.net/jky_yihuangxing/article/details/143501681微信小程序开发,诗词鉴赏app,诗词推荐实现(二):https://blog.csdn.net/jky_yih…...

Kotlin 协程使用及其详解
Kotlin协程,好用,但是上限挺高的,我一直感觉自己就处于会用,知其然不知其所以然的地步。 做点小总结,比较浅显。后面自己再继续补充吧。 一、什么是协程? Kotlin 协程是一种轻量级的并发编程方式&#x…...

计算机组成原理--三章四章
这里写目录标题 第三章:存储系统3.1 存储系统基本概念引入存储器的层次结构简介产品 存储器的分类按层次分类按照介质分类按照存取方式分类按照信息的可更改性按照信息的可保护性 存储器的性能指标存储容量单位成本存储速度 总结 3.2主存储器的基本组成半导体元器件…...

单片机工程使用链接优化-flto找不到定义_链接静态库
IDE: CLion HOST: Windows 11 MinGW:x86_64-14.2.0-release-posix-seh-ucrt-rt_v12-rev0 GCC: arm-gnu-toolchain-13.3.rel1-mingw-w64-i686-arm-none-eabi 示例工程:https://github.com/ichliebedich-DaCapo/STM…...

UniTask/Unity的PlayerLoopTiming触发顺序
开始尝试在项目中使用UniTask,发现其中的UniTask.Yield确实很好用,还可以传入PlayerLoopTiming来更细致的调整代码时机,不过平常在Mono中接触的只有Awake,Start,Update等常用Timing,其他的就没怎么接触了&a…...

【报错记录】Steam迁移(移动)游戏报:移动以下应用的内容失败:XXX: 磁盘写入错误
前言 由于黑神话悟空,导致我的2TB的SSD系统盘快满了,我又买了一块4TB的SSD用来存放游戏,我就打算把之前C盘里的游戏移动到D盘,结果Steam移动游戏居然报错了,报的还是“磁盘写入错误”,如下图所示ÿ…...

C 语言学习-04【结构化程序设计】
1、单分支结构语句 用单分支结构进行奇偶判断: #include <stdio.h>int main() {int num;printf("Please enter an integer: ");scanf("%d", &num);if (num % 2 ! 0) {printf("%d is odd! \n", num);}if (num % 2 0) {prin…...

机器视觉:轮廓匹配算法原理
轮廓匹配的模板变量主要包括模板图像(Template)和待检测图像(Source Image) 在轮廓匹配中,模板变量主要包括一下几个关键部分: 模板图像(Template):这是进行匹配的…...

动力商城-02 环境搭建
1.父工程必须满足:1.1删除src目录 1.2pom 2.依赖继承 //里面的依赖,后代无条件继承<dependencies></dependencies>//里面的依赖,后代想要继承,得自己声明需要使用,可以不写版本号,自动继承&l…...

【react】Redux基础用法
1. Redux基础用法 Redux 是一个用于 JavaScript 应用的状态管理库,它不依赖于任何 UI库,但常用于与 React 框架配合使用。它提供了一种集中式的状态管理方式,将应用的所有状态保存在一个单一的全局 Store(存储)中&…...

使用Python分析股票价格数据并计算移动平均线的实用指南
使用Python分析股票价格数据并计算移动平均线的实用指南 在金融市场中,移动平均线(Moving Average, MA)是一种常用的技术分析工具,用于平滑价格数据,帮助投资者识别趋势。本文将详细介绍如何使用Python分析股票价格数据,并计算移动平均线。我们将通过一个实际的案例来演…...

如何解决FPS低的问题?代码优化方法有哪些?
如果你是一名游戏开发者,或者对电脑性能有所追求的用户,那么你一定遇到过帧率(FPS)低的问题。帧率低会导致游戏卡顿、画面不流畅等问题,极大地影响了用户体验。本文将从代码层面探讨FPS低的原因,并提供一些…...

QT信号和槽与自定义的信号和槽
QT信号和槽与自定义的信号和槽 1.概述 这篇文章介绍下QT信号和槽的入门知识,通过一个案例介绍如何创建信号和槽,并调用他们。 2.信号和槽使用 下面通过点击按钮关闭窗口的案例介绍如何使用信号和槽。 创建按钮 在widget.cpp文件中创建按钮代码如下 …...

LC:二分查找——杂记
文章目录 268. 丢失的数字162. 寻找峰值 268. 丢失的数字 LC将此题归类为二分查找,并且为简单题,下面记一下自己对这道题目的思考。 题目链接:268.丢失的数字 第一次看到这个题目,虽然标注的为简单,但肯定不能直接排…...