当前位置: 首页 > news >正文

python爬虫指南——初学者避坑篇

在这里插入图片描述

目录

      • Python爬虫初学者学习指南
        • 一、学习方向
        • 二、Python爬虫知识点总结
        • 三、具体知识点详解和实现步骤
          • 1. HTTP请求和HTML解析
          • 2. 正则表达式提取数据
          • 3. 动态内容爬取
          • 4. 数据存储
          • 5. 反爬虫应对措施
        • 四、完整案例:爬取京东商品信息
          • 1. 导入库和设置基本信息
          • 2. 获取网页内容
          • 3. 解析数据
          • 4. 保存数据到CSV
        • 5. 结果展示
          • 示例数据结构(CSV文件)
      • 五、常见学习资源

Python爬虫初学者学习指南

一、学习方向
  1. Python基础:掌握Python基础语法、文件处理、正则表达式(re模块)和数据处理(Pandas库)。
  2. HTTP与HTML解析基础:理解HTTP协议和HTML结构,学习请求库(Requests)和解析库(BeautifulSoup)。
  3. 动态页面处理:学习如何使用Selenium处理JavaScript动态加载内容。
  4. 反爬虫机制及应对方法:了解常见反爬虫机制,学习代理设置、请求头伪装、IP池等应对方法。
  5. 数据存储:学习如何将爬取的数据存储到CSV、JSON、数据库中,熟悉Pandas、SQLite等数据处理和存储工具。
  6. 实战案例:完成一些经典爬虫项目,如商品价格爬取、评论分析等,强化综合应用能力。
二、Python爬虫知识点总结
知识点描述常用方法或库
HTTP基础了解HTTP请求和响应,GET、POST、状态码等requests.get()requests.post()
HTML结构解析通过标签定位、CSS选择器、XPath解析HTML内容BeautifulSouplxml
正则表达式使用正则表达式从文本中匹配特定模式的数据re库、re.findall()
动态内容爬取处理JavaScript生成的动态数据,抓取动态加载的内容SeleniumPyppeteer
代理与请求头伪装防止被封禁,使用代理IP和伪装User-Agentrequests.Session()、代理池
Cookies处理模拟登录和保持会话,获取需要登录的页面requests.Session(), headers
数据清洗与存储清洗数据格式,保存到CSV、JSON或数据库中Pandasjsonsqlite3
多线程与异步爬取提高爬取速度,使用多线程或异步编程concurrent.futuresasyncioaiohttp
反爬虫应对措施随机请求头、延迟请求、使用代理IP等fake_useragenttime.sleep()
三、具体知识点详解和实现步骤
1. HTTP请求和HTML解析

通过 RequestsBeautifulSoup 库发送请求并解析内容。

import requests
from bs4 import BeautifulSoup# 获取页面内容
url = "https://example.com"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
response = requests.get(url, headers=headers)# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('title').text  # 提取页面标题
print("页面标题:", title)
2. 正则表达式提取数据

使用正则表达式从HTML或文本中提取数据,适用于格式固定的数据。

import rehtml = "<div><p>价格: ¥100</p></div>"
price = re.findall(r"¥(\d+)", html)
print("价格:", price[0])
3. 动态内容爬取

处理JavaScript加载的内容,可以使用Selenium模拟浏览器行为。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time# 设置Selenium驱动
service = Service("chromedriver_path")  # 替换为Chromedriver路径
driver = webdriver.Chrome(service=service)
driver.get("https://example.com")# 等待页面加载
time.sleep(3)
content = driver.find_element(By.CLASS_NAME, "target-class").text  # 获取内容
print("页面内容:", content)# 关闭浏览器
driver.quit()
4. 数据存储

爬取的数据可以存储为CSV、JSON文件,或保存到数据库中。

  • 存储为CSV文件
import pandas as pddata = [{"Title": "Example", "Price": "100"}]
df = pd.DataFrame(data)
df.to_csv("output.csv", index=False)
  • 存储为JSON文件
import jsondata = [{"Title": "Example", "Price": "100"}]
with open("output.json", "w") as f:json.dump(data, f)
  • 存储到SQLite数据库
import sqlite3connection = sqlite3.connect('example.db')
cursor = connection.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS Products (Title TEXT, Price TEXT)''')
cursor.execute("INSERT INTO Products VALUES (?, ?)", ("Example", "100"))
connection.commit()
connection.close()
5. 反爬虫应对措施

常见反爬虫措施及对应的应对方案。

反爬虫措施应对方法
IP封禁使用代理IP池,定期更换IP
User-Agent检测随机切换User-Agent,使用fake_useragent
访问频率限制设置请求延迟,使用time.sleep()控制速度
验证码手动输入验证码或使用OCR识别工具
JavaScript检测使用Selenium模拟浏览器,执行JavaScript代码
四、完整案例:爬取京东商品信息

通过以下案例将知识点进行综合运用,爬取京东指定商品的价格、名称及评价数。

1. 导入库和设置基本信息
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time# 基础设置
url = "https://search.jd.com/Search?keyword=python书籍&enc=utf-8"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
2. 获取网页内容
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
3. 解析数据
products = []
for item in soup.select(".gl-item"):title = item.select_one(".p-name em").text.strip()price = item.select_one(".p-price i").text.strip()comment = item.select_one(".p-commit a").text.strip()products.append({"Title": title, "Price": price, "Comment": comment})
4. 保存数据到CSV
df = pd.DataFrame(products)
df.to_csv("jd_products.csv", index=False, encoding='utf-8')
print("数据已保存到jd_products.csv")
5. 结果展示

结果文件jd_products.csv将包含商品标题、价格和评论数等信息。

示例数据结构(CSV文件)
TitlePriceComment
Python编程从入门到实践55.85000+
深入理解Python编程75.23000+

五、常见学习资源

  • Python网络爬虫:官方文档
  • BeautifulSoup使用指南:官方文档
  • Selenium浏览器自动化:官方文档
  • Scrapy爬虫框架:Scrapy

相关文章:

python爬虫指南——初学者避坑篇

目录 Python爬虫初学者学习指南一、学习方向二、Python爬虫知识点总结三、具体知识点详解和实现步骤1. HTTP请求和HTML解析2. 正则表达式提取数据3. 动态内容爬取4. 数据存储5. 反爬虫应对措施 四、完整案例&#xff1a;爬取京东商品信息1. 导入库和设置基本信息2. 获取网页内容…...

Vivado+Vscode联合打造verilog环境

一、Vivado下载安装 详细参考我另一篇文章&#xff1a; Vivado2022.2下载安装_fpga vivado下载-CSDN博客https://blog.csdn.net/weixin_61081689/article/details/143460790?spm1001.2014.3001.5501 二、Vscode下载安装 详细参考我另一篇文章&#xff1a; VscodeAnacond…...

Python 微服务架构

Python 微服务架构 目录 &#x1f6e0; 微服务架构的基本概念与设计原则⚡ Python 在微服务中的应用&#xff08;Flask、FastAPI等框架&#xff09;&#x1f680; 微服务的自动化部署与运维&#x1f50d; 服务发现与负载均衡&#x1f4ca; 微服务中的日志集中管理与监控&…...

Android JNI 技术入门指南

引言 在Android开发中&#xff0c;Java是一种主要的编程语言&#xff0c;然而&#xff0c;对于一些性能要求较高的场景&#xff08;如音视频处理、图像处理、计算密集型任务等&#xff09;&#xff0c;我们可能需要使用到C或C等语言来编写底层的高效代码。为了实现Java代码与C…...

实在智能受邀出席柳州市智能终端及机器人产业发展合作大会

10 月 27 日至 28 日&#xff0c;由中共柳州市委员会与柳州市人民政府主办的2024柳州市智能终端及机器人产业发展合作大会在柳州莲花山庄隆重举行。大会充分整合各方资源&#xff0c;持续深化与柳州在重大战略规划、重大平台建设、重点产业培育等领域的合作。作为智能体行业的知…...

算法求解(C#)-- 寻找包含目标字符串的最短子串算法

1. 引言 在字符串处理中&#xff0c;我们经常需要从一个较长的字符串中找到包含特定目标字符串的最短子串。这个问题在文本搜索、基因序列分析等领域有着广泛的应用。本文将介绍一种高效的算法来解决这个问题。 2. 问题描述 给定一个源字符串 source 和一个目标字符串 targe…...

AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子

本次主要讨论下AscendC算子的开发流程&#xff0c;基于Kernel直调工程的算子开发。 1 AscendC算子开发的基本流程 使用Ascend C完成Add算子核函数开发&#xff1b; 使用ICPU_RUN_KF CPU调测宏完成算子核函数CPU侧运行验证&#xff1b; 使用<<<>>>内核调用符…...

DAO模式的理解

目录 DAO模式 含义 DAO模式 的理解 分层思维 分层含义 分层目的 dao层 dao包&#xff08;对接的是操作数据库的接口&#xff09; dao包下lmpl 包&#xff08;dao包中接口的实现类&#xff09; 补充 1 你创建的实体类需要和数据库中建的表一一对应。 总结 DAO模式 含义…...

使用GitHub Actions实现CI/CD流程

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用GitHub Actions实现CI/CD流程 GitHub Actions 简介 创建仓库 配置工作流 示例工作流文件 触发和运行工作流 部署应用 最佳实…...

机器人助力Bridge Champ游戏:1.4.2版本如何提升玩家体验

在Bridge Champ游戏中&#xff0c;机器人扮演着桥牌游戏的“无名英雄”角色&#xff0c;默默地提升玩家体验。凭借智能化的设计&#xff0c;这些机器人不仅能够陪练&#xff0c;也大大提升了比赛的流畅度与趣味性。 Bridge Champ是什么 Bridge Champ是一个基于Ignis公链的在线…...

滑动窗口(单调队列维护窗口)-acwing

题目&#xff1a; 154. 滑动窗口 - AcWing题库 代码&#xff08;删除队列窗口多余的>单调队列&#xff09; 判断最值是否滑出窗口可以放在 入队的后面。 但是&#xff0c;判断&#xff0c;准备入队元素比前面小&#xff0c;要从队尾出队&#xff0c;放在入队前。 总之&a…...

ALB搭建

ALB: 多级分发、消除单点故障提升应用系统的可用性&#xff08;健康检查&#xff09;。 海量微服务间的高效API通信。 自带DDoS防护&#xff0c;集成Web应用防火墙 配置&#xff1a; 1.创建ECS实例 2.搭建应用 此处安装的LNMP 3.创建应用型负载均衡ALB实例 需要创建服务关联角…...

c# 动态lambda实现二级过滤(支持多种参数类型和模糊查询)

效果 调用方法 实体类&#xff08;可以根据需求更换&#xff09; public class ToolStr50 {public bool isSelected { get; set; }public string toolStr1 { get; set; }public string toolStr2 { get; set; }public string toolStr3 { get; set; }public string toolStr4 { …...

第J5周:DenseNet+SE-Net实战

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 任务&#xff1a; ●1. 在DenseNet系列算法中插入SE-Net通道注意力机制&#xff0c;并完成猴痘病识别 ●2. 改进思路是否可以迁移到其他地方呢 ●3. 测试集acc…...

Intern大模型训练营(五):书生大模型全链路开源体系笔记

观看视频&#xff0c;可以比较详细地了解到书生大模型全链路开源体系。 其中有几个印象比较深的点&#xff1a; 这张图讲述了书生浦语大模型开源的发展史&#xff0c;同时与主流的llama和Chatgpt模型进行比较&#xff0c;可以看出在参数上&#xff0c;InterLM在努力追赶甚至超…...

聚观早报 | 比亚迪腾势D9登陆泰国;苹果 iOS 18.2 将发布

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 11月5日消息 比亚迪腾势D9登陆泰国 苹果 iOS 18.2 将发布 真我GT7 Pro防尘防水细节 小米15 Ultra最快明年登场 …...

微信小程序开发,诗词鉴赏app,诗词搜索实现(三)

微信小程序开发&#xff0c;诗词鉴赏app&#xff08;一&#xff09;&#xff1a; https://blog.csdn.net/jky_yihuangxing/article/details/143501681微信小程序开发&#xff0c;诗词鉴赏app&#xff0c;诗词推荐实现&#xff08;二&#xff09;:https://blog.csdn.net/jky_yih…...

Kotlin 协程使用及其详解

Kotlin协程&#xff0c;好用&#xff0c;但是上限挺高的&#xff0c;我一直感觉自己就处于会用&#xff0c;知其然不知其所以然的地步。 做点小总结&#xff0c;比较浅显。后面自己再继续补充吧。 一、什么是协程&#xff1f; Kotlin 协程是一种轻量级的并发编程方式&#x…...

计算机组成原理--三章四章

这里写目录标题 第三章&#xff1a;存储系统3.1 存储系统基本概念引入存储器的层次结构简介产品 存储器的分类按层次分类按照介质分类按照存取方式分类按照信息的可更改性按照信息的可保护性 存储器的性能指标存储容量单位成本存储速度 总结 3.2主存储器的基本组成半导体元器件…...

单片机工程使用链接优化-flto找不到定义_链接静态库

IDE&#xff1a; CLion HOST&#xff1a; Windows 11 MinGW&#xff1a;x86_64-14.2.0-release-posix-seh-ucrt-rt_v12-rev0 GCC&#xff1a; arm-gnu-toolchain-13.3.rel1-mingw-w64-i686-arm-none-eabi 示例工程&#xff1a;https://github.com/ichliebedich-DaCapo/STM…...

利用kimi与快马平台,十分钟搭建个人博客web应用原型

最近想快速验证一个个人博客的创意&#xff0c;但自己从头写代码太费时间。尝试用InsCode(快马)平台的Kimi模型生成原型&#xff0c;没想到十分钟就搞定了可运行的Web应用&#xff0c;分享下这个高效流程&#xff1a; 明确需求梳理结构 先花2分钟在纸上画了博客的基本框架&…...

AudioLDM-S极速音效生成:5分钟搞定游戏音效,小白也能当音效师

AudioLDM-S极速音效生成&#xff1a;5分钟搞定游戏音效&#xff0c;小白也能当音效师 1. 游戏音效制作的新纪元 想象一下这样的场景&#xff1a;你正在开发一款独立游戏&#xff0c;需要一个"科幻飞船引擎启动"的音效。传统方式可能需要花费数小时搜索音效库、购买…...

Ascend CANN平台避坑指南:从算子开发到模型部署的5个关键陷阱

Ascend CANN平台避坑指南&#xff1a;从算子开发到模型部署的5个关键陷阱 在AI加速器领域&#xff0c;昇腾NPU凭借其独特的达芬奇架构和CANN软件栈&#xff0c;正在成为越来越多企业级AI部署的首选方案。然而在实际工程落地过程中&#xff0c;从算子开发到模型部署的完整链路里…...

Dan Koe: 如果你有多重兴趣,请不要浪费接下来的2-3年

本文整理自 Dan Koe 原文。Dan Koe 是 YouTube、X 等平台拥有数百万粉丝的个人成长领域创作者&#xff0c;以"一人公司"理念、深度内容创作和高效 AI 工作流著称。你是否曾因为无法只专注一件事而感到自责&#xff1f; 你学设计&#xff0c;又想学编程&#xff1b;读…...

从农田到实验室:大疆P4M多光谱数据与ASD地物波谱仪实测数据对比实操指南

从农田到实验室&#xff1a;大疆P4M多光谱数据与ASD地物波谱仪实测数据对比实操指南 当无人机掠过农田上空&#xff0c;搭载的多光谱传感器正在以厘米级分辨率记录作物的生理状态。这些数据能否真实反映地表反射特性&#xff1f;本文将以大疆P4M多光谱无人机与ASD FieldSpec系…...

Python打包神器大PK:Nuitka vs PyInstaller,谁才是你的菜?(附实测数据)

Python打包工具深度评测&#xff1a;Nuitka与PyInstaller的终极对决 当开发者需要将Python项目分发给没有Python环境的用户时&#xff0c;打包工具的选择往往成为关键决策。本文将深入分析两大主流工具Nuitka和PyInstaller在多个维度的表现&#xff0c;帮助开发者根据项目需求做…...

SiameseUIE中文-base效果对比:在CLUE-NER和COTE-ABSA双基准测试

SiameseUIE中文-base效果对比&#xff1a;在CLUE-NER和COTE-ABSA双基准测试 想找一个开箱即用、效果又好的中文信息抽取工具&#xff1f;今天我们来聊聊阿里巴巴达摩院出品的SiameseUIE中文-base模型。这可不是一个普通的模型&#xff0c;它是一个“通用信息抽取”模型&#x…...

【建议收藏】彻底剥离“机器味”:2026硬核横评10款降AI神器,实录97.98%极限降至7.46%

现在的知网、维普AIGC检测已经不同往日了&#xff0c;哪怕你逐字手打&#xff0c;只要句式稍显机械&#xff0c;系统就会判定疑似AI生成。很多同学为了降低ai率&#xff0c;把论文改成了毫无逻辑的口水话&#xff0c;结果AI率反而炸了。 别再盲目试错&#xff0c;为了帮大家在…...

别只盯着时钟了!用Vivado的Set_Data_Check搞定FPGA里两个数据信号的时序检查(附工程源码)

FPGA时序约束进阶&#xff1a;用Set_Data_Check精准控制数据信号时序关系 在FPGA设计中&#xff0c;时序约束是确保电路功能正确性的关键环节。大多数工程师对时钟与数据信号之间的setup/hold约束已经驾轻就熟&#xff0c;但当面对两个数据信号之间的时序关系时&#xff0c;却常…...

从智能门铃到工业质检:拆解5个嵌入式AI落地案例,看模型压缩和硬件选型怎么选

从智能门铃到工业质检&#xff1a;5个嵌入式AI实战案例与选型策略 智能门铃的摄像头突然捕捉到一张陌生面孔&#xff0c;300毫秒内完成本地人脸比对并推送到主人手机——这背后是嵌入式AI在消费电子领域的典型应用。当算法工程师面对瑞芯微RK3588和地平线旭日X3两颗芯片的选型表…...