当前位置：首页 > news >正文

初学者如何用 Python 写第一个爬虫？

news 2025/11/14 1:05:29

?? 欢迎来到我的博客！ 非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。

?? 博客内容包括：

Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。
大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Flink、Kafka、Redis、ECharts、Zookeeper等相关技术。
开发工具：分享常用开发工具（IDEA、Git、Mac、Alfred、Typora等）的使用技巧，提升开发效率。
数据库与优化：总结MySQL及其他常用数据库技术，解决实际工作中的数据库问题。
Python与大数据：专注于Python编程语言的深度学习，数据分析工具（如Pandas、NumPy）和大数据处理技术，帮助您掌握数据分析、数据挖掘、机器学习等技术。
数据结构与算法：总结数据结构与算法的核心知识，提升编程思维，帮助您应对大厂面试挑战。

?? 我的目标：持续学习与总结，分享技术心得与解决方案，和您一起探索技术的无限可能！在这里，我希望能与您共同进步，互相激励，成为更好的自己。

?? 欢迎订阅本专栏，与我一起在这个知识的海洋中不断学习、分享和成长！???

??版权声明：本博客所有内容均为原创，遵循CC 4.0 BY-SA协议，转载请注明出处。

一、爬虫的基本概念

1. 爬虫的定义

2. 爬虫的主要工作流程

3. 常用 Python 工具

二、环境准备

1. 安装 Python

2. 安装必要库

三、写第一个简单的爬虫

1. 完整代码示例

2. 代码逐步解析

1）发送 HTTP 请求

2）检查请求状态

3）解析 HTML 数据

4）提取网页内容

5）打印结果

四、改进爬虫功能

1. 添加请求头

2. 控制爬取频率

3. 保存数据

五、应对复杂网页

1. 动态加载网页

2. 爬取图片或文件

六、爬虫的注意事项

1. 遵守法律和道德

2. 处理异常

3. 避免过于频繁的请求

网页爬虫是一种通过程序自动抓取网页数据的技术。对于初学者来说，使用 Python 写一个简单的爬虫是一个很好的入门项目。Python 提供了许多强大的工具和库，如 requests 和 BeautifulSoup，可以帮助快速实现网页数据的爬取。

在本文中，我们将从爬虫的基本概念开始，逐步实现一个可以抓取网页内容的简单爬虫，并探讨如何改进爬虫以应对复杂场景。我们将从以下几个方面展开：

一、爬虫的基本概念

1. 爬虫的定义

爬虫（Web Crawler）是一种自动化脚本或程序，它会模拟用户访问网页的行为，从而提取网页中的特定内容。

2. 爬虫的主要工作流程

一个典型的爬虫任务通常包括以下步骤：

发送请求：通过 HTTP 协议访问目标网页，获取其 HTML 内容。
解析数据：对获取到的 HTML 进行解析，提取我们需要的数据。
存储数据：将提取到的数据保存到文件或数据库中，便于后续处理。

3. 常用 Python 工具

**requests**：发送 HTTP 请求，获取网页内容。
**BeautifulSoup**：解析 HTML 或 XML 数据，提取特定内容。
**re**（正则表达式）：对复杂文本模式进行匹配和提取。
**pandas**：对数据进行清洗和分析。

二、环境准备

1. 安装 Python

确保你的计算机上已经安装了 Python（推荐使用 3.7 及以上版本）。如果尚未安装，可以从 Python 官方网站下载并安装。

2. 安装必要库

打开命令行或终端，运行以下命令安装我们需要的 Python 库：

pip install requests beautifulsoup4

**requests**：用于发送 HTTP 请求。
**beautifulsoup4**：用于解析 HTML 数据。

三、写第一个简单的爬虫

我们来实现一个简单的爬虫，它将抓取某个网页的标题和正文内容。

1. 完整代码示例

以下代码实现了一个基本的爬虫：

import requests
from bs4 import BeautifulSoupdef simple_crawler(url):try:# 1. 发送请求response = requests.get(url)response.raise_for_status()  # 检查请求是否成功# 2. 解析网页内容soup = BeautifulSoup(response.text, 'html.parser')# 3. 提取标题和段落内容title = soup.find('title').text  # 获取网页标题paragraphs = soup.find_all('p')  # 获取所有段落内容print(f"网页标题: {title}
")print("网页内容:")for p in paragraphs:print(p.text)except requests.exceptions.RequestException as e:print(f"请求失败: {e}")# 示例网址
url = "https://example.com"  # 替换为你想爬取的网页地址
simple_crawler(url)

2. 代码逐步解析

1）发送 HTTP 请求

response = requests.get(url)

使用 requests.get() 方法向目标网址发送 GET 请求。
返回的 response 对象包含网页的所有内容，包括 HTML 源代码。

2）检查请求状态

response.raise_for_status()

通过 raise_for_status() 检查请求是否成功。如果返回的 HTTP 状态码表示错误（如 404 或 500），会抛出异常。

3）解析 HTML 数据

soup = BeautifulSoup(response.text, 'html.parser')

BeautifulSoup 用于解析 HTML 内容，并将其转化为 Python 对象，方便后续操作。
第二个参数 'html.parser' 指定使用 Python 内置的 HTML 解析器。

4）提取网页内容

title = soup.find('title').text
paragraphs = soup.find_all('p')

find('title') 方法返回 <title> 标签的内容。
find_all('p') 方法返回所有段落标签 <p>，并以列表形式存储。

5）打印结果

for p in paragraphs:print(p.text)

遍历提取到的段落内容，并打印每个段落的文本。

四、改进爬虫功能

1. 添加请求头

一些网站会检测爬虫程序并阻止访问。可以通过添加请求头来模拟浏览器访问。

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)

2. 控制爬取频率

为了避免对目标网站造成过高的负载，可以在每次请求后添加延时。

import timedef delay_request(url):response = requests.get(url)time.sleep(2)  # 等待 2 秒return response

3. 保存数据

将爬取的数据保存为文件或数据库。

保存到文件：

with open("output.txt", "w", encoding="utf-8") as f:f.write(f"标题: {title}
")for p in paragraphs:f.write(p.text + "
")

保存到 CSV 文件：

import csvwith open("output.csv", "w", newline="", encoding="utf-8") as csvfile:writer = csv.writer(csvfile)writer.writerow(["段落内容"])for p in paragraphs:writer.writerow([p.text])

五、应对复杂网页

1. 动态加载网页

对于 JavaScript 渲染的网页，requests 无法获取完整内容，可以使用 selenium 或 playwright。

示例（使用 selenium）：

from selenium import webdriverurl = "https://example.com"# 配置 WebDriver
driver = webdriver.Chrome()
driver.get(url)# 获取动态加载的内容
html = driver.page_source
print(html)# 关闭浏览器
driver.quit()

2. 爬取图片或文件

import os# 下载图片
img_url = "https://example.com/image.jpg"
response = requests.get(img_url)# 保存图片
with open("image.jpg", "wb") as f:f.write(response.content)

六、爬虫的注意事项

1. 遵守法律和道德

避免违反法律：确保爬取行为符合目标网站的使用条款。
尊重 robots.txt 文件：通过 robots.txt 查看目标网站的爬取限制。

2. 处理异常

对于网络请求失败、数据缺失等情况，添加异常处理逻辑：

try:response = requests.get(url)response.raise_for_status()
except requests.exceptions.RequestException as e:print(f"请求失败: {e}")

3. 避免过于频繁的请求

可以设置延时或使用代理 IP：

proxies = {"http": "http://123.45.67.89:8080","https": "http://123.45.67.89:8080"
}
response = requests.get(url, proxies=proxies)

初学者如何用 Python 写第一个爬虫？

?? 欢迎来到我的博客！ 非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。 ?? …...

编程日记 2025/3/3 18:04:17

Cocos Creator3.8.6拖拽物体的几种方式

文章目录前言一、第一种通过UILocation二、第二种通过UIDelta实现总结前言在游戏开发中，拖拽物体是一个非常常见的交互功能，无论是用于UI元素的拖动，还是场景中物体的移动，拖拽操作都能极大地提升用户体验。Cocos Creator 3.8…...

编程日记 2025/3/3 18:03:15

分布式Session

我用「餐厅点餐代码实战」帮你彻底搞懂分布式Session，看完不仅能应对面试，还能直接应用到实际开发。先记住这个核心矛盾：多服务员如何记住同一顾客的喜好？ 一、从生活场景理解Session的本质传统单机场景（小餐馆&…...

编程日记 2025/3/3 17:59:10

Kotlin 运算符重载

在Kotlin中，常用的运算符重载函数名如下： 1.算术操作符： 加法：plus 减法：minus 乘法：times 除法：div 取模：rem 或 mod 整数除法：floorDiv 求幂：pow 自增&…...

编程日记 2025/3/3 17:58:09

OpenHarmony4.1-轻量与小型系统ubuntu开发环境

因OpenHarmony官网提供包含轻量、小型与标准系统的全量代码非常宠大，解包后大概需要70G以上硬盘空间，如要编译标准系统则需要140G以上空间。如硬盘空间有限与只使用轻量/小型OpenHarmony系统，则可以下载并直接使用本人裁剪源码过的ubuntu硬盘…...

编程日记 2025/3/3 17:48:58

AVR 单片机硬件供电处理

摘自AVR 单片机应用笔记：AN2519 - AVR Microcontroller Hardware Design Considerations。 2. 供电供电设计是任何硬件设计的关键一环，直接影响到系统的性能。在设计供电时，有两个重要的方面需要考虑：ESD 防护和噪声干扰。这些内…...

编程日记 2025/3/3 17:45:54

LeetCode 27 移除元素

LeetCode 27 - 移除元素（Remove Element）是一个简单但经典的双指针问题，主要考察数组操作的基本功。虽然问题容易，但掌握多种解法以及衍生的变体问题对解决更复杂的操作数组问题有帮助。题目描述输入：整数数组 nums…...

编程日记 2025/3/3 17:43:51

对“预训练”的理解

预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大…...

编程日记 2025/3/3 17:40:46

论文阅读：CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?

CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION? 生成式大语言模型能否进行自动语音识别（ASR）纠错？ https://arxiv.org/pdf/2307.04172 文章目录速览常规总结通俗版摘要（Abstract）2. 引言&a…...

编程日记 2025/3/3 17:38:43

Stable Diffusion（SD）系列模型及关联算法深度解析

一、‌基础模型架构演进‌ SD v1.5‌ ‌核心架构‌：基于Latent Diffusion Model（LDM），通过VAE将图像压缩至潜空间进行扩散训练，支持512x512分辨率生成，兼容二次元与写实风格混合创作‌12。 ‌训练数据‌&…...

编程日记 2025/3/3 17:36:39

FPGA开发，使用Deepseek V3还是R1（3）：系统级与RTL级

以下都是Deepseek生成的答案 FPGA开发，使用Deepseek V3还是R1（1）：应用场景 FPGA开发，使用Deepseek V3还是R1（2）：V3和R1的区别 FPGA开发，使用Deepseek V3还是R1&#x…...

编程日记 2025/3/3 17:33:35

logback日志输出配置范例

logback日志输出配置范例在wutool中，提供了logback日志输出配置范例，实现日志文件大小限制、滚动覆盖策略、定时清理等功能。关于wutool wutool是一个java代码片段收集库，针对特定场景提供轻量解决方案，只要按需选择代码片段…...

编程日记 2025/3/3 17:26:26

【开源免费】基于SpringBoot+Vue.JS酒店管理系统（JAVA毕业设计）

本文项目编号 T 224 ，文末自助获取源码 \color{red}{T224，文末自助获取源码} T224，文末自助获取源码目录一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程四、功能截图五、文案资料5.1 选题背景5.2 国内…...

编程日记 2025/3/3 17:25:24

关键代码：LightmapSettings.lightmaps lightmapDatas; LightmapData中操作三张图：lightmapColor,lightmapDir,以及一张ShadowMap 这里只操作前两张： using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.UI;public cl…...

编程日记 2025/3/3 17:24:21

linux(2)用户管理

文章目录 1. 切换用户2. 添加删除用户3.写改密码 1. 切换用户 # 切换用户名，不切换工作目录 su 用户名 # 一起切换工作目录 su - 用户名 # 退出用户 exit2. 添加删除用户 # 添加用户 sudo adduser username # 推荐sudo useradd -m -s /bin/bash 用户名-m 如果创建…...

编程日记 2025/3/3 17:21:17

在鸿蒙HarmonyOS手机上安装hap应用

一、下载工具安装hap包需要用到小工具。二、解压到目录后，进入该文件夹，打开命令行，如下图三、将下载好的hap包放入刚才解压的文件夹内（假设hap包文件名为app.hap） 四、连接好手机和电脑，手机需要打…...

编程日记 2025/3/3 17:16:08

MacBook Pro使用FFmpeg捕获摄像头与麦克风推流音视频

FFmpeg查看macos系统音视频设备列表 ffmpeg -f avfoundation -list_devices true -i "" 使用摄像头及麦克风同时推送音频及视频流: ffmpeg -f avfoundation -pixel_format yuyv422 -framerate 30 -i "0:1" -c:v libx264 -preset ultrafast -b:v 1000k -…...

编程日记 2025/3/3 17:14:06

工程化与框架系列（8）--持续集成实践

持续集成实践 🔄 持续集成（Continuous Integration，简称CI）是现代前端开发流程中的重要环节，它通过自动化构建、测试和部署，帮助团队更快速、更可靠地交付高质量代码。本文将详细介绍前端持续集成的实践方…...

编程日记 2025/3/3 17:13:05

Python核心技术，Django学习基础入门教程（附环境安装包）

文章目录前言1. 环境准备1.1Python安装1.2选择Python开发环境1.3 创建虚拟环境1.4 安装 Django 2. 创建 Django 项目3. Django项目结构介绍4. 启动开发服务器5. 创建 Django 应用6. 应用结构介绍7. 编写视图函数8. 配置 URL 映射9. 运行项目并访问视图10. 数据库配置与模型创建…...

编程日记 2025/3/3 17:11:01

【Qt-信号与槽】connect函数的用法

🏠个人主页：Yui_ 🍑操作环境：Qt Creator 🚀所属专栏：Qt 文章目录 1.信号和槽的概念1.1 信号的本质1.2 槽的本质1.3 补充说明2. 信号和槽的使用2.1 connect函数介绍2.2 connect函数的简单使用2.2.1 图形化方…...

编程日记 2025/3/3 17:08:58

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2025/7/30 7:20:17

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1)：从基础到实战的深度解析-CSDN博客，但实际面试中，企业更关注候选人对复杂场景的应对能力（如多设备并发扫描、低功耗与高发现率的平衡）和前沿技术的…...

编程新知 2025/11/12 20:40:22

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时，可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案： 1. 检查电源供电问题问题原因：多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

编程新知 2025/10/28 15:02:57

vue3 字体颜色设置的多种方式

在Vue 3中设置字体颜色可以通过多种方式实现，这取决于你是想在组件内部直接设置，还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法： 1. 内联样式你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...

编程新知 2025/10/6 20:49:11

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

文章目录基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例（带样式）应用场景在数据科学和可视化领域，三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

编程新知 2025/10/4 3:01:43

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化（Gradient Normalization） (2) 判别器梯度间隙正则化（Discriminator Gradient Gap Regularization） (3) 自注意力机制（Self-Attention） 3. 完整损失函数二…...

编程新知 2025/11/12 16:57:03

MySQL 部分重点知识篇

一、数据库对象 1. 主键定义 ：主键是用于唯一标识表中每一行记录的字段或字段组合。它具有唯一性和非空性特点。作用 ：确保数据的完整性，便于数据的查询和管理。示例 ：在学生信息表中，学号可以作为主键&#xff…...

编程新知 2025/8/19 22:24:50

OD 算法题 B卷【正整数到Excel编号之间的转换】

文章目录正整数到Excel编号之间的转换正整数到Excel编号之间的转换 excel的列编号是这样的：a b c … z aa ab ac… az ba bb bc…yz za zb zc …zz aaa aab aac…; 分别代表以下的编号1 2 3 … 26 27 28 29… 52 53 54 55… 676 677 678 679 … 702 703 704 705;…...

编程新知 2025/8/31 2:33:30

在 Spring Boot 中使用 JSP

jsp？ 好多年没用了。重新整一下还费了点时间，记录一下。项目结构： pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...

编程新知 2025/11/13 19:00:14

一、爬虫的基本概念

1. 爬虫的定义

2. 爬虫的主要工作流程

3. 常用 Python 工具

二、环境准备

1. 安装 Python

2. 安装必要库

三、写第一个简单的爬虫

1. 完整代码示例

2. 代码逐步解析

1）发送 HTTP 请求

2）检查请求状态

3）解析 HTML 数据

4）提取网页内容

5）打印结果

四、改进爬虫功能

1. 添加请求头

2. 控制爬取频率

3. 保存数据

五、应对复杂网页

1. 动态加载网页

2. 爬取图片或文件

六、爬虫的注意事项

1. 遵守法律和道德

2. 处理异常

3. 避免过于频繁的请求

相关文章：