当前位置：首页 > news >正文

Python 爬虫入门教程：从零构建你的第一个网络爬虫

news 2026/5/25 1:23:48

网络爬虫是一种自动化程序，用于从网站抓取数据。Python 凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习 Python 爬虫的基本知识，并实现一个简单的爬虫项目。

1. 什么是网络爬虫？

网络爬虫（Web Crawler）是一种通过网络协议（如 HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：

收集商品价格和评价。
抓取新闻或博客内容。
统计数据分析。

爬虫工作原理

发送 HTTP 请求到目标网站。
获取服务器返回的 HTML 页面。
解析 HTML 内容，提取所需数据。
保存数据以供后续使用。

2. 爬虫的基本工具

在 Python 中，我们可以使用以下工具和库来构建爬虫：

2.1 requests

requests 是一个强大的 HTTP 库，用于发送网络请求，获取网页内容。

安装：

pip install requests

示例：

import requests 
url = "https://example.com" 
response = requests.get(url) 
print(response.text) # 打印网页内容

2.2 BeautifulSoup

BeautifulSoup 是一个解析 HTML 和 XML 的库，用于从网页中提取数据。

安装：

pip install beautifulsoup4

示例：

from bs4 import BeautifulSouphtml = "<html><body><h1>Hello, World!</h1></body></html>"
soup = BeautifulSoup(html, "html.parser")
print(soup.h1.text)  # 输出 "Hello, World!"

2.3 pandas

pandas 是一个用于数据处理和分析的库，适合将爬取的数据保存到 CSV 或 Excel。

安装：

pip install pandas

示例：

import pandas as pddata = {"Title": ["Example"], "Link": ["https://example.com"]}
df = pd.DataFrame(data)
df.to_csv("output.csv", index=False)

3. 爬虫案例：抓取豆瓣电影排行榜

下面我们将构建一个爬虫，从豆瓣电影的网页抓取电影排行榜。

3.1 准备工作

目标网址： https://movie.douban.com/top250

我们将抓取以下信息：

电影名称
评分
引言

3.2 代码实现

import requests
from bs4 import BeautifulSoup
import pandas as pd# 爬取一个页面的数据
def scrape_page(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, "html.parser")movies = []for item in soup.find_all("div", class_="item"):title = item.find("span", class_="title").textrating = item.find("span", class_="rating_num").textquote = item.find("span", class_="inq").text if item.find("span", class_="inq") else "N/A"movies.append({"Title": title, "Rating": rating, "Quote": quote})return movies# 主程序：爬取多页
def main():base_url = "https://movie.douban.com/top250?start={}"all_movies = []for i in range(0, 250, 25):  # 每页 25 部电影url = base_url.format(i)print(f"Scraping: {url}")movies = scrape_page(url)all_movies.extend(movies)# 保存为 CSV 文件df = pd.DataFrame(all_movies)df.to_csv("douban_top250.csv", index=False)print("Scraping complete! Data saved to douban_top250.csv")if __name__ == "__main__":main()

3.3 代码解析

设置请求头： 模拟浏览器访问，避免被反爬机制屏蔽。
BeautifulSoup 提取内容： 使用 find 和 find_all 定位 HTML 标签，提取标题、评分和引言。
循环抓取多页： 构造分页 URL，逐页爬取。
保存为 CSV： 使用 pandas 将数据存储为 CSV 文件。

4. 运行与结果

运行程序后，将生成 douban_top250.csv 文件，内容如下：

5. 注意事项

5.1 遵守爬虫的礼仪

合理设置延迟： 在抓取页面时加入适当的延时，避免对服务器造成压力。
检查 robots.txt： 访问目标网站的 https://example.com/robots.txt 查看允许抓取的内容。
请求头伪装： 使用 User-Agent 模拟浏览器访问。

5.2 反爬机制应对

如果遇到反爬机制，可以尝试：

使用代理 IP。
处理动态内容（如 JavaScript 加载的页面）。
使用更高级的库如 selenium 或 Playwright。

6. 总结与扩展

通过本文，我们学习了使用 Python 构建基本爬虫的流程，并完成了一个抓取豆瓣电影 Top250 的项目。你可以将爬虫技术扩展到更复杂的应用场景，比如：

动态加载数据的网站（如使用 selenium 或 requests-html）。
数据清洗与可视化（结合 pandas 和 matplotlib）。
大规模爬取（结合分布式爬虫框架如 Scrapy）。

在实际应用中，记得遵守法律法规和网站的爬虫协议，合理使用网络爬虫技术！

Python 爬虫入门教程：从零构建你的第一个网络爬虫

网络爬虫是一种自动化程序，用于从网站抓取数据。Python 凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习 Python 爬虫的基本知识，并实现一个简单的爬虫项目。 1. 什么是网络爬虫？ 网络爬虫&#x…...

编程日记 2024/11/28 23:05:41

Java面试题、八股文——JVM篇最终篇

1.如何选择垃圾收集器？ 选择合适的垃圾收集器（Garbage Collector, GC）对于优化Java应用程序的性能至关重要。不同的应用场景和系统需求可能需要不同类型的垃圾收集器来满足。以下是一些考虑因素以及常见的垃圾收集器选项，帮助您做…...

编程日记 2024/11/28 23:01:37

Spring Boot整合Redis Stack构建本地向量数据库相似性查询

Spring Boot整合Redis Stack构建本地向量数据库相似性查询在微服务架构中，数据的高效存储与快速查询是至关重要的。Redis作为一个高性能的内存数据结构存储系统，不仅可以用作缓存、消息代理，还可以扩展为向量数据库，实现高效的相…...

编程日记 2024/11/28 22:59:36

shell脚本基础学习_总结篇（完结）

细致观看可以，访问shell脚本学习专栏，对应章节会有配图https://blog.csdn.net/2201_75446043/category_12833287.html?spm1001.2014.3001.5482 导语一、shell脚本简介 1. 定义： 2. 主要特点： 3. shell脚本的基本结构 4. S…...

编程日记 2024/11/28 22:57:34

什么是 C++ 中的函数对象？它有什么特点？

在 C 中，函数对象（Function Object）是一种可调用对象，它允许像函数一样被调用，但实际上它可能并不是真正的函数。函数对象可以是以下几种类型之一： 普通函数： 一个普通的、定义在命名空间或类…...

编程日记 2024/11/28 22:55:30

css:项目

这是一个完整的网站制作的流程美工会先制作一个原型图： 原型图写的不详细，就是体现一个网页大致的布局然后美工再做一个psd样例图片然后再交给程序员项目模块化开发：把代码的不同的样式封装起来，需要用到相同样式的标签就…...

编程日记 2024/11/28 22:54:29

macOS 开发环境配置与应用开发指南

macOS 开发环境配置与应用开发指南 macOS作为苹果公司推出的操作系统，因其稳定性、优雅的用户界面和强大的开发支持，已成为开发者和创意专业人士的首选平台之一。无论是开发iOS、macOS桌面应用，还是Web应用、跨平台程序，macOS都提…...

编程日记 2024/11/28 22:53:28

[A-19][V06]ARMv8/v9-内存虚拟化原理

ver0.2 [看前序文章有惊喜，关注W\X\G=Z+H=“浩瀚架构师”，可以解锁全部文章] 前言前一篇文章，我们介绍了ARM内存的属性，算是一个小小的里程碑点，接下来我们会把注意力重新拉回虚拟化的赛道。我们从[V-05] 虚拟化基础-异常模型(Exception model)之后，花了很多笔墨介绍…...

编程日记 2024/11/28 22:52:27

registry 删除私有仓库镜像

原文链接：https://blog.csdn.net/yogima/article/details/122172744 如果需要彻底删除，只需进行register 磁盘删除镜像彻底删除了，就可以到达彻底删除的目的。如果只需要软删除，则只需进行通过API删除。 curl --header "Ac…...

编程日记 2024/11/28 22:50:25

UPLOAD LABS | UPLOAD LABS 靶场初识

关注这个靶场的其它相关笔记：UPLOAD LABS —— 靶场笔记合集-CSDN博客 0x01：UPLOAD LABS 靶场简介 UPLOAD LABS 靶场是一个专门用于学习文件上传漏洞攻击和防御的靶场。它提供了一系列文件上传漏洞的实验环境，用于帮助用户了解文件上传漏洞的…...

编程日记 2024/11/28 22:49:23

Samba服务器常见问题处理

指定的网络文件夹目前是以其他用户名和密码进行映射的。要用其他用户名和密码进行连接，首先请断开所有现有的连接到网络共享的映射解决方案单击“开始”菜单，选择“运行…”。在弹出的窗口中，输入cmd 进入命令行模式，并输入…...

编程日记 2024/11/28 22:48:22

Java基础设计模式——针对实习面试

目录 Java基础设计模式单例模式工厂模式观察者模式策略模式装饰器模式其他设计模式 Java基础设计模式单例模式单例模式（Singleton Pattern） 定义：确保一个类只有一个实例，并提供一个全局访问点来访问这个实例。适用场景&…...

编程日记 2024/11/28 22:47:21

最大公约数和最小公倍数-多语言

目录 C 语言实现 Python 实现 Java 实现 Js 实现题目：输入两个正整数m和n，求其最大公约数和最小公倍数。程序分析： 最小公倍数输入的两个数之积除于它们的最大公约数，关键是求出最大公约数； 求最大公约数用辗转…...

编程日记 2024/11/28 22:44:18

第三方数据库连接免费使用和安装

是强大的一体化数据库开发解决方案，可从单一应用程序无缝连接多个数据库，包括 MySQL、PostgreSQL、MongoDB、MariaDB、SQL Server、Oracle、SQLite 和 Redis。下载：https://download.csdn.net/download/mo3408/90045937 升级特性模型&…...

编程日记 2024/11/28 22:40:10

水库大坝安全监测之量水堰计应用

量水堰计是水库大坝安全监测系统中的一种关键设备，主要用于测量水库水位、流量等水力参数。以下是量水堰计在水库大坝安全监测中的应用及注意事项： 一、量水堰计的工作原理量水堰计是一种专门用于测量水流流量的仪器，其工作原理主要基于水流…...

编程日记 2024/11/28 22:39:09

算法笔记：滑动窗口

前言滑动窗口作为一个考点较高的算法，广泛应用于子串问题中，本文将进行详细讲解。一、滑动窗口是什么滑动窗口是双指针算法的一种，基本思路为维护一个窗口，然后从前往后遍历元素进行运算。二、滑动窗口算法和其他双指针算…...

编程日记 2024/11/28 22:37:07

Ubuntu下的Graphviz的基础使用方法

一、Graphviz介绍 graphviz是贝尔实验室开发的一个开源的工具包，它使用一个特定的DSL(领域特定语言):dot作为脚本语言，然后使用布局引擎来解析此脚本，并完成自动布局 1、什么是Graphviz 官网地址，https://www.graphviz.org/ Gr…...

编程日记 2024/11/28 22:35:05

微积分复习笔记 Calculus Volume 1 - 6.8 Exponential Growth and Decay

6.8 Exponential Growth and Decay - Calculus Volume 1 | OpenStax...

编程日记 2024/11/28 22:34:04

React的ts文件中通过createElement拼接一段内容出来

比如接口返回一个值 const values [23.00, 40.00/kg];想做到如下效果， 如果单纯的用render渲染会很简单， 但是在ts文件中处理，所以采用了createElement拼接代码如下： format: (values: string[]) > {if (!values || !val…...

编程日记 2024/11/28 22:30:01

Pinia之1：介绍Pinia、项目中引入Pinia

欢迎来到“雪碧聊技术”CSDN博客！ 在这里，您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者，还是具有一定经验的开发者，相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导，我将…...

编程日记 2024/11/28 22:26:55

[SpringBoot 对象存储实战]：预签名 URL 直传 OSS 全流程设计与实现

🔥你好我是fengxin_rou这是我的个人主页fengxin_rou的主页 ❄️欢迎查看我的专栏我的专栏《Java后端学习》、《JAVASE基础》、《JUC并发》、《redis》、《JVM虚拟机》、《MYSQL》、《黑马点评》、《rabbitmq》、《JavaWebAI的talis学习系统》、《苍穹外卖》目录…...

编程新知 2026/5/25 0:56:25

【前端无障碍】无障碍测试：确保你的应用对所有人友好

【前端无障碍】无障碍测试：确保你的应用对所有人友好前言大家好，我是cannonmonster01！今天咱们来聊聊无障碍测试这个话题。无障碍设计不仅仅是开发阶段的事情，测试阶段同样重要。只有通过全面的测试，才能确保你的应用…...

编程新知 2026/5/25 0:03:32

通过Taotoken CLI工具一键配置团队开发环境与统一模型调用

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过Taotoken CLI工具一键配置团队开发环境与统一模型调用在团队协作开发中，统一管理大模型API的接入配置是一项常见且…...

编程新知 2026/5/24 23:25:40

2026年AI论文写作软件盘点：12款神器助你高效完成去痕改写、润色和过检

随着 AI 技术的持续突破，2026 年的论文写作工具市场已进入“智能化、精细化、合规化”的全新发展阶段。从本科生的课程论文到研究生的学位论文，再到科研人员的期刊投稿，AI 工具正以强大的技术支撑覆盖各类学术场景。无论是选题方向的启发、文…...

编程新知 2026/5/24 23:19:25

DeepSeek总结的DuckDB动态函数应用插件

来源：https://github.com/teaguesterling/duckdb_func_apply DuckDB FuncApply 扩展 DuckDB 的动态函数应用 - 在运行时通过名称调用函数。概述 FuncApply 扩展为 DuckDB 提供了动态函数调用能力，允许您： 使用 apply() 通过名称调用任何…...

编程新知 2026/5/24 23:00:22

每日热门skill:你的AI终于有“脑子“了！Memory MCP Server让Claude记住你的一切

告别"金鱼记忆"，打造真正懂你的AI助手一、开篇：那个让你崩溃的瞬间你有没有遇到过这种情况？昨天刚跟Claude说过：“我是做后端开发的，对Python比较熟悉，前端不太行。” 今天再问：“帮我写个React组件。” 它热情洋溢地回复：“好的！这是一个完整的全栈…...

编程新知 2026/5/24 22:41:12

如何利用AI工具变现：一个老程序员的真实观察

凌晨两点，你又刷到一个"AI月入5万"的短视频。关了手机，睡不着了。明天还要上班。这种焦虑感，我太熟悉了。作为一个写了12年代码的老程序员，这两年被问到最多的问题就是："有什么真正能用的AI变现方法？" 今天不画饼，说点真话。先说结论 AI…...

编程新知 2026/5/24 22:18:34

ClamAV更新失败真相：DNS TXT协议与版本兼容性解析

1. 这不是网络连通性问题，而是ClamAV更新机制被误读的典型现场“Can’t query current.cvd.clamav.net”这个报错，几乎每个在Linux服务器上维护过ClamAV的人都见过。它第一次出现时，90%的运维会立刻去ping、curl、telnet current.cvd.clamav.…...

编程新知 2026/5/24 22:16:32

3个场景告诉你：为什么你需要PowerToys Text Extractor

3个场景告诉你：为什么你需要PowerToys Text Extractor 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/PowerToys…...

编程新知 2026/5/24 22:05:58

【AI视频生成工具学习曲线深度报告】：20年AI工程经验总结的5大认知断层与30天速通路径

更多请点击： https://codechina.net 第一章：AI视频生成工具学习曲线的本质解构 AI视频生成工具的学习曲线并非线性陡峭的“技术门槛”，而是一组相互耦合的认知域跃迁过程——涵盖提示工程直觉、时序一致性理解、跨模态对齐敏感度以及算力-质…...

编程新知 2026/5/24 18:53:49