当前位置：首页 > news >正文

python实现简单的爬虫功能

news 2026/4/14 2:14:33

前言

Python是一种广泛应用于爬虫的高级编程语言，它提供了许多强大的库和框架，可以轻松地创建自己的爬虫程序。在本文中，我们将介绍如何使用Python实现简单的爬虫功能，并提供相关的代码实例。

如何实现简单的爬虫

1. 导入必要的库和模块

在编写Python爬虫时，我们需要使用许多库和模块，其中最重要的是requests和BeautifulSoup。Requests库可以帮助我们发送HTTP请求，并从网站上获取数据，而BeautifulSoup可以帮助我们从HTML文件中提取所需的信息。因此，我们需要首先导入这两个库。

import requests
from bs4 import BeautifulSoup

2. 发送HTTP请求

在爬虫程序中，我们需要向网站发送HTTP请求，通常使用GET方法。Requests库提供了一个get()函数，我们可以使用它来获取网站的HTML文件。这个函数需要一个网站的URL作为参数，并返回一个包含HTML文件的响应对象。我们可以使用text属性来访问HTML文件的文本内容。

url = "https://www.example.com"
response = requests.get(url)
html = response.text

在发送HTTP请求时，我们需要注意是否需要添加用户代理和头信息。有些网站会检查用户代理和头信息，如果没有正确的值，它们就会拒绝我们的请求。为了避免这种情况，我们可以在HTTP请求中添加用户代理和头信息。我们可以使用requests库的headers选项来添加头信息。

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)

3. 解析HTML文件

在获取了网站的HTML文件之后，我们需要从中提取我们想要的信息。为此，我们需要使用BeautifulSoup库，它提供了许多强大的函数和方法，可以轻松地解析HTML文件。

我们可以使用BeautifulSoup函数将HTML文件转换为BeautifulSoup对象。然后，我们可以使用find()、find_all()等方法来查找HTML文件中的元素。这些方法需要一个标签名称作为参数，并返回一个包含所选元素的列表或单个元素。

soup = BeautifulSoup(html, "html.parser")
title = soup.find("title").text

为了从HTML文件中提取更多的信息，我们需要了解CSS选择器。CSS选择器是一种用于选择HTML元素的语法，类似于CSS中的样式选择器。我们可以使用CSS选择器来获取HTML文件中特定元素的信息。例如，我们可以使用select()方法和一个CSS选择器来选择一个类别的所有元素。

items = soup.select(".item")
for item in items:title = item.select(".title")[0].textprice = item.select(".price")[0].text

4. 存储数据

在爬取数据后，我们可能需要将数据存储到本地文件或数据库中。Python提供了许多方式来实现这一点，例如使用CSV、JSON或SQLite等格式来存储数据。

如果我们要将数据保存到CSV文件中，我们可以使用csv库。这个库提供了一个writer()函数，我们可以使用它来创建一个CSV写入器。然后，我们可以使用writerow()方法向CSV文件中写入数据。

import csvwith open("data.csv", "w", newline="") as file:writer = csv.writer(file)writer.writerow(["Title", "Price"])for item in items:title = item.select(".title")[0].textprice = item.select(".price")[0].textwriter.writerow([title, price])

如果我们要将数据保存到SQLite数据库中，我们可以使用sqlite3库。这个库提供了一个链接到数据库的函数connect()和一个游标对象，我们可以使用它来执行SQL查询。

import sqlite3conn = sqlite3.connect("data.db")
cursor = conn.cursor()
cursor.execute("CREATE TABLE items (title TEXT, price TEXT)")for item in items:title = item.select(".title")[0].textprice = item.select(".price")[0].textcursor.execute("INSERT INTO items VALUES (?, ?)", (title, price))conn.commit()
conn.close()

完整的代码示例：

import requests
from bs4 import BeautifulSoup
import csv
import sqlite3def get_data():url = "https://www.example.com"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)html = response.textsoup = BeautifulSoup(html, "html.parser")title = soup.find("title").textitems = soup.select(".item")data = []for item in items:title = item.select(".title")[0].textprice = item.select(".price")[0].textdata.append((title, price))return title, datadef save_csv(title, data):with open("data.csv", "w", newline="") as file:writer = csv.writer(file)writer.writerow(["Title", "Price"])for item in data:writer.writerow(item)def save_sqlite(title, data):conn = sqlite3.connect("data.db")cursor = conn.cursor()cursor.execute("CREATE TABLE items (title TEXT, price TEXT)")for item in data:cursor.execute("INSERT INTO items VALUES (?, ?)", item)conn.commit()conn.close()title, data = get_data()
save_csv(title, data)
save_sqlite(title, data)

总结

本文介绍了如何使用Python实现简单的爬虫功能，并提供了相关的代码示例。使用这些代码，您可以轻松地从网站上获取所需的数据，并将它们存储到本地文件或数据库中。在编写爬虫程序时，请务必尊重网站的使用规则，并避免过度频繁地发出HTTP请求，以避免对网站造成不必要的负担。

python实现简单的爬虫功能

前言

如何实现简单的爬虫

1. 导入必要的库和模块

2. 发送HTTP请求

3. 解析HTML文件

4. 存储数据

完整的代码示例：

总结

相关文章：

python实现简单的爬虫功能

AI文档识别技术之表格识别 (一)

uni-app 支持 app端， h5端，微信小程序端图片转换文件格式和 base64

云计算——存储虚拟化简介与存储模式及方法

数据资产目录建设之数据分类全解

大模型的数据隐私问题有解了，浙江大学提出联邦大语言模型

flask-sqlalchemy使用

flask处理token的装饰器

【Express.js】页面渲染

2.UE数字人语音交互（UE数字人系统教程）

C语言——水仙花数字

java中list对象拷贝至新的list对象并保持两个对象独立的方法

使用AI工具Lama Cleaner一键去除水印、人物、背景等图片里的内容

瑞数系列及顶像二次验证LOGS

Anaconda版本和Python版本对应关系（持续更新...）

vscode 搭建STM32开发环境

6款好用的思维导图在线制作网站盘点，拒绝低效、探索创意！

js的Promise

2.4g无线芯片G350规格书详细介绍

React中使用mobx管理状态数据使用样例

7 种将照片从手机传输到笔记本电脑的巧妙方法

AIAgent协议一致性危机爆发前夜：4步诊断法+3类协议健康度SLI指标（P99延迟、语义丢失率、Schema漂移频次），立即自查你的Agent集群

卡梅德生物技术快报｜多肽文库合成和筛选全流程技术实现（含参数与质控）

别再手动拼接Prompt了！用ChatML结构化你的大模型对话（以Llama 2/3为例）

解密昇腾ACL事件机制：如何用Event实现多Stream精准调度（避坑指南）

Windows系统下MacBook Pro Touch Bar高效解锁指南：一键开启智能触控显示功能

OpCore Simplify终极指南：5步轻松搞定Hackintosh配置，新手也能快速上手

awesome-design-systems 中的电子商务设计系统：Shopify Polaris到Magento的案例

Spring_couplet_generation 项目环境配置：Anaconda虚拟环境管理详解

PlatformIO里找不到我的ESP32-S3开发板？手把手教你自定义一个（附完整JSON配置）