当前位置：首页 > news >正文

python爬虫request和BeautifulSoup使用

news 2026/2/10 18:18:56

request使用

1.安装request

pip install request

2.引入库

import requests

3.编写代码

发送请求

我们通过以下代码可以打开豆瓣top250的网站

response = requests.get(f"https://movie.douban.com/top250"）

但因为该网站加入了反爬机制，所以我们需要在我们的请求报文的头部加入User-Agent的信息

headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}response = requests.get(f"https://movie.douban.com/top250",headers=headers)

User-Agent可以通过访问网站时按f12查看获取

我们可以通过response的ok属性判断是否请求成功

import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}response = requests.get(f"https://movie.douban.com/top250",headers=headers)
if response.ok:print("请求成功!")
else:print("请求失败!")

此时如果请求成功，控制台就会打印请求成功!

获取网页的html

我们可以通过response的text的属性来获取网页的html

import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}response = requests.get(f"https://movie.douban.com/top250",headers=headers)
if response.ok:html = response.textprint(html)
else:print("请求失败!")

此时请求成功就会打印页面的html了

BeautifulSoup使用

Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

简单的说，我们可以拿他来解析html页面，来获取html的元素

1.安装BeautifulSoup

要使用BeautifulSoup4需要先安装lxml,再安装bs4

pip install bs4

pip install bs4

2.引入库

from bs4 import BeautifulSoup

3.编写代码

获取元素

我们通过BeautifulSoup()就可以得到解析后的soup对象

    soup = BeautifulSoup(html, "html.parser")

使用findAll函数就可以找到我们想要的元素，例如：我们想找到span标签中，class为title的元素

   all_titls = soup.findAll("span", attrs={"class": "title"})

此时我们代码如下

from bs4 import BeautifulSoup
import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}response = requests.get(f"https://movie.douban.com/top250",headers=headers)
if response.ok:html = response.textsoup = BeautifulSoup(html, "html.parser")all_titls = soup.findAll("span", attrs={"class": "title"})print(all_titls)
else:print("请求失败!")

运行结果

元素处理

我们虽然找到了span标签中，class为title的元素，但我们不需要span标签中的内容，所以我们需要对他进行处理

首先我们发现，all_titls其实是一个数组，所以我们可以遍历他，这样就可以得到每一个span元素，通过string的属性就可以得到span标签中间的内容

from bs4 import BeautifulSoup
import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}response = requests.get(f"https://movie.douban.com/top250",headers=headers)
if response.ok:html = response.textsoup = BeautifulSoup(html, "html.parser")all_titls = soup.findAll("span", attrs={"class": "title"})for title in all_titls:title_string = title.stringprint(title_string)
else:print("请求失败!")

此时我们发现，我们虽然得到span标签中间的内容，但其中含有电影名字的英文名这是我们不需要的

通过观察我们发现，每个英文名前都是带有/的，所以我们可以判断其是否含有"/"来进行过滤

from bs4 import BeautifulSoup
import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}response = requests.get(f"https://movie.douban.com/top250",headers=headers)
if response.ok:html = response.textsoup = BeautifulSoup(html, "html.parser")all_titls = soup.findAll("span", attrs={"class": "title"})for title in all_titls:title_string = title.stringif "/" not in title_string:print(title_string)
else:print("请求失败!")

整合

虽然此时我们打印出了我们想要的数据，但这只是其中一页的，且只是打印，并没有存入数据库或者某个文件里

打印所有页

通过观察第二页的路径，我们发现在点击第二页时系统会传一个start的属性，这个属性除以25在加1就是我们需要的页数，反过来就是 (页数-1)*25 = start

所以我们可以通过for循环，依次传入0，25，50…

from bs4 import BeautifulSoup
import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}for start_num in range(0,250,25):response = requests.get(f"https://movie.douban.com/top250?start={start_num}",headers=headers)if response.ok:html = response.textsoup = BeautifulSoup(html,"html.parser")all_titls = soup.findAll("span",attrs={"class":"title"})for title in all_titls:title_string = title.stringif "/" not in title_string:print(title_string)else:print("请求失败!")

这样我们就得到了所有的电影名

存入txt

这里我们演示将数据存入记事本中，我们定义个数组，将所有电影的名字存入该数组，最后遍历数组写入txt文件即可

from bs4 import BeautifulSoup
import requests
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
titles = []
for start_num in range(0,250,25):response = requests.get(f"https://movie.douban.com/top250?start={start_num}",headers=headers)if response.ok:html = response.textsoup = BeautifulSoup(html,"html.parser")all_titls = soup.findAll("span",attrs={"class":"title"})for title in all_titls:title_string = title.stringif "/" not in title_string:titles.append(title_string)else:print("请求失败!")
with open(r'豆瓣top250.txt', 'w') as f:for i in titles:f.write(i + '\n')

python爬虫request和BeautifulSoup使用

request使用 1.安装request pip install request2.引入库 import requests3.编写代码发送请求我们通过以下代码可以打开豆瓣top250的网站 response requests.get(f"https://movie.douban.com/top250"）但因为该网站加入了反爬机制，所以…...

编程日记 2023/10/29 0:23:14

记录--vue3实现excel文件预览和打印

这里给大家分享我在网上总结出来的一些知识，希望对大家有所帮助前言在前端开发中，有时候一些业务场景中，我们有需求要去实现excel的预览和打印功能，本文在vue3中如何实现Excel文件的预览和打印。预览excel 关于实现excel文档在…...

编程日记 2023/10/29 0:22:14

消息队列中间件面试笔记总结RabbitMQ，Kafka，RocketMQ

文章目录 (一) Rabbit MQRabbitMQ 核心概念消息队列的作用Exchange(交换器)Broker（消息中间件的服务节点）如何保证消息的可靠性如何保证 RabbitMQ 消息的顺序性如何保证 RabbitMQ 高可用的？如何解决消息队列的延时以及过期失效问题消息堆积问…...

编程日记 2023/10/29 0:21:11

pycharm远程连接Linux服务器

文章目录一：说明二：系统三：实现远程连接方式一： 直接连接服务器不使用服务器的虚拟环境步骤一：找到配置服务器的地方步骤二：进行连接配置步骤三：进行项目文件映射操作步骤四：让文件…...

编程日记 2023/10/29 0:20:10

Android应用开发学习笔记——目录索引 protected void onCreate(Bundle savedInstanceState) {/* 添加代码 */requestWindowFeature(Window.FEATURE_ACTION_BAR_OVERLAY);getWindow().addFlags(WindowManager.LayoutParams.FLAG_FULLSCREEN);WindowManager.LayoutParams lp ge…...

编程日记 2023/10/29 0:19:10

日本IT Week秋季展丨美格智能以技术创新共建美好数字生活

10月25日至27日，日本国际IT消费电子展览会（Japan IT Week 2023秋季展）在日本千叶幕张国际展览中心举行。日本IT周是日本IT市场的标杆，涵盖软件开发、大数据管理、嵌入式系统、数据存储、信息安全、数据中心、云计算、物联网&#…...

编程日记 2023/10/29 0:18:08

centos7 install postgres-15

env centos7 1.更新包，避免安装时出错 yum update 2. PostgreSQL: Linux downloads (Red Hat family) sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm sudo yum install -y post…...

编程日记 2023/10/29 0:17:07

JVM常见的垃圾回收器（详细）

1、Young为年轻代出发的垃圾回收器。 2、Old为老触发的垃圾回收器。 3、连线代表的是垃圾回收器的组合。CMS 和Serial Old连线代表CMS一旦不行了，Serial Old上场。首先了解一个概念：STW 1、什么是STW？ STW是Stop-The-World缩写: 是在垃圾回…...

编程日记 2023/10/29 0:15:05

acwing 5283. 牛棚入住

题目 - 点击直达 1. 5283. 牛棚入住1. 题目详情1. 原题链接2. 题目要求3. 基础框架 2. 解题思路1. 思路分析2. 时间复杂度3. 代码实现 1. 5283. 牛棚入住 1. 题目详情贝茜经营的牛棚旅店中有 a 个可供一头牛入住的小牛栏和 b 个可供两头牛入住的大牛栏。初始时&#xff0c…...

编程日记 2023/10/29 0:14:04

Qt触摸屏双指缩放和单指移动界面（支持嵌入式设备）

本文介绍的QGraphicsView的双指缩放，QWidget更简单，可以参考当前内容。方法一：（QTouchEvent事件实现） 使用场景：适用于paintevent绘制下的界面。优点：不需要代码设置中心锚点（锚点…...

编程日记 2023/10/29 0:13:02

【Linux】虚拟机安装Linux、客户端工具，MobaXterm的使用，Linux常用命令

目录一，安装Linux的centos7版本具体安装步骤： 二，Linux常见的命令： 三、安装客户端工具 1、介绍 2、安装MobaXterm 3、换源四、拍照功能一，安装Linux的centos7版本介绍： 具体安装步骤&#…...

编程日记 2023/10/29 0:12:00

springboot-scanBasePackages包扫描

目录原因： 方式一： 方式二： 原因： 由于对rocketMq进行了一次封装，mq模块里面引用了RocketMQTemplate的bean，如果只引入jar包的依赖，启动的时候不会报错，但是在调用到 RocketMQT…...

编程日记 2023/10/29 0:10:57

【C语言数据结构——————排序（1万字）】

文章目录排序的概念常见排序算法分类冒泡排序时间复杂度稳定性原理实现插入排序时间复杂度稳定性实现选择排序时间复杂度稳定性实现希尔排序时间复杂度稳定性希尔排序的算法思想实现优化快速排序时间复杂度空间复杂度稳定性实现三数取中优化归并排序时间复杂度空间复…...

编程日记 2023/10/29 0:09:55

PyTorch基础（18）-- torch.stack()方法

一、方法详解首先，看一下stack的直观解释，动词可以简单理解为：把……放成一堆、把……放成一摞。有了对stack方法的直观感受，接下来，我们正式解析torch.stack方法。 PyTorch torch.stack() method joins (concaten…...

编程日记 2023/10/29 0:08:53

从lc560“和为 K 的子数组“带你认识“前缀和+哈希表“的解题思路

1 前缀和哈希表解题的几道题目：建议集中练习 560. 和为 K 的子数组：https://leetcode.cn/problems/subarray-sum-equals-k/ 1248. 统计「优美子数组」: https://leetcode.cn/problems/count-number-of-nice-subarrays/ 1249. 和可被 K 整除的子数组(利用…...

编程日记 2023/10/29 0:06:49

c:变参函数：汇编解析；va_list；marco 宏：__VA_ARGS__

文章目录参考gcc 内部的宏定义代码汇编调用在 SEI CERT C Coding Standard 这个标准里示例实例宏里的使用参考 https://git.sr.ht/~gregkh/presentation-security/blob/3547183843399d693c35b502cf4a313e256d0dd8/security-stuff.pdf gcc 内部的宏定义宏定义：…...

编程日记 2023/10/29 0:05:48

eclipse安装教程（2021版）

第一步：下载JDK （下载地址） Java SE - Downloads 第二步根据自己电脑的系统，选择相应的版本x64代表64位，x86代表32位。点击相应的JDK进行下载点击之后会出现一个对话框同意之后下载。(记住下载到哪，打…...

编程日记 2023/10/29 0:04:46

计算机网络重点概念整理-第二章物理层【期末复习|考研复习】

第二章物理层【期末复习|考研复习】计算机网络系列文章传送门： 第一章计算机网络概述第二章物理层第三章数据链路层第四章网络层第五章传输层第六章应用层第七章网络安全计算机网络整理-简称&缩写文章目录第二章物理层【期末复习|考研复习…...

编程日记 2023/10/29 0:03:45

【计算机网络】从输入URL到页面都显示经历了什么？？

文字总结 ① DNS 解析：当用户输入一个网址并按下回车键的时候，浏览器获得一个域名，而在实际通信过程中，我们需要的是一个 IP 地址，因此我们需要先把域名转换成相应 IP 地址。浏览器会首先从缓存中找是否存在域名&…...

编程日记 2023/10/29 0:02:43

[C++]——带你学习类和对象

类和对象——上目录：一、面向过程和面向对象二、类的概念三、类的访问限定符和封装3.1 访问限定符3.2 封装四、类的作用域五、类的实例化六、类的对象大小的计算七、类成员函数this指针7.1 this指针的引用7.2 this 指针的特性目录： 类和对象是很重要…...

编程日记 2023/10/29 0:01:40

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/11/28 6:00:25

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

服务端执行命令请求的过程【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

编程新知 2026/2/2 0:45:02

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2026/2/3 22:50:06

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时，你可能需要保留重要的数据，例如通讯录。好在，将通讯录从 iPhone 转移到 Android 手机非常简单，你可以从本文中学习 6 种可靠的方法，确保随时保持连接，不错过任何信息。第 1…...

编程新知 2026/1/31 5:09:27

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备工具安装： 下载安装DevEco Studio 4.0（支持HarmonyOS 5）配置HarmonyOS SDK 5.0确保Node.js版本≥14 项目初始化： ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

编程新知 2026/2/1 4:17:33

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2026/1/28 8:34:48

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2026/2/1 7:31:51

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2026/2/3 12:56:31

CRMEB 框架中 PHP 上传扩展开发：涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展扩展入口文件文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

编程新知 2025/12/30 22:56:56

request使用

1.安装request

2.引入库

3.编写代码

发送请求

获取网页的html

BeautifulSoup使用

1.安装BeautifulSoup

2.引入库

3.编写代码

获取元素

元素处理

整合

打印所有页

存入txt

相关文章：