当前位置: 首页 > news >正文

15分钟学 Python 第40天:Python 爬虫入门(六)第一篇

Day40 :Python 爬取豆瓣网前一百的电影信息

1. 项目背景

在这个项目中,我们将学习如何利用 Python 爬虫技术从豆瓣网抓取前一百部电影的信息。通过这一练习,您将掌握网页抓取的基本流程,包括发送请求、解析HTML、存储数据等核心技术。

2. 项目目标

  • 爬取豆瓣电影前一百部电影的信息,包括电影名称、评分、评价人数和影片链接。
  • 将抓取的数据保存为CSV文件,便于后续分析。

3. 核心工具

  • Python 3.x :作为编程语言。
  • requests :用于发送 HTTP 请求。
  • BeautifulSoup :用于解析 HTML 文档。
  • pandas :用于数据存储和处理。
  • CSV :文件格式,用于存储数据。

4. 环境准备

确保您的环境中安装了以下库。在终端中运行以下命令:

pip install requests beautifulsoup4 pandas

5. 数据抓取流程

5.1 确定目标网址

我们需要爬取的目标网址为:https://movie.douban.com/top250

5.2 发送请求

使用 requests 库向网页发送请求,获取网页内容。

5.3 解析HTML

使用 BeautifulSoup 解析获取的 HTML 文档。

5.4 提取电影信息

从解析的内容中提取所需的电影信息。

5.5 数据存储

将提取到的数据存储为 CSV 文件。

5.6 运行流程图

开始
发送请求到豆瓣
获取HTML内容
解析HTML
提取电影信息
存储数据到CSV
结束

6. 示例代码

以下是完整的代码示例,分为几个功能部分以便更好理解。

6.1 导入必要的库

import requests
from bs4 import BeautifulSoup
import pandas as pd

6.2 发送请求并获取页面内容

def fetch_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:print("请求失败", response.status_code)return None

6.3 解析HTML并提取信息

def parse_page(html):soup = BeautifulSoup(html, 'html.parser')movies = []for item in soup.find_all('div', class_='item'):title = item.find('span', class_='title').textrating = item.find('span', class_='rating_num').textnum_ratings = item.find('div', class_='star').find_all('span')[-1].text[:-3]  # 去掉"人评价"link = item.find('a')['href']movies.append({'Title': title,'Rating': rating,'Number of Ratings': num_ratings,'Link': link})return movies

6.4 存储数据到CSV

def save_to_csv(movies, filename='douban_movies.csv'):df = pd.DataFrame(movies)df.to_csv(filename, index=False, encoding='utf-8-sig')print(f"数据已保存到 {filename}")

6.5 主程序

def main():url = 'https://movie.douban.com/top250'html = fetch_page(url)if html:movies = parse_page(html)save_to_csv(movies)if __name__ == '__main__':main()

7. 数据分析与检查

运行完毕后,我们可以使用 pandas 读取 CSV 文件并检查数据:

def load_and_check_csv(filename='douban_movies.csv'):df = pd.read_csv(filename)print(df.head())print(f"总电影数: {len(df)}")load_and_check_csv()

8. 样例输出

执行后,输出的 douban_movies.csv 文件中将包含如下示例数据:

TitleRatingNumber of RatingsLink
肖申克的救赎9.7732099https://movie.douban.com/subject/278\n
这个杀手不太冷9.4626208https://movie.douban.com/subject/1309191\n
霸王别姬9.6595214https://movie.douban.com/subject/1291546\n

9. 注意事项

  1. 反爬虫机制:豆瓣可能会使用反爬虫技术,如果频繁请求可能会被封禁,建议在请求之间加上延迟。
  2. 合法合规:请遵循使用网站的使用协议,确保抓取信息不违反网站的政策。
  3. 数据质量:抓取到的内容质量可能会有所不同,需要在处理和存储时多加注意。

10. 总结

通过这个项目,您学习了怎样使用 Python 爬虫从豆瓣网抓取数据。掌握了数据获取、解析和存储的基本流程。接下来可以尝试改进程序,例如:增加多线程支持、提取更多信息、抓取多个页面等,以深入理解 Python 爬虫的潜力和应用。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

相关文章:

15分钟学 Python 第40天:Python 爬虫入门(六)第一篇

Day40 :Python 爬取豆瓣网前一百的电影信息 1. 项目背景 在这个项目中,我们将学习如何利用 Python 爬虫技术从豆瓣网抓取前一百部电影的信息。通过这一练习,您将掌握网页抓取的基本流程,包括发送请求、解析HTML、存储数据等核心…...

分层解耦-05.IOCDI-DI详解

一.依赖注入的注解 在我们的项目中,EmpService的实现类有两个,分别是EmpServiceA和EmpServiceB。这两个实现类都加上Service注解。我们运行程序,就会报错。 这是因为我们依赖注入的注解Autowired默认是按照类型来寻找bean对象的进行依赖注入…...

HCIP-HarmonyOS Application Developer 习题(六)

(多选)1、Harmonyos多窗口交互能力提供了以下哪几种交互方式? A. 平行视界 B.全局消息通知 C.分屏 D.悬浮窗 答案:ACD 分析:系统提供了悬浮窗、分屏、平行视界三种多窗口交互,为用户在大屏幕设备上的多任务并行、便捷…...

【电路基础 · 3】实际电压源 实际电流源;两种电源的等效情况;戴维南模型 诺顿模型(自用)

总览 1.实际电源的两种模型和它们的等效变换 2.两种电源的等效情况 3.戴维南模型 && 诺顿模型 一、实际电源的两种模型和它们的等效变换 1.实际电压源 实际电压源不允许短路。因为它的内阻太小,如果短路,电流很大,可能会烧毁电源…...

案例-猜数字游戏

文章目录 效果展示初始画面演示视频 代码区 效果展示 初始画面 演示视频 猜数字游戏 代码区 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width,…...

POI数据的处理与分析

POI概念 POI&#xff08;Point of Interest&#xff0c;兴趣点&#xff09;数据指的是地理空间数据中的一类&#xff0c;表示某一具体地点或位置的信息。通常&#xff0c;这些数据包含位置坐标&#xff08;经纬度&#xff09;、名称、地址、类别和其他相关信息。POI 数据广泛应…...

ansible部分模块学习

ansible模块学习 copy模块 copy模块srcsource 源⽂件destdestination ⽬标backupbackupyes 则会在覆盖前进⾏备份mode修改权限owner修改为指定所有者group修改为指定⽤户组 案例1&#xff1a;传输/root/work/scripts/net-tools-install.sh⽂件到/opt/net-tools-install.sh …...

数据库(MySQL):使用命令从零开始在Navicat创建一个数据库及其数据表(二).设置主键自增等特点

前言 在上一节中&#xff0c;主要介绍了 Navicat Premium 17 的使用以及创建一个基础的表格。当时只设置了给数据表补充字段&#xff0c;没有设置给数据表删除字段。现在补充一下。 ALTER TABLE student ADD test int(4); 给名为 student 的数据表添加 test 列&#xf…...

SQL第13课——创建高级联结

本课讲另外一些联结&#xff08;含义和使用方法&#xff09;&#xff0c;如何使用表别名&#xff0c;如何对被联结的表使用聚集函数。 13.1 使用表别名 第7课中使用别名引用被检索的表列&#xff0c;给列起别名的语法如下&#xff1a; SQL除了可以对列名和计算字段使用别名&a…...

订阅ROS2中相机的相关话题并保存RGB、深度和点云图

系统&#xff1a;Ubuntu22.04 ROS2版本&#xff1a;ROS2 humble 1.订阅ROS2中相机的相关话题并保存RGB图、深度图和点云图 ros2 topic list/stellar_1/rgb/image_raw /camera/depth/image_raw /stellar_1/points2CMakeLists.txt cmake_minimum_required(VERSION 3.15) projec…...

Open WebUI | 自托管的类 ChatGPT 网站

Open WebUI 是一个扩展性强、功能丰富且用户友好的自托管 WebUI&#xff0c;旨在完全离线操作。它支持各种 LLM 服务&#xff0c;包括 Ollama 和 OpenAI 兼容的 API。该项目在 GitHub 上已有 38k 星&#xff0c;非常受欢迎。 功能介绍 废话不多说&#xff0c;上图&#xff01;…...

【Python】Python知识总结浅析

Python是一种高级编程语言&#xff0c;由Guido van Rossum于1991年首次发布。它以简洁的语法和强大的功能著称&#xff0c;适用于多种应用场景&#xff0c;包括Web开发、数据分析、人工智能、自动化脚本等。 易于学习和使用&#xff1a;Python的语法简洁明了&#xff0c;适合初…...

c#代码介绍23种设计模式_20策略者模式

目录 1、策略模式的定义 2、策略模式的结构 3、涉及到三个角色: 4、策略者模式在.NET中应用 5、策略者模式的适用场景 6、策略者模式的优缺点 7、实现思路 在现实生活中,策略模式的例子也非常常见,例如,中国的所得税,分为企业所得税、外商投资企业或外商企业所得税…...

FPGA-UART串口接收模块的理解

UART串口接收模块 背景 在之前就有写过关于串口模块的文章——《串口RS232的学习》。工作后很多项目都会用到串口模块&#xff0c;又来重新理解一下FPGA串口接收的代码思路。 关于串口相关的参数&#xff0c;以及在文章《串口RS232的学习》中已有详细的描述&#xff0c;这里就…...

复习HTML(基础)

目录 HTML含义 HTML作用 HTML的常用元素 元素的特点 元素的分类 1 是否嵌套关系 2 是否独占一行 块元素&#xff1a;独占一行 行内元素&#xff1a;共享一行 行内元素与块级元素的转换 3是否有结束标签 常用标签 1 标题标签&#xff1a;有六级 我们用h1 ~h6 表…...

Linux聊天集群开发之环境准备

一.windows下远程操作Linux 第一步&#xff1a;在Linux终端下配置openssh&#xff0c;输入netstate -tanp,查看ssh服务是否启动&#xff0c;默认端口22.。 注&#xff1a;如果openssh服务&#xff0c;则需下载。输入命令ps -e|grep ssh, 查看如否配有&#xff0c; ssh-agent …...

can 总线入门———can简介硬件电路

文章目录 0. 前言1. CAN简介2. 主流通讯协议对比3. CAN 硬件电路4. CAN 电平标准5. CAN 收发器 0. 前言 博客内容来自B站上CAN总线入门教程视频讲解&#xff0c;博客中的插图和内容均为视频中的内容。视频链接 CAN总线入门教程 1. CAN简介 先来看看一它名字的意思&#xff0c…...

【重学 MySQL】六十、空间类型

【重学 MySQL】六十、空间类型 空间数据类型的分类空间数据类型的属性空间数据的表示方式空间数据的操作应用场景 在MySQL中&#xff0c;空间类型&#xff08;Spatial Types&#xff09;主要用于支持地理特征的生成、存储和分析。这些地理特征可以表示世界上具有位置的任何东西…...

python实现DES算法

DES算法 一、算法介绍1.1 背景1.2 原理1.3 基本功能函数1.3.1 初始置换函数 I P IP IP1.3.2 f f f 轮函数1.3.3 逆初始置换函数 I P − 1 IP^{-1} IP−1 1.4 子密钥的生成 二、代码实现2.1 子密钥生成实现2.2 DES加解密实现2.3 完整代码 三、演示效果 一、算法介绍 1.1 背景…...

基于LORA的一主多从监测系统_框架搭建

第一节、框架搭建 打开CubeMAX&#xff0c;选择好芯片&#xff0c;进行基础配置 第一步、先配置时钟源 第二步、配置SYS选项 配置debug口以及计数器源&#xff0c;我这里选择TIM1 第三步、选择I2C接口 配置如下即可&#xff0c;默认配置不用改 第四步、串口选择 我们这里使…...

基于RAG与向量数据库的智能信息管理系统(IIMS)架构与实现

1. 项目概述&#xff1a;当AI成为你的“第二大脑”最近在折腾一个挺有意思的项目&#xff0c;叫“IIMS-By-AI”。乍一看这个标题&#xff0c;可能有点摸不着头脑&#xff0c;但拆解一下就能明白它的野心&#xff1a;IntelligentInformationManagementSystem&#xff0c; By AI。…...

30亿条出行记录解密:如何用纽约出租车数据洞察城市脉搏 [特殊字符][特殊字符]

30亿条出行记录解密&#xff1a;如何用纽约出租车数据洞察城市脉搏 &#x1f696;&#x1f4ca; 【免费下载链接】nyc-taxi-data Import public NYC taxi and for-hire vehicle (Uber, Lyft) trip data into a PostgreSQL or ClickHouse database 项目地址: https://gitcode.…...

系统管理员AI编程实战:基于Claude的运维自动化脚本开发指南

1. 项目概述&#xff1a;一个面向系统管理员的Claude-Code学习与实践仓库最近在整理自己的技术栈时&#xff0c;发现很多系统管理员同行对如何将大型语言模型&#xff08;LLM&#xff09;高效地融入日常运维工作流感到困惑。大家普遍觉得这些AI工具很强大&#xff0c;但具体到写…...

Instagram视频下载终极指南:三分钟掌握免费下载技巧

Instagram视频下载终极指南&#xff1a;三分钟掌握免费下载技巧 【免费下载链接】instagram-video-downloader Simple website made with Next.js for downloading instagram videos with an API that can be used to integrate it in other applications. 项目地址: https:…...

Sophia优化器:二阶曲率感知如何加速大模型训练与调参

1. 项目概述&#xff1a;当优化器遇上“二阶”智慧最近在复现一些前沿的论文实验时&#xff0c;我又一次被优化器的选择给卡住了。AdamW虽然稳&#xff0c;但在某些超大规模模型或特定任务上&#xff0c;总觉得收敛速度不够快&#xff0c;调参又是个玄学。就在我对着损失曲线发…...

ARM Cortex-X系列处理器参数配置与性能优化指南

1. ARM Cortex-X系列处理器参数配置概述在移动计算和嵌入式系统领域&#xff0c;ARM Cortex-X系列处理器代表了ARM架构中的高性能核心设计。作为芯片设计工程师&#xff0c;我经常需要对这些处理器的参数进行精细调整&#xff0c;以实现最佳的性能和能效平衡。处理器参数配置本…...

告别串口线!用STM32CubeMX给STM32F103C8T6做个USB DFU Bootloader(Keil工程+完整代码)

STM32F103C8T6 USB DFU Bootloader实战&#xff1a;从实验室到产品的完整方案 在嵌入式产品开发中&#xff0c;固件升级是一个绕不开的话题。想象一下&#xff0c;当你的设备已经部署在现场&#xff0c;却发现需要修复一个关键bug或增加新功能时&#xff0c;传统的JTAG/SWD调试…...

C语言结构体:从‘学生信息管理‘到‘链表实现‘的保姆级跃迁指南(含typedef避坑)

C语言结构体&#xff1a;从学生信息管理到链表实现的实战进阶 在C语言的世界里&#xff0c;结构体就像是一个神奇的收纳盒&#xff0c;它能够将不同类型的数据打包成一个整体。想象一下&#xff0c;当你需要管理学生信息时&#xff0c;不再需要为姓名、学号、成绩等分别定义变量…...

别再只用高斯噪声了!手把手教你为DDPG算法注入‘惯性’:Ornstein-Uhlenbeck噪声的Python实现与调参实战

突破DDPG探索瓶颈&#xff1a;Ornstein-Uhlenbeck噪声的工程实践指南 在机器人控制或自动驾驶仿真这类连续动作空间的任务中&#xff0c;DDPG算法常因探索效率低下导致训练停滞。当智能体在MuJoCo环境中反复"原地踏步"时&#xff0c;问题往往不在于算法本身&#xf…...

基于LanceDB的AI记忆管理系统:从向量存储到智能记忆引擎

1. 项目概述&#xff1a;一个面向AI记忆管理的向量数据库解决方案最近在折腾AI应用&#xff0c;特别是那些需要长期记忆和上下文关联的智能体&#xff08;Agent&#xff09;时&#xff0c;我发现一个核心痛点&#xff1a;如何高效、低成本地存储和检索海量的对话历史、知识片段…...