当前位置：首页 > news >正文

week04day03(爬虫 beautifulsoup4、)

news 2025/11/1 8:47:37

一. 使用bs4解析网页

'''
下载bs4 - pip install beautifulsoup4
使用的时候 import bs4专门用于解析网页的第三方库
在使用bs4的时候往往会依赖另一个库lxml
pip install lxml
'''

网页代码

<!DOCTYPE html>
<html><head><meta charset="utf-8"><title>Title</title></head><body><h2>电影大全</h2><div id="box1"><div class="item"><p>肖生克的救赎</p><span>评分：</span><span class="score">9.7</span></div><div class="item"><p>霸王别姬</p><span>评分：</span><span class="score">9.6</span></div><div class="item"><p>阿甘正传</p><span>评分：</span><span class="score">9.5</span></div><img src="https://img9.doubanio.com/view/photo/s_ratio_poster/public/p457760035.webp" class=""><div id="box2"><div><p>我是段落1</p></div></div></div></body>
</html>

对以上代码进行操作：

from bs4 import BeautifulSoup
# bs4 用法
# 1.准备需要解析的数据
html = open('for_bs4.html',encoding='utf-8').read()# 2.生成基于网页源代码的bs4对象
soup = BeautifulSoup(html,'lxml')# 3.获取标签
# soup.select()   在整个网页中获取css选择器选中的所以标签
#soup.select_one() 在整个网页中获取css选择器中的第一个标签result = soup.select('#box1 p')
print(result)
result1 = soup.select_one('#box1 p')
print(result1)'''
总结：标签对象.select(css选择器)     获取css选择器所有标签，返回一个列表，列表中元素是标签对象标签对象.select_one(css选择器)  获取第一个标签，结果是标签对象
'''result3 =soup.select('p')
#print(result3)result4 = soup.select('#box2')
#print(result4)#4. 获取标签内容和标签属性
p = soup.select_one('p')
img = soup.select_one('img')# a.获取标签内容  标签对象.text
print(p.text)  #肖申克的救赎
# b. 获取标签的属性值
print(img.attrs['src'])
# https://b0.bdstatic.com/ugc/mFgjRS-3T9fHnYC3CAxHHwba8a3cbd3af3e42ddda89fa78b831a5f.jpg@h_1280

二. 爬取豆瓣电影的信息

from bs4 import BeautifulSoup
import requests
import csv# 1.获取网页数据
def get_net_data(url: str):# headers进行伪装成正常的浏览器访问headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}# 获取网页代码信息response = requests.get(url=url, headers=headers)# 返回解析后的代码信息return response.text# 2.解析网页数据
# ol class='grid_view' ->li ->div .item
#这里的html 就是第一步中解析网页代码后的信息
def analyse_data(html: str):# 生成基于网页源代码的bs4对象soup = BeautifulSoup(html, 'lxml')# 将所需要的电影信息代码块都获取下来all_films_div = soup.select('.grid_view>li>.item')all_data = []# 遍历每一个代码块，一个代码块都是一部电影的具体信息for div in all_films_div:name = div.select_one('.title').textinfo = div.select_one('.bd>p').text.strip().split('\n')[-1].strip()time, country, category = info.split('/')score = div.select_one('.rating_num').textcomment_count = div.select('.star>span')[-1].text[:-3]intro = div.select_one('.inq').textall_data.append([name, score, time.strip(), country.strip(), category.strip(), comment_count, intro])f = open('../files/第一页电影数据.csv','w',encoding='utf-8',newline='')#创建一个 CSV 文件写入器，并将其关联到一个已经打开的文件对象 f 上，就是在创建的第一页数据电影文件中准备录入信息writer = csv.writer(f)# 写的是表头 writerow 只写一行writer.writerow(['电影名字','评分','上映时间','发行国家地区','类型','评论人数','简介'])# csv文件中写入内容writer.writerows(all_data)if __name__ == '__main__':# for q in range(0, 251, 25):#     url1 = f'https://movie.douban.com/top250?start={q}&filter='result = get_net_data(url='https://movie.douban.com/top250') #返回的是 response.textanalyse_data(result)

三. 爬取250部电影（二只爬取了第一页内容，网站有很多页）

from bs4 import BeautifulSoup
import requests
import csv# 1.获取网页数据
def get_net_data(url: str):# headers进行伪装成正常的浏览器访问headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}# 获取网页代码信息response = requests.get(url=url, headers=headers)# 返回解析后的代码信息return response.text# 2.解析网页数据
# ol class='grid_view' ->li ->div .item
#这里的html 就是第一步中解析网页代码后的信息
def analyse_data(html: str):# 生成基于网页源代码的bs4对象soup = BeautifulSoup(html, 'lxml')# 将所需要的电影信息代码块都获取下来all_films_div = soup.select('.grid_view>li>.item')all_data = []# 遍历每一个代码块，一个代码块都是一部电影的具体信息for div in all_films_div:name = div.select_one('.title').textinfo = div.select_one('.bd>p').text.strip().split('\n')[-1].strip()time, country, category = info.split('/')score = div.select_one('.rating_num').textcomment_count = div.select('.star>span')[-1].text[:-3]intro = div.select_one('.inq').textall_data.append([name, score, time.strip(), country.strip(), category.strip(), comment_count, intro])f = open('../files/250部电影数据.csv','w',encoding='utf-8',newline='')#创建一个 CSV 文件写入器，并将其关联到一个已经打开的文件对象 f 上，就是在创建的第一页数据电影文件中准备录入信息writer = csv.writer(f)# 写的是表头 writerow 只写一行writer.writerow(['电影名字','评分','上映时间','发行国家地区','类型','评论人数','简介'])# csv文件中写入内容writer.writerows(all_data)'''
在这里有所改变，看下面代码，上面都一样
'''
if __name__ == '__main__':for page in range(0, 250, 25):url = f'https://movie.douban.com/top250?start={page}&filter='result = get_net_data(url=url) #返回的是 response.textanalyse_data(result)

四. os模块（看创建的文件是否存在，不存在进行创建，这是避免使用open的时候出现文件不存在的报错）

import os
if not os.path.exists('../files/abc'):os.mkdir('../files/abc')

五. 爬取英雄联盟的英雄名字（json）方法

json在netwok 中的 fetch/xhr 中找

import requests
response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
result = response.json()for x in result['hero']:print(x['name'],x['alias'])

找到network（网络），然后点击Fetch/XHR
一一找到名称列表的文件，通过preview（预览）查看是否我们需要的数据
查看json数据结构，并获取数据

六.下载安妮的皮肤

import requests# 1.定义一个函数
#img:是图片链接
def download(img: str, name: str):res = requests.get(img)with open(f'../skin/{name}.jpg', 'wb') as f:# 因为是图片所有用contentf.write(res.content)# 2.主程序入口下载图片
#用的还是json 还是network 下 fetch/xhr找
if __name__ == '__main__':response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/hero/1.js')result = response.json()for x in result['skins']:name = x['name']img_url = x['mainImg']if not img_url:img_url = x['chromaImg']download(img_url,name)

week04day03(爬虫 beautifulsoup4、)

一. 使用bs4解析网页下载bs4 - pip install beautifulsoup4 使用的时候 import bs4专门用于解析网页的第三方库在使用bs4的时候往往会依赖另一个库lxml pip install lxml 网页代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><…...

编程日记 2024/2/25 4:40:25

04 动力云客之登录后获取用户信息+JWT存进Redis+Filter验证Token + token续期

1. 登录后获取用户信息非常好实现. 只要新建一个controller, 并调用SS提供的Authentication对象即可 package com.sunsplanter.controller;RestController public class UserController {GetMapping(value "api/login/info")public R loginInfo(Authentication a…...

编程日记 2024/2/25 4:38:23

RISC-V知识总结 —— 指令集

资源1: RISC-V China – RISC-V International 资源2: RISC-V International – RISC-V: The Open Standard RISC Instruction Set Architecture 资源3: RV32I, RV64I Instructions — riscv-isa-pages documentation 1. 指令集架构的类型在讨论RISC-V或任何处理器架构时&…...

编程日记 2024/2/25 4:37:22

基于Java jsp+mysql+Spring的汽车出租平台租赁网站平台设计和实现

基于Java jspmysqlSpring的汽车出租平台租赁网站平台设计和实现博主介绍：5年java开发经验，专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域作者主页央顺技术团队 Java毕设项目精品实战案例《1000套》欢迎点赞收藏 ⭐留…...

编程日记 2024/2/25 4:36:21

[AutoSar]BSW_Com 01 Can通信入门

目录关键词平台说明一、车身CAN简介二、相关模块三、Can报文分类及信号流路径3.1 应用报文3.2 应用报文（多路复用multiplexer）3.3 诊断报文3.4 网络管理报文3.5 XCP报文（标定报文） 关键词嵌入式、C语言、autosar、OS、BSW 平台…...

编程日记 2024/2/25 4:33:19

离散数学第七单元 tree

目录树的定义树的特点 Spanning Tree 生成树（重要！） 生成树算法 DFS 深度优先 BFS 广度优先 Minimun Spanning Tree 最小生成树 Kruscal算法 Prim算法根树根数的遍历前序遍历中序遍历后序遍历表达式的二叉树中缀…...

编程日记 2024/2/25 4:32:18

基于MPPT最大功率跟踪算法的涡轮机控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述基于MPPT最大功率跟踪算法的涡轮机控制系统simulink建模与仿真.mppt采用爬山法实现，仿真输出MPPT控制效果，功率，转速等。 2.系统仿真结果 …...

编程日记 2024/2/25 4:30:16

Hbase和Clickhouse对比简单总结

Hbase和Clickhouse是两种不同的数据库系统，它们各自适用于不同的场景。以下是两者之间的对比： 数据模型： HBase 是一种基于列的存储系统，它适合处理大规模的数据集，特别是那些需要快速随机访问的场景。ClickHouse 则是…...

编程日记 2024/2/25 4:29:15

Spring基础之AOP和代理模式

文章目录理解AOPAOP的实现原理 AOP代理模式静态代理动态代理1-JDK动态代理2-CGLIB动态代理总结理解AOP OOP - - Object Oriented Programming 面向对象编程 AOP - - Aspect Oriented Programming 面向切面编程 AOP是Spring提供的关键特性之一。AOP即面向切面编程&#xff0…...

编程日记 2024/2/25 4:28:14

二层交换机和三层交换机区别

01、二层交换机二层交换机，也被称为数据链路层交换机，是在OSI模型的数据链路层（第二层）进行数据交换的设备。它基于MAC（Media Access Control）地址来转发数据包，实现局域网内部的数据传输 1、…...

编程日记 2024/2/25 4:27:13

【Java程序设计】【C00267】基于Springboot的在线考试系统（有论文）

基于Springboot的在线考试系统（有论文） 项目简介项目获取开发环境项目技术运行截图项目简介本系统是基于Springboot的在线考试系统；本系统主要分为管理员、教师和学生三种角色； 管理员登录系统后，可以对首页&#x…...

编程日记 2024/2/25 4:23:09

【LeetCode】416. 分割等和子集（中等）——代码随想录算法训练营Day41

题目链接：416. 分割等和子集题目描述给你一个只包含正整数的非空数组 nums 。请你判断是否可以将这个数组分割成两个子集，使得两个子集的元素和相等。示例 1： 输入：nums [1,5,11,5] 输出：true 解释&#x…...

编程日记 2024/2/25 4:19:06

51单片机学习（4）-----独立按键进一步控制LED灯

前言：感谢您的关注哦，我会持续更新编程相关知识，愿您在这里有所收获。如果有任何问题，欢迎沟通交流！期待与您在学习编程的道路上共同进步。目录一. 独立按键灵活控制LED 程序一：单个独立按键控制多个…...

编程日记 2024/2/25 4:18:05

Redis 学习笔记 3：黑马点评

Redis 学习笔记 3：黑马点评准备工作需要先导入项目相关资源： 数据库文件 hmdp.sql后端代码 hm-dianping.zip包括前端代码的 Nginx 启动后端代码和 Nginx。短信登录发送验证码 PostMapping("code") public Result sendCode(RequestP…...

编程日记 2024/2/25 4:15:02

电脑恢复删除数据的原理和方法

在恢复数据的时候，很多人都会问，为什么删除的数据还能恢复？本篇和大家一起了解下硬盘上数据的存储方式，文件被删除的时候具体发生了什么，帮助大家理解数据恢复的基本原理。最后还会分享一个好用的数据恢复工具并附上图…...

编程日记 2024/2/25 4:08:56

SpringBoot和SpringCloud的区别，使用微服务的好处和缺点

SpringBoot是一个用于快速开发单个Spring应用程序的框架，通过提供默认配置和约定大于配置的方式，快速搭建基于Spring的应用。让程序员更专注于业务逻辑的编写，不需要过多关注配置细节。可以看成是一种快速搭建房子的工具包，不用从…...

编程日记 2024/2/25 4:04:53

32单片机基础：GPIO输出

目录简介： GPIO输出的八种模式 STM32的GPIO工作方式 GPIO支持4种输入模式： GPIO支持4种输出模式： 浮空输入模式上拉输入模式下拉输入模式模拟输入模式： 开漏输出模式：（PMOS无效，就…...

编程日记 2024/2/25 4:03:52

【linux】查看openssl程序的安装情况

【linux】查看openssl程序的安装情况 1、查看安装包信息 $ rpm -qa |grep openssl 2、安装路径 $ rpm -ql openssl $ rpm -ql openssl-libs $ rpm -ql openssl-devel 3、相关文件和目录 /usr/bin/openssl /usr/include/openssl /usr/lib64/libssl.so.* /usr/lib64/libcrypto…...

编程日记 2024/2/25 4:01:50

高防服务器主要运用在哪些场景？

高防服务器主要是用来防御DDOS攻击的服务器，能够为客户提供安全维护，高防服务器能够帮助网站拒绝服务攻击，定时扫描网络主节点，进行查找可能会出现的安全漏洞的服务类型，高防服务器也会根据不同的IDC机房环境来提供硬防…...

编程日记 2024/2/25 4:00:49

Eureka：微服务中的服务注册与发现机制

引言在微服务架构中，由于服务数量巨大并且各个服务的实例可能会频繁上下线，因此服务注册和发现机制至关重要。那么，有什么工具或技术可以帮助我们解决这个问题呢？ 答案就是Eureka。一、Eureka简介 Eureka是Netflix公司开源的…...

编程日记 2024/2/25 3:57:47

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

可靠性灵活性：电力载波技术在楼宇自控中的核心价值在智能楼宇的自动化控制中，电力载波技术（PLC）凭借其独特的优势，正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据，无需额外布…...

编程新知 2025/9/27 2:43:26

大语言模型如何处理长文本？常用文本分割技术详解

为什么需要文本分割？引言：为什么需要文本分割？一、基础文本分割方法1. 按段落分割（Paragraph Splitting）2. 按句子分割（Sentence Splitting）二、高级文本分割策略3. 重叠分割（Sliding Window）4. 递归分割（Recursive Splitting）三、生产级工具推荐5. 使用LangChain的…...

编程新知 2025/10/20 5:24:23

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/10/30 4:02:31

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

系列回顾： 在上一篇中，我们成功地为应用集成了数据库，并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了！但是，如果你仔细审视那些 API，会发现它们还很“粗糙”：有…...

编程新知 2025/8/4 22:42:24

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展，光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域，IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选，但在长期运行中，例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

编程新知 2025/10/30 3:39:11

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/10/13 4:15:41

Java编程之桥接模式

定义桥接模式（Bridge Pattern）属于结构型设计模式，它的核心意图是将抽象部分与实现部分分离，使它们可以独立地变化。这种模式通过组合关系来替代继承关系，从而降低了抽象和实现这两个可变维度之间的耦合度。用例子…...

编程新知 2025/6/17 3:19:01

C# 表达式和运算符(求值顺序)

求值顺序表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生变化。例如，已知表达式3*52，依照子表达式的求值顺序，有两种可能的结果，如图9-3所示。如果乘法先执行，结果是17。如果5…...

编程新知 2025/10/30 13:20:12

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备安装DevEco Studio 3.1： 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK 项目配置： // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...

编程新知 2025/9/19 10:25:57

uniapp 实现腾讯云IM群文件上传下载功能

UniApp 集成腾讯云IM实现群文件上传下载功能全攻略一、功能背景与技术选型在团队协作场景中，群文件共享是核心需求之一。本文将介绍如何基于腾讯云IMCOS，在uniapp中实现： 群内文件上传/下载文件元数据管理下载进度追踪跨平台文件预览二…...

编程新知 2025/9/14 20:44:53