当前位置：首页 > news >正文

bs4解析数据和csv文件

news 2026/2/9 20:16:24

\b 检测所在的位置是否是单词边界（任何可以将不同的单词进行区分的符号：空白符号，标点符号，字符串开头，字符串结尾）

^ 检测是否是字符串开头

$ 检测是否是字符串结尾

`csv`保存数据

什么是csv文件

读操作

reader

from csv import reader, DictReader
# a.reader
# 创建根据文件对象创建对应的reader，获取文件内容
with open('files/电影.csv', encoding='utf-8', newline='') as f:r1 = reader(f)print(next(r1))print(list(r1))

Dictreader

# b.DictReader
with open('files/电影.csv', encoding='utf-8', newline='') as f:r2 = DictReader(f)print(next(r2))for x in r2:print(x)

写操作

writer

from csv import writer, DictWriter
# a. writer
with open('files/student1.csv', 'w', encoding='utf-8', newline='') as f:# 1.根据文件对象创建writer对象w1 = writer(f)# 2.写入数据# 1)一次写一行w1.writerow(['姓名', '性别', '年龄'])w1.writerow(['小明', '男', 22])# 2)一次写多行w1.writerows([('小花', '女', 18),['张三', '男', 30]])

Dictwriter

# b. DictWriter
with open('files/student2.csv', 'w', encoding='utf-8', newline='') as f:# 1.根据文件对象创建writer对象w2 = DictWriter(f, ['姓名', '性别', '年龄'])# 2.写入数据# 1)将字典的键作为第一行写入文件w2.writeheader()w2.writerow({'姓名': '小明', '性别': '男', '年龄': 22})w2.writerows([{'姓名': '小花', '性别': '女', '年龄': 17},{'姓名': '小红', '性别': '女', '年龄': 18},{'姓名': '张三', '性别': '男', '年龄': 30}])

bs4

css选择器

# 元素选择器：定位特定类型的所有元素。例如，h1 定位页面上的所有 h1 元素。
h1 {/* 样式 */
}
# 类选择器：定位所有具有特定类的元素。例如，.my-class 定位所有具有类 my-class 的元素。
.my-class {/* 样式 */
}
# ID 选择器：定位具有特定 ID 的单个元素。例如，#my-id 定位具有 ID my-id 的元素。
#my-id {/* 样式 */
}
# 属性选择器：定位具有特定属性的元素。例如，[type="text"] 定位所有具有属性 type 设置为 text 的元素。
[type="text"] {/* 样式 */
}

CSS 父子选择器用于定位特定 HTML 元素的子元素并对其应用样式。以下是一些常见的 CSS 父子选择器：

div p {/* 样式 */
}
子元素选择器：定位特定元素的直接子元素。例如，ul > li 定位所有 ul 元素的直接子元素 li 元素。
ul > li {/* 样式 */
}
相邻兄弟选择器：定位特定元素的下一个兄弟元素。例如，h1 + p 定位紧接在 h1 元素后的第一个 p 元素
h1 + p {/* 样式 */
}
通用兄弟选择器：定位特定元素之后的所有兄弟元素。例如，h1 ~ p 定位所有在 h1 元素之后的 p 元素。
h1 ~ p {/* 样式 */
}
你还可以组合父子选择器以定位特定元素的子元素。例如，div > p.my-class 定位所有 div 元素的直接子元素 p 元素，并且该元素具有类 my-class。

bs4语法

BeautifulSoup 是一个 Python 库，用于从 HTML 或 XML 文件中提取数据。它可以帮助你解析 HTML 或 XML 文件，并从中提取所需的数据

from bs4 import BeautifulSoup# 将 HTML 文件加载到 BeautifulSoup 中
with open("index.html") as fp:soup = BeautifulSoup(fp, "html.parser")# 查找所有带有 class="my-class" 的 div 元素
divs = soup.find_all("div", class_="my-class")# 打印每个 div 元素的文本内容
for div in divs:print(div.text)from bs4 import BeautifulSoup# 将 HTML 文件加载到 BeautifulSoup 中
with open("index.html") as fp:soup = BeautifulSoup(fp, "html.parser")# 使用 select 方法查找所有带有 class="my-class" 的 div 元素
divs = soup.select("div.my-class")# 打印每个 div 元素的文本内容
for div in divs:print(div.text)from bs4 import BeautifulSoup# 1. 根据网页源代码创建soup对象: BeautifulSoup(网页源代码, 'lxml')
f = open('files/data.html', encoding='utf-8')
soup = BeautifulSoup(f.read(), 'lxml')
f.close()# 2. 获取标签
# soup对象.select(css选择器)     -   获取整个网页中选择器选中的所有标签，返回值是一个列表，列表中的元素是标签对象（找不到返回空列表）
# soup对象.select_one(css选择器) -   获取整个网页中选择器选中的第一个标签，返回值是标签对象(找不到返回None)
# 标签对象.select(css选择器)   -   获取指定标签中css选择器选中的所有标签
# 标签对象.select_one(css选择器) - 获取指定标签中css选择器选中的第一个标签
result = soup.select('p')
print(result)# result = soup.select('.c1')
# print(result)
#
# result = soup.select_one('p')
# print(result)
#
# result = soup.select('div p')
# print(result)box1 = soup.select_one('#box1')
result = box1.select('p')
print(result)p1 = soup.select_one('span>p')
a1 = box1.select_one('a')# 3. 获取标签内容和标签属性
# 标签对象.text     -   获取标签内容
# 标签对象.attrs[属性名]   -   获取标签指定属性的值print(p1.text)      # '我是段落5'
print(a1.text)      # '我是超链接3'
print(a1.attrs['href'])     # 'https://www.baidu.com'

bs4解析数据和csv文件

\b 检测所在的位置是否是单词边界（任何可以将不同的单词进行区分的符号：空白符号，标点符号，字符串开头，字符串结尾） ^ 检测是否是字符串开头 $ 检测是否是字符串结尾 csv保存数据什么是csv文件读操作…...

编程日记 2023/4/11 19:29:17

Linux中Buffer和Cache的区别

Linux中Buffer和Cache的区别 free命令中会有一项buff/cache, 通过man free可以看到这里的关于buff/cache的介绍 buff/cache包含两部分 buffers:内核缓存区用到的内存，对应/proc/meminfo中Buffers的值 cache:内核页缓存和Slab用到的内存，对应/proc/mem…...

编程日记 2023/4/18 20:18:24

Docker 镜像使用

目录 1、列出镜像列表 2、获取一个新的镜像 3、查找镜像 4、拖取镜像 5、删除镜像 6、创建镜像 a.更新镜像 b.构建镜像设置镜像标签当运行容器时，使用的镜像如果在本地中不存在，docker 就会自动从 docker 镜像仓库中下载，默认是从 …...

编程日记 2023/4/18 10:03:46

Java阶段一Day10

Java阶段一Day10 文章目录Java阶段一Day10抽象类和抽象方法接口案例小练习引用类型数组教师总结回顾：精华笔记：笔记：补充：抽象类和抽象方法关键字：abstract 只有方法的定义，没有具体的实现（连…...

编程日记 2023/4/15 16:15:06

触摸屏与PLC之间如何快速实现无线PPI通信？

PPI协议是西门子为S7-200专门开发的通信协议，是不开放的协议，CPU自带的两个通信口（Port0，Port1）均支持该协议，S7-200的一些通信模块也支持PPI协议。编程软件Micro/WIN与CPU进行编程通信也使用PPI协议&#…...

编程日记 2023/4/1 6:18:32

【华为OD机试 2023最新】羊、狼、农夫过河（C++ 100%）

题目描述羊、狼、农夫都在岸边，当羊的数量小于狼的数量时，狼会攻击羊，农夫则会损失羊。农夫有一艘容量固定的船，能够承载固定数量的动物。要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。只计算农夫去对岸的次数，回程时农夫不会运送羊和狼。备注：农…...

编程日记 2023/4/14 8:13:40

Java中关于try、catch、finally中的细节分析

本文讲解的是关于Java中关于try、catch、finally中一些问题下面看一个例子（例1），来讲解java里面中try、catch、finally的处理流程 public class TryCatchFinally {SuppressWarnings("finally")public static final String test(…...

编程日记 2023/4/15 16:18:08

Zookeeper原理

一、概念 Zookeeper是一个开源的、分布式的，为分布式应用提供协调服务的Apache项目。封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。二、选举机制首先是几个概念： myid：节点的唯一标识&…...

编程日记 2023/4/1 6:03:27

关于FPGA如何快速生成模块的例化模板（实用）

关于FPGA如何快速生成模块的例化模板（实用） 语言 ：Verilg HDL 、VHDL EDA工具：ISE、Vivado、Quartus II 关于FPGA如何快速生成模块的例化模板（实用）一、引言二、快速生成例化模块的几种方法1. IP核的例化模…...

编程日记 2023/4/1 5:58:26

在 Python 中将字符串转换为集合

使用 set() 类将字符串转换为集合，例如 my_set set(my_str)。 set() 类将通过拆分其字符将字符串转换为集合。 my_str one# ✅ 通过拆分字符将字符串转换为集合 my_set set(my_str) print(my_set) # 👉️ {n, o, e}# -----------------------------…...

编程日记 2023/4/18 10:04:53

大数据Flink进阶（十三）：Flink 任务提交模式

文章目录 Flink 任务提交模式一、会话模式（Session Mode） 二、单作业模式（Per-Job Mode） 三、应用模式（Application Mode） Flink 任务提交模式 Flink分布式计算框架可以基于多种模式部署，…...

编程日记 2023/4/11 19:31:00

day11—编程题

文章目录1.第一题1.1题目1.2涉及的相关知识1.3思路1.4解题2.第二题2.1题目2.2思路2.3解题1.第一题 1.1题目描述： 将一棵无穷大满二叉树的结点按根结点一层一层地从左往右编号，根结点编号为1。现给定a，b为两个结点。设计一个算法&#xff0…...

编程日记 2023/4/19 5:17:05

CentOS下安装crontab及cron表达式解析

目录安装依赖服务启停任务操作参数简要说明1、参数说明2、cron表达式解析(1)定义(2)结构(3)字段含义(4)注意事项(5)常用表达式例子crontab示例结尾安装依赖 # vixie-cron软件包是crontab的主程序 # crontabs软件包是用来安装、卸装、或列举用来驱动crontab守护进程的表格的程序…...

编程日记 2023/4/18 10:26:04

python 绘制训练曲线--基于Numpy.convolve曲线平均滤波

文章目录1 训练曲线--震荡的非常厉害2 基于Numpy.convolve曲线平均滤波3 python 绘制训练曲线平滑处理--Savitzky-Golay 滤波器曲线平滑4 python 绘制训练曲线--插值法曲线平滑处理1 训练曲线–震荡的非常厉害上一篇文章用python自己绘制训练曲线震荡的非常厉害&#xff08…...

编程日记 2023/4/18 10:28:02

状态管理插件vuex

概念: 专门在Vue中实现集中式状态(数据）管理的一个Vue插件，对vue应用中多个组件的共享状态进行集中式的管理(读/写)，也是一种组件间通信的方式，且适用于任意组件间通信。作用： 如果我们使用全局总线要让所有的组件…...

编程日记 2023/4/15 16:20:09

arthas—阿里开源的Java诊断工具

一、arthas简述Arthas 是阿里开源的Java诊断工具。安装在系统所在服务器，有着强大的能力，是一个开发运维神器。主要功能在线热替换代码/代码增强全局视角的性能分析查看方法执行情况，帮助跟踪偶现的bug支持JDK6二、官方资料官方文档的介绍非常…...

编程日记 2023/4/1 5:23:18

Java学习记录

阅读前请看一下：我是一个热衷于记录的人，每次写博客会反复研读，尽量不断提升博客质量。文章设置为仅粉丝可见，是因为写博客确实花了不少精力。希望互相进步谢谢！！ 文章目录阅读前请看一下：我是一…...

编程日记 2023/4/13 17:32:40

OpenGL API 之 glVertexAttribPointer

glVertexAttribPointer 定义通用顶点属性数据的数组 C Specification format void glVertexAttribPointer(GLuint index,GLint size,GLenum type,GLboolean normalized,GLsizei stride,const void * pointer); Parameters nametypedescriptionindexGLuint Specifies the inde…...

编程日记 2023/4/18 10:28:47

蓝桥杯真题4

[蓝桥杯 2017 省 AB] 分巧克力题目描述儿童节那天有 KKK 位小朋友到小明家做客。小明拿出了珍藏的巧克力招待小朋友们。小明一共有 NNN 块巧克力，其中第 iii 块是 HiWiH_i \times W_iHiWi 的方格组成的长方形。为了公平起见，小明需要从这 NN…...

编程日记 2023/4/18 10:29:43

day02_基本语法

今日内容上课同步视频:CuteN饕餮的个人空间_哔哩哔哩_bilibili 同步笔记Java2307_沐沐霸的博客-CSDN博客零、复习昨日一、程序&Java介绍二、安装JDK&配置环境变量三、DOS命令四、第一个程序[重点] 五、Java语言规范[重点] 六、运行机制七、Typora工具使用附录:…...

编程日记 2023/4/19 15:11:53

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

centos 7 部署awstats 网站访问检测

一、基础环境准备（两种安装方式都要做） bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats&#xff0…...

编程新知 2026/1/23 8:33:56

vscode（仍待补充）

写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用侧边栏 vscode还能连接ssh？ debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...

编程新知 2026/1/24 13:04:10

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展，光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域，IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选，但在长期运行中，例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

编程新知 2026/2/1 6:36:36

深入解析C++中的extern关键字：跨文件共享变量与函数的终极指南

🚀 C extern 关键字深度解析：跨文件编程的终极指南 📅 更新时间：2025年6月5日 🏷️ 标签：C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录前言🔥一、extern 是什么？&…...

编程新知 2026/2/1 6:50:07

（转）什么是DockerCompose?它有什么作用？

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用，而无需手动一个个创建和运行容器。 Compose文件是一个文本文件，通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

编程新知 2026/1/31 22:59:12

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中，部分节点存储的数据量或访问量远高于其他节点，导致这些节点负载过高，影响整体性能。数据倾斜的主要表现部分节点内存使用率远高于其他节…...

编程新知 2026/1/27 19:28:11

代理篇12|深入理解 Vite中的Proxy接口代理配置

在前端开发中，常常会遇到跨域请求接口的情况。为了解决这个问题，Vite 和 Webpack 都提供了 proxy 代理功能，用于将本地开发请求转发到后端服务器。什么是代理（proxy）？代理是在开发过程中，前端项目通过开发服务器，将指定的请求“转发”到真实的后端服务器，从而绕…...

编程新知 2025/10/27 20:33:34

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2026/2/2 9:25:26

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类二者共有的常见方法方法功能add加subtract减multiply乘divide除注意点：传参类型必须是类对象一、BigInteger 1. 作用：适合保存比较大的整型数 2. 使用说明创建BigInteger对象传入字符串 3. 代码示例 import j…...

编程新知 2025/11/8 15:39:00

csv保存数据

bs4

相关文章：

`csv`保存数据