文档:htm格式转txt
꧂ 两个地方都保存꧁
import os
import codecs
from bs4 import BeautifulSoupdef generate_output_filename(file_path, save_path):# 获取文件名(不包含扩展名)file_name = os.path.splitext(os.path.basename(file_path))[0]# 构造保存路径和文件名output_filename = os.path.join(save_path, file_name + '.txt')return output_filenamedef get_content_from_mht(soup):# 从 MHT 文件中提取内容,并返回字符串形式的内容# 这里只是示例,您可以根据具体的 MHT 文件结构进行修改# 下面的示例代码仅提取 <body> 标签下的文本内容body = soup.bodyif body:return body.get_text()else:return ""def convert_mht_to_txt(path, save_path_1, save_path_2):if os.path.isdir(path):for root, dirs, files in os.walk(path):for file in files:if file.endswith('.mht'):file_path = os.path.join(root, file)output_filename_1 = generate_output_filename(file_path, save_path_1)output_filename_2 = generate_output_filename(file_path, save_path_2)with codecs.open(output_filename_1, 'w', 'utf-8') as f_out_1, \codecs.open(output_filename_2, 'w', 'utf-8') as f_out_2:with open(file_path, 'r', encoding='utf-8') as f_in:soup = BeautifulSoup(f_in, 'html.parser')content = get_content_from_mht(soup)f_out_1.write(content)f_out_2.write(content)elif os.path.isfile(path) and path.endswith('.mht'):output_filename_1 = generate_output_filename(path, save_path_1)output_filename_2 = generate_output_filename(path, save_path_2)with codecs.open(output_filename_1, 'w', 'utf-8') as f_out_1, \codecs.open(output_filename_2, 'w', 'utf-8') as f_out_2:with open(path, 'r', encoding='utf-8') as f_in:soup = BeautifulSoup(f_in, 'html.parser')content = get_content_from_mht(soup)f_out_1.write(content)f_out_2.write(content)# 示例用法
path = input("请输入要处理的文件路径:")
save_path_1 = input("请输入第一个保存文件的位置(按回车默认保存):")
save_path_2 = input("请输入第二个保存文件的位置(按回车默认不保存):")if save_path_1 == '':save_path_1 = '/storage/emulated/0/文件/代码print相关/结构图/字符图/'if save_path_2 == '':convert_mht_to_txt(path, save_path_1, save_path_1)
else:convert_mht_to_txt(path, save_path_1, save_path_2)
仅适用于处理 .mht 格式的文件。
꧂添加转义成文字 ꧁
如果您想要将转义字符转换为相应的文字形式,可以借助 Python 的内置模块 html。以下是修改后的代码:
import os
import codecs
from bs4 import BeautifulSoup
import htmldef generate_output_filename(file_path, save_path):# 获取文件名(不包含扩展名)file_name = os.path.splitext(os.path.basename(file_path))[0]# 构造保存路径和文件名output_filename = os.path.join(save_path, file_name + '.txt')return output_filenamedef get_content_from_mht(soup):# 从 MHT 文件中提取内容,并返回字符串形式的内容# 这里只是示例,您可以根据具体的 MHT 文件结构进行修改# 下面的示例代码仅提取 <body> 标签下的文本内容body = soup.bodyif body:content = body.get_text()# 转义字符转换为相应的文字形式content = html.unescape(content)return contentelse:return ""def convert_mht_to_txt(path, save_path_1, save_path_2):if os.path.isdir(path):for root, dirs, files in os.walk(path):for file in files:if file.endswith('.mht'):file_path = os.path.join(root, file)output_filename_1 = generate_output_filename(file_path, save_path_1)output_filename_2 = generate_output_filename(file_path, save_path_2)with codecs.open(output_filename_1, 'w', 'utf-8') as f_out_1, \codecs.open(output_filename_2, 'w', 'utf-8') as f_out_2:with open(file_path, 'r', encoding='utf-8') as f_in:soup = BeautifulSoup(f_in, 'html.parser')content = get_content_from_mht(soup)f_out_1.write(content)f_out_2.write(content)elif os.path.isfile(path) and path.endswith('.mht'):output_filename_1 = generate_output_filename(path, save_path_1)output_filename_2 = generate_output_filename(path, save_path_2)with codecs.open(output_filename_1, 'w', 'utf-8') as f_out_1, \codecs.open(output_filename_2, 'w', 'utf-8') as f_out_2:with open(path, 'r', encoding='utf-8') as f_in:soup = BeautifulSoup(f_in, 'html.parser')content = get_content_from_mht(soup)f_out_1.write(content)f_out_2.write(content)# 示例用法
path = input("请输入要处理的文件路径:")
save_path_1 = input("请输入第一个保存文件的位置(按回车默认保存):")
save_path_2 = input("请输入第二个保存文件的位置(按回车默认不保存):")if save_path_1 == '':save_path_1 = '/storage/emulated/0/文件/代码print相关/结构图/字符图/'if save_path_2 == '':convert_mht_to_txt(path, save_path_1, save_path_1)
else:convert_mht_to_txt(path, save_path_1, save_path_2)
在这个版本的代码中,使用 html.unescape() 函数将转义字符转换为相应的文字形式。这样在保存为文本文件时,转义字符就会以正常的文本形式显示。
相关文章:
文档:htm格式转txt
꧂ 两个地方都保存꧁ import os import codecs from bs4 import BeautifulSoupdef generate_output_filename(file_path, save_path):# 获取文件名(不包含扩展名)file_name os.path.splitext(os.path.basename(file_path))[0]# 构造保存路径和文件名ou…...
电子邮件地址注册过程详解
许多人可能对如何注册电子邮件地址感到困惑,本文将详细解析电子邮件地址的注册过程:确定邮箱厂商、创建邮箱账户、设置电子邮件地址。 1、确定要注册的邮箱厂商 首先我们需要确定要注册哪种类型的电子邮件服务。目前市场上有许多不同的电子邮件服务提供商…...
深度学习——卷积神经网络(CNN)基础二
深度学习——卷积神经网络(CNN)基础二 文章目录 前言三、填充和步幅3.1. 填充3.2. 步幅3.3. 小结 四、多输入多输出通道4.1. 多输入通道4.2. 多输出通道4.3. 11卷积层4.4. 小结 总结 前言 上文对卷积有了初步的认识,其实卷积操作就是通过卷积…...
R语言进度条:txtProgressBar功能使用方法
R语言进度条使用攻略 在数据处理、建模或其他计算密集型任务中,我们常常会执行一些可能需要很长时间的操作。 在这些情况下,展示一个进度条可以帮助我们了解当前任务的进度,以及大约还需要多长时间来完成,R语言提供了几种简单且灵…...
Maven实战-声明周期和插件
Maven实战-声明周期和插件 Maven 设计了插件机制,每个构建步骤都可以绑定一个或者多个插件行为,而且 Maven 为大多数构建步骤编写 并绑定了默认插件。例如,针对编译的插件有 maven-compiler-plugin,针对测试的插件有 maven-sure…...
ebpf的快速开发工具--libbpf-bootstrap
基于ubuntu22.04-深入浅出 eBPF 基于ebpf的性能工具-bpftrace 基于ebpf的性能工具-bpftrace脚本语法 基于ebpf的性能工具-bpftrace实战(内存泄漏) 什么是libbpf-bootstrap libbpf-bootstrap是一个开源项目,旨在帮助开发者快速启动和开发使用eBPF(Extended Berk…...
万界星空科技/生产制造执行MES系统/开源MES/免费MES
开源系统概述: 万界星空科技免费MES、开源MES、商业开源MES、市面上最好的开源MES、MES源代码、免费MES、免费智能制造系统、免费排产系统、免费排班系统、免费质检系统、免费生产计划系统、免费数字化大屏。 万界星空开源MES制造执行系统的Java开源版本。开源mes…...
螺纹快速接头在卫浴行业中的应用提高产量降低生产成本
螺纹快速接头在卫浴行业主要用于上下水测试和密封性测试,可以快速密封连接待测产品和水管。取代之前的工人手拧编织管六角螺母的方式,方便快捷,密封性好,产品测试更稳定。 卫浴行业产品必须具备很好的密封性,防止在实际…...
通达OA 2016网络智能办公系统 handle.php SQL注入漏洞
一、漏洞描述 北京通达信科科技有限公司通达OA2016网络智能办公系统 handle.php 存在sql注入漏洞,攻击者可利用此漏洞获取数据库管理员权限,查询数据、获取系统信息,威胁企业单位数据安全。 二、网络空间搜索引擎查询 fofa查询 app"T…...
parameter的各种用法以及localparam的用法
parameter的各种用法以及localparam的用法 一、这种写法放在v文件或者是用来调用其他的ram文件都是正确的。 一、这种写法放在v文件或者是用来调用其他的ram文件都是正确的。 module para_local();parameter a 10; // 第一种用法 parameter a 4d10; // 第二种用法 para…...
网络社区挖掘-图论部分的基本知识笔记
1 网络社区挖掘定义 网络社区挖掘是指利用数据挖掘技术和机器学习算法,分析社交网络、在线社区或互联网上的各种交互数据,以揭示其中隐藏的模式、关系和信息。这些社区可以是社交媒体平台、在线论坛、博客、微博等,人们在这些平台上进行交流…...
Vue Router - 路由的使用、两种切换方式、两种传参方式、嵌套方式
目录 一、Vue Router 1.1、下载 1.2、基本使用 a)引入 vue-router.js(注意:要在 Vue.js 之后引入). b)创建好路由规则 c)注册到 Vue 实例中 d)展示路由组件 1.3、切换路由的两种方式 1.…...
mysql为什么会选错索引,以及优化器是如何选择索引的
一:概念 在 索引建立之后,一条语句可能会命中多个索引,这时,索引的选择,就会交由 优化器 来选择合适的索引。 优化器选择索引的目的,是找到一个最优的执行方案,并用最小的代价去执行语句。 二…...
vue基础知识十七:你知道vue中key的原理吗?说说你对它的理解
一、Key是什么 开始之前,我们先还原两个实际工作场景 1.当我们在使用v-for时,需要给单元加上key <ul><li v-for"item in items" :key"item.id">...</li> </ul>2.用new Date()生成的时间戳作为key&#x…...
攻防演练蓝队|Windows应急响应入侵排查
文章目录 日志分析web日志windows系统日志 文件排查进程排查新增、隐藏账号排查启动项/服务/计划任务排查工具 日志分析 web日志 dirpro扫描目录,sqlmap扫描dvwa Python dirpro -u http://192.168.52.129 -b sqlmap -u "http://192.168.52.129/dvwa/vulnera…...
uniapp 小程序实现图片宽度100%、高度自适应的效果
因为image组件默认是有宽度跟高度的,所以这个高度不怎么好写 通过load事件来控制图片的高度 话不多说,直接上代码, <image class"img" src"/static/image.png" :style"{ height: imgHeight px }"mode&q…...
05. NXP官方SDK使用实验
05. NXP官方SDK使用实验 官方SDK移植 官方SDK移植 新建cc.h文件 SDK包里面会用到很多数据类型,所以需要在该文件中定义一些常用的数据类型 #pragma once #define __I volatile #define __O volatile #define __IO volatiletypedef sig…...
Python- JSON使用初探
JSON 在JSON格式中,{} 和 [] 是两种主要的数据结构,分别表示对象(或称为字典、哈希、map)和数组(或称为列表、序列)。 {} - 对象 在JSON中,对象是一组"key": value对的集合。这些键必…...
vim的配置文件
用户级别配置文件 ~/.vimrc 修改用户级别的配置文件只会影响当前用户, 不会影响其他的用户. 例如: 在用户的家目录下的.vimrc文件中添加 set tabstop4 ----设置缩进4个空格 set nu ----设置行号 set shiftwidth4 —设置ggG缩进4个空格, 默认是缩进8个空格 系统级别配置文件 /e…...
[python] pytest
在写一个项目前, 可以先编写测试模块 测试模块中包含了一个个最小的功能 当每一个功能都完善正确时 再将这些功能转换成项目运行的功能 多个项目运行的功能就组成了一个模块 多个模块就组成了一个项目服务 pytest 是一个 Python 测试框架,它提供了简单易用的语…...
浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)
✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义(Task Definition&…...
基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能,多端兼容
基于 UniApp + WebSocket实现多端兼容的实时通讯系统,涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能,适配微信小程序、H5、Android、iOS等终端 目录 技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…...
【网络安全产品大调研系列】2. 体验漏洞扫描
前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...
【JVM】- 内存结构
引言 JVM:Java Virtual Machine 定义:Java虚拟机,Java二进制字节码的运行环境好处: 一次编写,到处运行自动内存管理,垃圾回收的功能数组下标越界检查(会抛异常,不会覆盖到其他代码…...
Robots.txt 文件
什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...
服务器--宝塔命令
一、宝塔面板安装命令 ⚠️ 必须使用 root 用户 或 sudo 权限执行! sudo su - 1. CentOS 系统: yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...
SiFli 52把Imagie图片,Font字体资源放在指定位置,编译成指定img.bin和font.bin的问题
分区配置 (ptab.json) img 属性介绍: img 属性指定分区存放的 image 名称,指定的 image 名称必须是当前工程生成的 binary 。 如果 binary 有多个文件,则以 proj_name:binary_name 格式指定文件名, proj_name 为工程 名&…...
VisualXML全新升级 | 新增数据库编辑功能
VisualXML是一个功能强大的网络总线设计工具,专注于简化汽车电子系统中复杂的网络数据设计操作。它支持多种主流总线网络格式的数据编辑(如DBC、LDF、ARXML、HEX等),并能够基于Excel表格的方式生成和转换多种数据库文件。由此&…...
DeepSeek越强,Kimi越慌?
被DeepSeek吊打的Kimi,还有多少人在用? 去年,月之暗面创始人杨植麟别提有多风光了。90后清华学霸,国产大模型六小虎之一,手握十几亿美金的融资。旗下的AI助手Kimi烧钱如流水,单月光是投流就花费2个亿。 疯…...
深入理解 React 样式方案
React 的样式方案较多,在应用开发初期,开发者需要根据项目业务具体情况选择对应样式方案。React 样式方案主要有: 1. 内联样式 2. module css 3. css in js 4. tailwind css 这些方案中,均有各自的优势和缺点。 1. 方案优劣势 1. 内联样式: 简单直观,适合动态样式和…...
