当前位置：首页 > article >正文

Python实现markdown文件转word

article 2026/2/7 20:21:21

1.markdown内容如下：

2.转换后的内容如下：

3.附上代码：

import argparse
import os
from markdown import markdown
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches
from docx.enum.text import WD_PARAGRAPH_ALIGNMENTdef convert_md_to_docx(input_file, output_file=None):# 若未指定输出文件，从输入文件路径推断if not output_file:base_name, _ = os.path.splitext(input_file)output_file = f"{base_name}.docx"# 读取 Markdown 文件内容try:with open(input_file, 'r', encoding='utf-8') as f:md_content = f.read()except FileNotFoundError:print(f"错误：找不到文件 '{input_file}'")returnexcept Exception as e:print(f"错误：读取文件时出错 '{input_file}': {e}")return# 将 Markdown 转换为 HTMLhtml_content = markdown(md_content, extensions=['markdown.extensions.fenced_code','markdown.extensions.tables','markdown.extensions.nl2br'])# 解析 HTML 内容soup = BeautifulSoup(html_content, 'html.parser')# 创建 Word 文档doc = Document()# 处理 HTML 内容并添加到 Word 文档process_soup_elements(soup, doc)# 保存 Word 文档try:doc.save(output_file)print(f"成功：已将 Markdown 文件 '{input_file}' 转换为 Word 文档 '{output_file}'")except Exception as e:print(f"错误：保存文件时出错 '{output_file}': {e}")def process_soup_elements(soup, doc):"""处理 BeautifulSoup 对象中的所有元素"""# 如果 soup 直接包含内容（没有 html/body 标签）if soup.name is None or soup.name != 'html':for element in soup.children:process_element(element, doc)else:# 处理标准的 html 结构for element in soup.children:if element.name == 'html':for html_child in element.children:if html_child.name == 'body':for body_child in html_child.children:process_element(body_child, doc)elif html_child.name == 'head':# 通常忽略 head 部分，但可以根据需要处理passelse:# 处理不在 body 中的元素process_element(html_child, doc)else:process_element(element, doc)def process_element(element, doc):"""处理单个 HTML 元素并添加到 Word 文档"""if element.name is None:# 处理文本节点if element.strip():doc.add_paragraph(element.strip())returnif element.name == 'h1':# 处理一级标题doc.add_heading(element.get_text(), level=1)elif element.name == 'h2':# 处理二级标题doc.add_heading(element.get_text(), level=2)elif element.name == 'h3':# 处理三级标题doc.add_heading(element.get_text(), level=3)elif element.name == 'p':# 处理段落p = doc.add_paragraph()for child in element.children:if child.name is None:p.add_run(str(child))elif child.name == 'strong':p.add_run(child.get_text()).bold = Trueelif child.name == 'em':p.add_run(child.get_text()).italic = Trueelif child.name == 'code':p.add_run(child.get_text()).font.name = 'Courier New'elif child.name == 'a':p.add_run(child.get_text())elif element.name == 'ul':# 处理无序列表for li in element.find_all('li'):doc.add_paragraph(li.get_text(), style='List Bullet')elif element.name == 'ol':# 处理有序列表for li in element.find_all('li'):doc.add_paragraph(li.get_text(), style='List Number')elif element.name == 'pre':# 处理代码块if element.code:code_text = element.code.get_text()p = doc.add_paragraph()p.add_run(code_text).font.name = 'Courier New'elif element.name == 'table':# 处理表格table = doc.add_table(rows=1, cols=len(element.find('tr').find_all(['th', 'td'])))hdr_cells = table.rows[0].cells# 添加表头for i, th in enumerate(element.find('tr').find_all('th')):hdr_cells[i].text = th.get_text()# 添加表格内容for row in element.find_all('tr')[1:]:row_cells = table.add_row().cellsfor i, td in enumerate(row.find_all('td')):row_cells[i].text = td.get_text()elif element.name == 'img':# 处理图片img_src = element.get('src')if img_src and os.path.exists(img_src):try:doc.add_picture(img_src, width=Inches(5.0))last_paragraph = doc.paragraphs[-1]last_paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.CENTERexcept Exception as e:print(f"警告：无法添加图片 '{img_src}': {e}")if __name__ == "__main__":convert_md_to_docx('E:\work\\tempProject\pythonProject\zhuan\\123.md')

Python实现markdown文件转word

1.markdown内容如下： 2.转换后的内容如下： 3.附上代码： import argparse import os from markdown import markdown from bs4 import BeautifulSoup from docx import Document from docx.shared import Inches from docx.enum.text import …...

编程日记 2026/2/2 4:12:31

NLP学习路线图（十七）：主题模型（LDA）

在浩瀚的文本海洋中航行，人类大脑天然具备发现主题的能力——翻阅几份报纸，我们迅速辨别出"政治"、"体育"、"科技"等板块；浏览社交媒体，我们下意识区分出美食分享、旅行见闻或科技测评。但机器如何…...

编程日记 2026/2/2 1:12:30

深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（2）

前言《深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（1）》里面我只是提到了对conv1层进行剪枝，只是为了验证这个剪枝的整个过程，但是后面也有提到：仅裁剪 conv1层的影响极大，原因如…...

编程日记 2025/11/9 6:07:42

综采工作面电控4X型铜头连接器 conm/4x100s

综采工作面作为现代化煤矿生产的核心区域，其设备运行的稳定性和安全性直接关系到整个矿井的生产效率。在综采工作面的电气控制系统中，电控连接器扮演着至关重要的角色，而4X型铜头连接器CONM/4X100S作为其中的关键部件，其性能优劣直…...

编程日记 2026/2/2 4:13:10

用ApiFox MCP一键生成接口文档，做接口测试

日常开发过程中，尤其是针对长期维护的老旧项目，许多开发者都会遇到一系列相同的困扰：由于项目早期缺乏严格的开发规范和接口管理策略，导致接口文档缺失，甚至连基本的接口说明都难以找到。此外，由于缺乏规范…...

编程日记 2026/2/2 4:04:20

在compose中的Canvas用kotlin显示多数据波形闪烁的问题

在compose中的Canvas显示多数据波形闪烁的问题：当在Canvas多组记录波形数组时，从第一组开始记录多次显示，如图，当再次回到第一次记录位置再显示时，波形出现闪烁。原码如下： data class DcWaveForm(var b…...

编程日记 2026/2/2 1:03:18

【学习笔记】MIME

文章目录 1. 引言2. MIME 构成Content-Type（内容类型）Content-Transfer-Encoding（传输编码）Multipart（多部分） 3. 常见 MIME 类型 1. 引言早期的电子邮件只能发送 ASCII 文本，无法直接传输二进…...

编程日记 2026/2/2 4:44:41

【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析

1. 元器件定义与核心特性 OPA855QDSGRQ1 是德州仪器（TI）推出的一款汽车级高速运算放大器，专为宽带跨阻放大（TIA）和电压放大应用优化。核心特性包括： 超高速性能：增益带宽积（GBWP&a…...

编程日记 2025/9/25 19:44:30

单北斗定位芯片AT9880B

AT9880B 是面向北斗卫星导航系统的单模接收机单芯片（SOC），内部集成射频前端、数字基带处理单元、北斗多频信号处理引擎及电源管理模块，支持北斗二号与三号系统的 B1I、B1C、B2I、B3I、B2a、B2b 频点信号接收。主要特征支持北斗二…...

编程日记 2026/2/3 18:47:23

旅游微信小程序制作指南

想创建旅游微信小程序吗？知道旅游业企业怎么打造自己的小程序吗？这里有零基础小白也能学会的教程，教你快速制作旅游类微信小程序！ 旅游行业能不能开发微信小程序呢？答案是肯定的。微信小程序对旅游企业来说可是个宝&am…...

编程日记 2026/2/1 21:33:01

Ubuntu ifconfig 查不到ens33网卡

BUG：ifconfig查看网络配置信息： 终端输入以下命令： sudo service network-manager stop sudo rm /var/lib/NetworkManager/NetworkManager.state sudo service network-manager start - service network - manager stop ：停止…...

编程日记 2026/2/3 5:18:23

zookeeper 学习

Zookeeper 简介 github：https://github.com/apache/zookeeper 官网：https://zookeeper.apache.org/ 什么是 Zookeeper Zookeeper 是一个开源的分布式协调服务，用于管理分布式应用程序的配置、命名服务、分布式同步和组服务。其核心是通过…...

编程日记 2025/11/23 2:02:42

【python深度学习】Day 45 Tensorboard使用介绍

知识点： tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战：MLP和CNN模型效果展示如下，很适合拿去组会汇报撑页数： 作业：对resnet18在cifar10上采用微调策略下，用tensorboard监…...

编程日记 2026/2/4 4:49:18

【图像处理入门】5. 形态学处理：腐蚀、膨胀与图像的形状雕琢

摘要形态学处理是基于图像形状特征的处理技术，在图像分析中扮演着关键角色。本文将深入讲解腐蚀、膨胀、开闭运算等形态学操作的原理，结合OpenCV代码展示其在去除噪声、提取边缘、分割图像等场景的应用，带你掌握通过结构元素雕琢图像形状的核心技巧。一、形态学处理：基…...

编程日记 2026/2/6 14:08:58

并行智算MaaS云平台：打造你的专属AI助手，开启智能生活新纪元

目录引言：AI助手，未来生活的必备伙伴并行智算云：大模型API的卓越平台实战指南：调用并行智算云API打造个人AI助手 3.1 准备工作 3.2 API调用示例 3.3 本地智能AI系统搭建 3.4 高级功能实现并行智算云的优势 4.1 性能卓越…...

编程日记 2026/2/4 17:47:02

在 SpringBoot+Tomcat 环境中线程安全问题的根本原因以及哪些变量会存在线程安全的问题。

文章目录前言Tomcat SpringBoot单例加载结果分析多例加载：结果分析： 哪些变量存在线程安全的问题？线程不安全线程安全总结前言本文带你去深入理解为什么在web环境中(Tomcat SpringBoot)会存在多线程的问题以及哪些变量会存在线程安全的…...

编程日记 2025/12/14 8:15:36

Day45 Python打卡训练营

知识点回顾： 1. tensorboard的发展历史和原理 2. tensorboard的常见操作 3. tensorboard在cifar上的实战：MLP和CNN模型一、tensorboard的基本操作 1.1 发展历史 TensorBoard 是 TensorFlow 生态中的官方可视化工具（也可无缝集成 PyTorch&…...

编程日记 2026/2/3 5:52:47

2025年目前最新版本Android Studio自定义xml预览的屏幕分辨率

一、前言在实际开发项目当中，我们的设备的分辨率可能会比较特殊，AS并没有自带这种屏幕分辨率的设备，但是我们又想一边编写XML界面，一边实时看到较为真实的预览效果，该怎么办呢？在早期的AS版本中&#xff…...

编程日记 2026/2/4 6:58:17

黑马Java面试笔记之并发编程篇（线程池+使用场景）

一. 线程池的核心参数（线程池的执行原理） 线程池核心参数主要参考ThreadPoolExecutor这个类的7个参数的构造函数 corePoolSize 核心线程数目 maximumPoolSize 最大线程数目 (核心线程救急线程的最大数目) keepAliveTime 生存时间 - 救急线程的生存时…...

编程日记 2026/2/5 22:56:44

float和float32有什么区别

这是一个非常重要但容易混淆的问题。我们来一步一步讲清楚： ✅ 简答：float 和 float32 的区别项目float（通用名称）float32（精确定义）含义通常指“浮点数”，具体精度由语言/平台决定明确指 32 …...

编程日记 2025/10/16 9:51:41

【AI学习】KV-cache和page attention

目录带着问题学AI KV-cache KV-cache是什么？ 之前每个token生成的K V矩阵给缓存起来有什么用？ 为啥缓存K、V,没有缓存Q? KV-cache为啥在训练阶段不需要，只在推理阶段需要？ KV cache的过程图解阶段一：KV cac…...

编程日记 2026/2/4 7:17:02

七彩喜智慧养老平台：科技赋能下的市场蓝海，满足多样化养老服务需求

在人口老龄化加速与科技快速发展的双重驱动下，七彩喜智慧养老平台正成为破解养老服务供需矛盾、激活银发经济的核心引擎。这一领域依托物联网、人工智能、大数据等技术，构建起覆盖居家、社区、机构的多层次服务体系。既满足老年人多样化需求&#xf…...

编程日记 2026/2/4 7:04:08

《Pytorch深度学习实践》ch8-多分类

------B站《刘二大人》 1.Softmax Layer 在多分类问题中，输出的是每类的概率： 计算公式：保证了每类概率大于 0 ，又由保证了概率之和为 1； 举例如下： 2.Cross Entropy 计算损失： y np.array…...

编程日记 2026/2/3 7:25:51

国产录播一体机：科技赋能智慧教育信息化

在数字化时代，教育正经历着前所未有的变革。国产工控机作为信息化教育的核心载体，正在重新定义学习方式，赋能教师与学生，打造高效、互动、智能的教学环境，让我们一起感受科技与教育的深度融合！高能计算机推…...

编程日记 2026/2/3 7:50:29

关于逻辑回归的见解

逻辑回归通过将线性回归的输出映射到 [ 0 , 1 ] \left[0,1\right] [0,1]区间，来表示某个类别的概率。也就是其本质是先通过线性回归的预测值 y \boldsymbol{y} y输入到映射函数，既将线性回归的输出通过映射函数映射到 [ 0 , 1 ] \left[0,1\right] [0,1].常用的映射函数是sigm…...

编程日记 2026/2/3 7:29:44

Amazon Augmented AI：人类智慧与AI协作，破解机器学习审核难题

在人工智能日益渗透业务核心的今天，你是否遭遇过这样的困境：自动化AI处理海量数据时，面对模糊、复杂或高风险的场景频频“卡壳”？人工审核团队则被低效、重复的任务压得喘不过气？Amazon Augmented AI (A2I) 的诞生&…...

编程日记 2026/2/3 7:29:14

CMake入门：3、变量操作 set 和 list

在 CMake 中，set 和 list 是两个核心命令，用于变量管理和列表操作。理解它们的用法对于编写高效的 CMakeLists.txt 文件至关重要。下面详细介绍这两个命令的功能和常见用法： 一、set 命令：变量定义与赋值 set 命令用于创建、修改…...

编程日记 2025/7/22 14:16:12

聊聊FlaUI：让Windows UI自动化测试优雅起飞！

你还在为手动点点点测试Windows应用而感到膝盖疼？更愁于自动化测试工具价格贵得让钱包瑟瑟发抖？今天，我要给你安利一款“野路子有余，正经事儿也能干”的.NET UI自动化神器——FlaUI！别眨眼，看完你能少加三个…...

编程日记 2025/11/2 22:25:45

VIN码车辆识别码解析接口如何用C#进行调用？

一、什么是VIN码车辆识别码解析接口输入17位vin码，获取到车辆的品牌、型号、出厂日期、发动机类型、驱动类型、车型、年份等信息。无论是汽车电商平台、二手车商、维修厂，还是保险公司、金融机构，都能通过接入该API实现信息自动化、决策智能…...

编程日记 2026/2/3 6:46:47

[论文阅读] 人工智能 | 用大语言模型解决软件元数据“身份谜题”：科研软件的“认脸”新方案

用大语言模型解决软件元数据“身份谜题”：科研软件的“认脸”新方案论文信息作者: Eva Martn del Pico, Josep Llus Gelp, Salvador Capella-Gutirrez 标题: Identity resolution of software metadata using Large Language Models 年份: 2025 来源: arX…...

编程日记 2025/11/18 10:32:25

相关文章：