1分钟用DeepSeek编写一个PDF转Word软件
一、引言
如今,在线工具的普及让PDF转Word成为了一个常见需求,常见的pdf转word工具有收费的wps,免费的有pdfgear,见下文:
PDFgear:一款免费的PDF编辑、格式转化软件-CSDN博客
还有网上在线的免费pdf转word工具smallpdf, ilovepdf, 24pdf等。然而,大部分免费的在线转换工具都存在一些严重的隐私风险——文件往往需要上传至云端进行处理,这样操作极容易泄露敏感信息。
而且,许多在线平台都要求付费才能使用更高效的服务,如wps, 迅捷pdf等,这导致很多用户在无法快捷使用转换文件的服务。
为了避免上述问题,我决定利用Python开发一款本地化的PDF批量转换为Word的软件,不仅保证文件的隐私安全,还能提供完全免费、快捷、个性化的转换服务。
更重要的是,这个项目也有助于我巩固Python编程知识,深入运用DeepSeek模型提升编程能力。
二、软件的主要功能
这款PDF转word的主要功能包括:
1. 100%离线文档转换。有效地避免信息的泄露,同时也加快了文档的处理速度。
2. 支持批量PDF转Word:软件会自动扫描选择文件夹及其子文件夹(如果勾选了相关选项),并将其中的PDF文件转换为Word文档,可以节省用法大量的时间。
3. 文件夹选择与管理:用户可以选择输入和输出文件夹,支持自定义中英文路径。
4. 进度条显示:在转换过程中,软件会实时更新进度条,显示当前文件的转换进度以及整体的转换进度。
5. 自动打开目标文件夹:转换完成后,用户可以选择是否自动打开目标文件夹,查看转换结果,以便进一步操作。
三、设计过程
在设计这款应用时,我采用了Python的tkinter图形化界面和pdf2docx库来实现文件转换功能。具体如下图:

PDF转Word界面
用户界面:界面设计以简洁易用为主。通过tkinter的标签、文本框、按钮等控件,我实现了文件夹选择、设置选项、进度条显示等功能。
PDF转Word功能:因为有现成的pdf2docx的库,我采用了这个轮来进行PDF到Word格式的转换,再加上Python的批量处理功能,要以轻松满足我的文件转换需求。
多线程与进度更新:为避免界面卡顿,我使用了threading库来将文件转换操作放入独立线程,并利用queue进行线程间通信,实时更新进度条显示。
我们在设计时,借助了DeepSeek R1的深度思考模型。先上传软件图片,然后给出指令:

软件开发提示词
为了减少错误,我们在提示词加入了让deepseek进行自我运行代码,进行调试的功能,减少用户本地测试中产生的bug。
在其回复中,我们看到它针对我的提问题也进行了回答,尤其是在指定的Python环境下进行了测试。

DeepSeek自主调试功能
经过测试,代码运行无误,但是缺少进度条功能,可能是没有识别出来,或者漏掉了,于是通过追加提问:

这里我故意打错了一个汉字,但是DeepSeek还能正确地进行理解,同时很好地解决了进度条缺失的问题。就这样,我们通过两步,不到1分钟就可以把这个一个pdf转word工具制作出来。
在开发过程中,我为DeepSeek提供了完整的开发环境,DeepSeek通过对项目需求的分析,建议我添加更多的异常处理机制,特别是在文件路径不正确或者文件损坏的情况下的处理。最终,这些改进使得程序的稳定性和用户体验都得到了显著提升。
经过多次的调试和优化,软件终于成型,并可以稳定运行。用户只需选择文件夹并点击转换按钮,程序就会自动处理所有PDF文件,最终输出为Word格式。每一步的转换进度都会实时更新,确保用户能够清晰地了解当前状态。
四、代码展示
废话不多说,直接上软件的全部代码,同时提供了一些中文注释,供大家学习使用
import os
import tkinter as tk
from tkinter import ttk,filedialog, messagebox
from pdf2docx import Converter
import threading
import queueclass PDFToWordConverter:def __init__(self, master):self.master = mastermaster.title("PDF批量转Word")master.geometry("610x295")# 输入文件夹self.lbl_input = tk.Label(master, text="输入文件夹:")self.ent_input = tk.Entry(master, width=30)self.btn_input = tk.Button(master, text="选择", command=self.select_input)# 输出文件夹self.lbl_output = tk.Label(master, text="输出文件夹:")self.ent_output = tk.Entry(master, width=30)self.btn_output = tk.Button(master, text="选择", command=self.select_output)# 复选框self.var_subdir = tk.BooleanVar()self.var_open = tk.BooleanVar(value=True)self.chk_subdir = tk.Checkbutton(master, text="包含子文件夹", variable=self.var_subdir)self.chk_open = tk.Checkbutton(master, text="转换完成后打开目标文件夹", variable=self.var_open)# 转换按钮self.btn_convert = tk.Button(master, text="开始转换", command=self.start_conversion)# 布局self.lbl_input.grid(row=0, column=0, padx=10, pady=10, sticky=tk.W)self.ent_input.grid(row=0, column=1, padx=5, pady=10, sticky=tk.EW)self.btn_input.grid(row=0, column=2, padx=10, pady=10)self.lbl_output.grid(row=1, column=0, padx=10, pady=10, sticky=tk.W)self.ent_output.grid(row=1, column=1, padx=5, pady=10, sticky=tk.EW)self.btn_output.grid(row=1, column=2, padx=10, pady=10)self.chk_subdir.grid(row=2, column=1, padx=5, pady=5, sticky=tk.W)self.chk_open.grid(row=3, column=1, padx=5, pady=5, sticky=tk.W)self.btn_convert.grid(row=4, column=1, pady=10)# 新增进度组件self.progress_label = tk.Label(master, text="准备就绪")self.progress_bar = ttk.Progressbar(master, orient=tk.HORIZONTAL, mode='determinate')# 调整布局(新增两行)self.progress_label.grid(row=5, column=0, columnspan=3, padx=10, pady=5, sticky=tk.W)self.progress_bar.grid(row=6, column=0, columnspan=3, padx=10, pady=10, sticky=tk.EW)# 消息队列用于线程通信self.queue = queue.Queue()master.after(100, self.process_queue)# 配置列权重master.columnconfigure(1, weight=1)def select_input(self):path = filedialog.askdirectory()if path:self.ent_input.delete(0, tk.END)self.ent_input.insert(0, path)def select_output(self):path = filedialog.askdirectory()if path:self.ent_output.delete(0, tk.END)self.ent_output.insert(0, path)def start_conversion(self):# 重置进度条self.progress_bar['value'] = 0self.progress_label.config(text="正在扫描PDF文件...")input_dir = self.ent_input.get()output_dir = self.ent_output.get()if not input_dir or not output_dir:messagebox.showerror("错误", "请先选择输入和输出文件夹!")return# 禁用转换按钮self.btn_convert.config(state=tk.DISABLED)threading.Thread(target=self.convert_files, args=(input_dir, output_dir), daemon=True).start()def get_pdf_list(self, input_dir):pdf_list = []for root, dirs, files in os.walk(input_dir):if not self.var_subdir.get() and root != input_dir:continuefor file in files:if file.lower().endswith('.pdf'):pdf_list.append(os.path.join(root, file))return pdf_listdef convert_files(self, input_dir, output_dir):self.pdf_files = self.get_pdf_list(input_dir)try:total_files = len(self.pdf_files)for index, pdf_path in enumerate(self.pdf_files):# 更新当前文件进度self.queue.put(("file_progress", (index+1, total_files, pdf_path)))# 构建输出路径relative_path = os.path.relpath(os.path.dirname(pdf_path), input_dir) if self.var_subdir.get() else ""output_path = os.path.join(output_dir, relative_path)os.makedirs(output_path, exist_ok=True)# 转换文件docx_path = os.path.join(output_path, f"{os.path.splitext(os.path.basename(pdf_path))[0]}.docx")cv = Converter(pdf_path)cv.convert(docx_path, progress_callback=self.update_page_progress)cv.close()self.queue.put(("complete", None))except Exception as e:self.queue.put(("error", str(e)))def update_page_progress(self, current, total):# 页面级别进度(每文件0-100%)progress = (current / total) * 100 if total != 0 else 0self.queue.put(("page_progress", progress))def process_queue(self):try:while True:msg_type, data = self.queue.get_nowait()if msg_type == "file_progress":current, total, path = datafile_progress = (current / total) * 100self.progress_bar['value'] = file_progressself.progress_label.config(text=f"正在转换 {current}/{total}:{os.path.basename(path)}")elif msg_type == "page_progress":# 综合进度 = 文件进度 + 页面进度/总文件数current_file_progress = self.progress_bar['value']page_progress = data / len(self.pdf_files)self.progress_bar['value'] = current_file_progress + page_progresselif msg_type == "complete":messagebox.showinfo("完成", "转换完成!")if self.var_open.get():os.startfile(self.ent_output.get())self.btn_convert.config(state=tk.NORMAL)self.progress_label.config(text="转换完成")elif msg_type == "error":messagebox.showerror("错误", f"转换出错:{data}")self.btn_convert.config(state=tk.NORMAL)self.progress_label.config(text="转换出错")except queue.Empty:passfinally:self.master.after(100, self.process_queue)
if __name__ == "__main__":root = tk.Tk()app = PDFToWordConverter(root)root.mainloop()
五、注意事项与启示
文件路径问题:在处理文件时,一定要注意文件路径的正确性,尤其是在跨平台使用时,路径分隔符的差异可能会导致问题。
多线程同步:为了避免界面卡顿或响应不及时,使用线程来执行耗时任务是非常必要的。但在多线程操作中,确保线程间数据同步和UI更新是一个技术挑战。
与AI工具合作:DeepSeek的辅助对我来说至关重要。在未来的开发过程中,AI工具不仅能提升我的编程效率,还能为项目带来新的创意和解决方案。
通过这个项目,我利用DeepSeek R1模型,上传软件图片,给出提示词,让它很快地开发出来一个可以平稳运行的软件,通过与AI模型的持续会话,进一步修改和完善了软件,直至可以使用。
有了DeepSeek这样的模型,未来我们只需要想法,就可以让大模型帮我们找到解决办法,完成代码撰写任务,甚至还可以进行远程调试,最终为用户提供更加精确的代码,大大缩短了项目开发的时间,让我们体会到了大语言模型的强大。
相关文章:
1分钟用DeepSeek编写一个PDF转Word软件
一、引言 如今,在线工具的普及让PDF转Word成为了一个常见需求,常见的pdf转word工具有收费的wps,免费的有pdfgear,见下文: PDFgear:一款免费的PDF编辑、格式转化软件-CSDN博客 还有网上在线的免费pdf转word工具smallp…...
生成对抗网络(GAN)
生成对抗网络(GAN):生成对抗网络是一种深度学习模型,由 Ian Goodfellow 等人在 2014 年提出。GAN由生成器和判别器组成,生成器生成假数据,判别器区分真假数据。两者通过对抗训练不断提升,最终生成器能够生成…...
openlayers结合turf geojson面获取面积和中心点
在 OpenLayers 中绘制 GeoJSON 面要素并计算面积和中心点,可以结合 OpenLayers 的 ol/format/GeoJSON 模块将 GeoJSON 数据转换为 OpenLayers 的 Feature,然后使用 Turf.js 进行计算。示例代码如下 import Map from ol/Map; import View from ol/View; …...
【SRC实战】修改金币数量实现财富自由
01 — 漏洞证明 1、进入阅读奖励 2、此时金币数量0 3、来到新手福利处 4、观看广告获取奖励 5、由于int整型范围-2147483648~2147483647,避免溢出,此处修改请求包中coinNum参数为2147483640 6、返回查看金币数量变为2147483640 02 — 漏洞…...
地理数据可视化:飞线说明(笔记)
//主要代码 //黄色飞线s_data.push({type: lines,zlevel: 2,effect: {//线上的箭头效果show: true,period: 1.5,//控制点的流动速度,数越小流动的速度越快trailLength: 0.1,//动画的拖尾时长// color: #2ef358,color: #ffeb40,symbol: planePath,//控…...
2024最新版鸿蒙纯血原生应用开发教程文档丨学习ArkTS语言-基本语法
ArkTS是HarmonyOS的主要应用开发语言,在TypeScript基础上进行了扩展,保留了其基本风格,并通过增强静态检查和分析来提高程序的稳定性和性能。本教程将帮助开发者掌握ArkTS的核心功能、语法及最佳实践,以便高效地构建高性能移动应用…...
微信小程序-二维码绘制
wxml <view bindlongtap"saveQrcode"><!-- 二维码 --><view style"position: absolute;background-color: #FFFAEC;width: 100%;height: 100vh;"><canvas canvas-id"myQrcode" style"width: 200px; height: 200px;ba…...
轻量化网络设计|ShuffleNet:深度学习中的轻量化革命
一、引言 在深度学习中,卷积神经网络(Convolutional Neural Networks,CNN)无疑是大家最耳熟能详的算法之一。自诞生以来,CNN 在图像分类、目标检测、语义分割等众多计算机视觉任务中取得了令人瞩目的成就,…...
一天记20个忘10个之五:land
一天记20个忘10个之五:land land n.陆地,土地 v.着陆,降落 // la-拉、宽广 nd后缀 字面义:宽广的土地 陆地 landing n.着陆,降落lander n.登陆车,着陆者 派生: island岛,岛屿 //isle(n.用于…...
Python 类(创建和使用类)
面向对象编程 是最有效的软件编写方法之一。在面向对象编程中,你编写表示现实世界中的事物和情景的类,并基于这些类来创建对象。编写类时,你定义一大类对 象都有的通用行为。基于类创建对象 时,每个对象都自动具备这种通用行为&am…...
LeetCode 解题思路 3(Hot 100)
解题思路: 初始化指针: 左指针指向数组起始位置,右指针指向数组末尾。计算当前面积: 左右指针相遇前所围成的矩形面积。更新最大面积: 比较当前面积与已知最大面积。移动指针: 移动较高指针无法获得更…...
算法-二叉树篇11-左叶子之和
左叶子之和 力扣题目链接 题目描述 给定二叉树的根节点 root ,返回所有左叶子之和。 解题思路 层次遍历的时候,保留每层第一个节点并相加即可。 题解 class Solution { public:int sumOfLeftLeaves(TreeNode* root) {if(root NULL){return 0;}re…...
MaxKB上架至阿里云轻量应用服务器镜像市场
近日,MaxKB开源知识库问答系统已上架至阿里云轻量应用服务器镜像市场,目前是阿里云此类镜像市场中唯一推荐的AI应用镜像。 ▲图1 MaxKB已经上架至阿里云轻量应用服务器镜像市场 MaxKB是飞致云旗下开源项目,是一款基于大语言模型和RAG&…...
用户态和内核态是什么?
用户态(User Mode)和内核态(Kernel Mode)。这两个概念是理解操作系统工作原理的基础。 1. 什么是用户态和内核态? 1.1 用户态(User Mode) 用户态是操作系统为普通应用程序提供的运行模式。在这…...
2025年SCI一区智能优化算法:混沌进化优化算法(Chaotic Evolution Optimization, CEO),提供MATLAB代码
一、混沌进化优化算法 https://github.com/ITyuanshou/MATLABCode 1. 算法简介 混沌进化优化算法(Chaotic Evolution Optimization, CEO)是2025年提出的一种受混沌动力学启发的新型元启发式算法。该算法的主要灵感来源于二维离散忆阻映射的混沌进化过…...
普中单片机-51TFT-LCD显示屏(1.8寸 STM32)
普中官方论坛: http://www.prechin.cn/gongsixinwen/208.html 普中科技-各型号开发板资料链接:https://www.bilibili.com/read/cv23681775/?spm_id_from333.999.0.0 27-TFTLCD显示实验_哔哩哔哩_bilibili 2.程序烧录 2.1设置彩屏驱动 3.实验效果...
SGMII(Serial Gigabit Media Independent Interface)详解
一、SGMII的定义与作用 SGMII(串行千兆介质无关接口)是一种用于千兆以太网(1Gbps)的串行接口标准,旨在通过减少引脚数量和简化设计,实现MAC层与PHY芯片之间的高速通信。其核心作用包括: 引脚精…...
DeepSeek:我的AI助手之旅
★【前言】: 初次使用AI助手帮我写作,就像摸石头过河一样,一点点的前行。我在慢慢的摸索,慢慢的体会中,感悟出的一点个人心得体会现分享给大家。这也说明一个问题,网站上各种使用方法和技巧是对于已经使用过的人来说的方便和快捷,但对于刚刚接触的使用者来说,网上的各…...
图片批量去重---(均值哈希、插值哈希、感知哈希、三/单通道直方图)
一、整体步骤 本脚本中,关键步骤包括以下步骤: 1、图片加载: 脚本会遍历指定的图片目录,将所有图片加载到内存中。 2、图像预处理: 比较之前,通常需要对图片进行预处理,如调整大小、灰度化或直方…...
Linux:(3)
一:Linux和Linux互传(压缩包) scp:Linux scp 命令用于 Linux 之间复制文件和目录。 scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。 scp 是加密的,rcp 是不加密的,scp 是…...
多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度
一、引言:多云环境的技术复杂性本质 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时,基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套:跨云网络构建数据…...
UDP(Echoserver)
网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...
Robots.txt 文件
什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
Python 训练营打卡 Day 47
注意力热力图可视化 在day 46代码的基础上,对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...
MySQL的pymysql操作
本章是MySQL的最后一章,MySQL到此完结,下一站Hadoop!!! 这章很简单,完整代码在最后,详细讲解之前python课程里面也有,感兴趣的可以往前找一下 一、查询操作 我们需要打开pycharm …...
Tauri2学习笔记
教程地址:https://www.bilibili.com/video/BV1Ca411N7mF?spm_id_from333.788.player.switch&vd_source707ec8983cc32e6e065d5496a7f79ee6 官方指引:https://tauri.app/zh-cn/start/ 目前Tauri2的教程视频不多,我按照Tauri1的教程来学习&…...
「Java基本语法」变量的使用
变量定义 变量是程序中存储数据的容器,用于保存可变的数据值。在Java中,变量必须先声明后使用,声明时需指定变量的数据类型和变量名。 语法 数据类型 变量名 [ 初始值]; 示例:声明与初始化 public class VariableDemo {publi…...
【阅读笔记】MemOS: 大语言模型内存增强生成操作系统
核心速览 研究背景 研究问题:这篇文章要解决的问题是当前大型语言模型(LLMs)在处理内存方面的局限性。LLMs虽然在语言感知和生成方面表现出色,但缺乏统一的、结构化的内存架构。现有的方法如检索增强生成(RA…...
【题解-洛谷】P10480 可达性统计
题目:P10480 可达性统计 题目描述 给定一张 N N N 个点 M M M 条边的有向无环图,分别统计从每个点出发能够到达的点的数量。 输入格式 第一行两个整数 N , M N,M N,M,接下来 M M M 行每行两个整数 x , y x,y x,y,表示从 …...
