分享一下办公自动化常用的思想
目录
- 网页获取数据需求①
- 大体思路:Python+selenium+Xpath
- 网页获取数据需求②
- 大体思路:requests爬虫
- 批量生成需求
- ①文件的移动、重命名
- ②word、Excel批量生成
- 匹配需求
网页获取数据需求①
大体思路:Python+selenium+Xpath
我们在利用Python做办公自动化,从网页中获取数据时,其实理应想到的时爬虫技术,但是有时候很多网页数据都是加密的,尤其是我们公司的数据,所以当你想利用爬虫进行数据获取时,这是一个很好的想法,但是无奈数据加密,这时候我们就会另辟蹊径,直接从加载出来的网页中,通过Xpath直接定位元素获取数据,大体逻辑如下:
①利用以下代码,开启一个指定端口号的谷歌浏览器进程(Python3.8以上):
chrome_options = Options()
chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
chrome_driver = './chromedriver.exe'
service = Service(chrome_driver)
driver = webdriver.Chrome(service=service, options=chrome_options)
利用以下代码,开启一个指定端口号的谷歌浏览器进程(Python3.8以下):
注意:C:\Program Files (x86)\Google\Chrome\Application,这一行这指的是自己电脑谷歌浏览器可执行程序的位置,请按照不同的电脑进行灵活变动
cd C:\Program Files (x86)\Google\Chrome\Application & chrome.exe --remote-debugging-port=9222 --user-data-dir="D:\selenum\AutomationProfile"
②接下来就是利用Xpath定位指定元素进行如:点击、文本获取等操作
参考案例:点我进入案例
网页获取数据需求②
大体思路:requests爬虫
如果数据没有加密参数,我们直接可以利用爬虫进行获取数据,模板我也给你写好了,你只需要更改一下自己网址以及携带的参数即可
import json
import time
import requestsurl = '网址'
params = {"参数键": '值',"参数键": '值',"参数键": '值',
}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}res_data = requests.get(url=url,params=params,headers=headers)
res_data.encoding= "utf-8"
data = res_data.text
'''
对获取的数据进行进一步分析
'''
参考案例1:点我进入案例1
参考案例2:点我进入案例2
参考案例3:点我进入案例3
批量生成需求
①文件的移动、重命名
我常用的时os模块
参考案例1(多文件夹内文件移动):点我进入案例1
参考案例2(单个夹内文件移动):点我进入案例2
参考案例3(批量修改图片后缀):点我进入案例3
②word、Excel批量生成
我常用的模块时 python-docx,openpyxl,以下时非常典型的两个例子:
参考案例1(将Word文件中的内容写入Excel文件):点我进入案例1
参考案例2(将Excel文件内容写入Word文件):点我进入案例2
匹配需求
匹配需求的逻辑其实就两条,这两条可以涵盖Excel表之间:一对多、多对一、多对多的匹配需求,我们假设不论是一对多、多对一、多对多,我们统称 A 数据 匹配 B数据
① 将B数据制作成json文件
②加载json数据为字典,读取数据A数据进行匹配
典型案例1(多表之间互匹):点我进入案例2
案例中的第二段代码,可改为以下代码,这样就无需将json合并,因为读取的就是合并的
import csv
import os
from collections import defaultdict
def write_json():list_a = [] # 列表用来存放 (A列,B列) 的元组,所有的数据d = defaultdict(list) # 创建字典for f in os.listdir("./csv版/"):with open("./csv版/" + f, newline='', encoding='utf-8') as csvfile:# 读取 CSV 文件内容reader = csv.reader(csvfile, delimiter=',', quotechar='"')# 遍历 CSV 文件中的每一行数据print(f, "加载完毕")for d in reader:# 处理每一行数据# print(d)list_a.append((d[0], d[0])) # 这个就不翻译了吧,添加数据for key, value in list_a:d[key].append(value) # 省去了if判断语句,添加字典with open(f"./json文件/data.json", "w", encoding="utf-8") as f2:f2.write(json.dumps(d, ensure_ascii=False)) # 写入json,防止乱码write_json()
今天分享的大致就是我在日常办公过程中常见的一些需求的解决方案
希望对你有所帮助
希望大家点赞收藏支持一下
最后祝大家 1024 快乐
相关文章:
分享一下办公自动化常用的思想
目录 网页获取数据需求①大体思路:PythonseleniumXpath 网页获取数据需求②大体思路:requests爬虫 批量生成需求①文件的移动、重命名②word、Excel批量生成 匹配需求 网页获取数据需求① 大体思路:PythonseleniumXpath 我们在利用Python做…...
mac vscode 使用 clangd
C 的智能提示 IntelliSense 非常不准,我们可以使用 clangd clangd 缺点就是配置繁琐,优点就是跳转和提示代码精准 开启 clangd 之后会提示你关闭 IntelliSense 1、安装插件 clangd 搜索第一个下载多的就是 2、配置 clangd 可执行程序路径 clangd 插…...
DSI及DPHY的学习
DSI的物理层PHY只能是DPHY 本节讲述的DSI是V1.02.00---2010.6.28 从DSI V1.02开始DSI支持图像数据包RGB和YCbCr的传输,在此版本之前只支持RGB传输。 本节内容与CSICDPHY相同时 请参考: CSI2与CDPHY学习-CSDN博客 同时本节会做一些与CSICDPHY的比较 …...
环形链表(C++解法)
题目 给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置&#…...
星闪技术 NearLink 一种专门用于短距离数据传输的新型无线通信技术
本心、输入输出、结果 文章目录 星闪技术 NearLink 一种专门用于短距离数据传输的新型无线通信技术前言星闪技术 NearLink 的诞生背景星闪技术 NearLink 简介星闪技术 NearLink 技术是一种蓝牙技术吗星闪技术 NearLink 优势星闪技术 NearLink 应用前景弘扬爱国精神星闪技术 Nea…...
【Python机器学习】零基础掌握RandomForestRegressor集成学习
如何预测房价是不是一直困扰着大家?特别是在房地产市场波动不定的情况下,这样的预测可以说是切实需要。 要解决这个问题,一个可行的方法是利用历史房价数据和房屋的各种属性(如面积、楼层、地理位置等)进行分析。通过这些数据,可以用一个模型来预测未来房价。 假设有以…...
FreeRTOS深入教程(任务创建的深入和任务调度机制分析)
文章目录 前言一、深入理解任务的创建二、任务的调度机制1.FreeRTOS中任务调度的策略2.FreeRTOS任务调度策略实现的核心3.FreeRTOS内部链表源码解析4.如何通过就绪链表管理任务的执行顺序 三、一个任务能够运行多久1.高优先级任务可抢占低优先级任务一直运行2.相同优先级的任务…...
Megatron-LM GPT 源码分析(一) Tensor Parallel分析
引言 本文基于开源代码 GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale ,通过GPT的模型运行示例,从三个维度 - 模型结构、代码运行、代码逻辑说明 对其源码做深入的分析。 Tensor Parallel源码分析...
分类预测 | MATLAB实现SSA-CNN-GRU麻雀算法优化卷积门控循环单元数据分类预测
分类预测 | MATLAB实现SSA-CNN-GRU麻雀算法优化卷积门控循环单元数据分类预测 目录 分类预测 | MATLAB实现SSA-CNN-GRU麻雀算法优化卷积门控循环单元数据分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.MATLAB实现SSA-CNN-GRU麻雀算法优化卷积门控循环单元数据…...
婚礼的魅力
昨日有幸被邀请去当伴郎,虽然是替补,即别人鸽了,过去救急,但总归是去起作用。 婚礼的魅力,感受到了,满满的仪式感,紧凑的流程,还有不断的拍照,做视频,留下美好…...
【计算机网络笔记】DNS报文格式
DNS 提供域名到主机IP地址的映射 域名服务的三大要素: 域(Domain)和域名(Domain name): 域指由地 理位置或业务类型而联系在一起的一组计算机构 成。 主机:由域名来标识。域名是由字符和(或&a…...
10月28日
...
【性能测试】初识 Jmeter 中的 BeanShell
初识 Jmeter 中的 BeanShell 1.简介1.1 应用场景1.2 BeanShell 类型 2.常用内置变量2.1 log 日志模块2.2 vars 模块2.3 props 模块2.4 prev 模块 3.常见应用场景3.1 Java 文件处理3.2 导入外部 jar 包 BeanShell 是一个小型嵌入式 Java 源代码解释器,完全兼容 Java …...
Rust实现基于Tokio的限制内存占用的channel
Rust实现基于Tokio的限制内存占用的channel 简介 本文介绍如何基于tokio的channel实现一个限制内存占用的channel。 Tokio提供了多种协程间同步的接口,用于在不同的协程中同步数据。 常用的channel有两种:bounded和unbounded,其中ubbounded的channel可…...
【C++】C++入门(上)--命名空间 输入输出 缺省参数 函数重载
目录 一 命名空间 1 命名空间的定义 2 命名空间的使用 二 C输入和输出 1 输出 2 输入 三 缺省参数 1 缺省参数概念 2 缺省参数分类 (1) 全缺省参数 (2)半缺省参数 四 函数重载 1 函数重载概念 2 分类 1 参数类型不同 2 参数个数不同 3 参数类型顺序不同 3 C为什…...
设计模式:原型模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)
上一篇《访问者模式》 下一篇《享元模式》 简介: 原型模式,它是一种创建型设计模式,它允许通过复制原型对象来创建新的对象,而无需知道创建的细节。其工作原…...
SpringMVC 资源状态转移RESTful
文章目录 1、RESTful简介a>资源b>资源的表述c>状态转移 2、RESTful的实现HiddenHttpMethodFilterRESTful案例 1、RESTful简介 REST:Representational State Transfer,表现层资源状态转移。 a>资源 资源是一种看待服务器的方式,…...
verilog vscode linux
安装 vscode 插件 插件:Verilog-HDL/SystemVerilog/Bluespec SystemVerilog 功能:.xdc .ucf .v 等代码高亮、代码格式化、语法检查(Linting)、光标放到变量上提示变量的信息等 关于其他语言的依赖工具等信息查看插件说明 代码对齐…...
Postman日常操作
一.Postman介绍 1.1第一个简单的demo 路特斯(英国汽车品牌)_百度百科 (baidu.com) 1.2 cookie 用postman测试需要登录权限的接口时,会被拦截,解决办法就是每次请求接口前,先执行登录,然后记住cookie或者to…...
10月份程序员书单推荐
新书书单 1、C程序设计教程(第9版) 1.广受认可的《C程序设计教程》系列的第9版(个别版本也译作《C语言大学教程》),秉承了该系列一贯的丰富而详细的风格。该系列一些版本因封面画有蚂蚁形象而被称为“C语言蚂蚁书”。…...
GitHub Copilot 深入实战:从配置到效率翻倍
第一章:GitHub Copilot 入门 1.1 什么是 GitHub Copilot GitHub Copilot 是由 GitHub 与 OpenAI 合作开发的 AI 编程助手,于 2021 年 6 月正式发布。它基于 OpenAI 的 Codex 模型(GPT-4 的专门针对编程任务优化的版本)构建,能够在开发者编写代码时实时提供智能建议和自动…...
告别阻塞!Python asyncio子进程通信全攻略(含ls/echo等实例代码)
Python异步编程实战:asyncio子进程通信深度解析 在当今高并发的开发环境中,传统的同步子进程调用方式已经成为性能瓶颈的罪魁祸首。想象一下,当你的Python应用需要同时处理数十个外部命令调用时,那些无谓的等待时间会让整个系统的…...
别再只会用OpenCV了!用GStreamer在树莓派上搭建一个低延迟的CSI摄像头监控系统(附Python代码)
树莓派CSI摄像头低延迟方案:GStreamer实战指南 在嵌入式视觉项目中,树莓派搭配CSI摄像头是经典组合,但许多开发者发现OpenCV的VideoCapture接口在实时性上表现不佳——高延迟、CPU占用率飙升、帧率不稳定等问题频发。我曾在一个智能门铃项目中…...
TPA2016D2音频放大器Arduino驱动与AGC工程实践
1. 项目概述Adafruit TPA2016 Library 是一款专为 Texas Instruments TPA2016D2 音频功率放大器设计的 Arduino 兼容驱动库。该库封装了 IC 协议通信、寄存器配置、自动增益控制(AGC)参数调节及硬件复位管理等底层操作,使嵌入式开发者无需直接…...
【2026 CVPR】Asking like Socrates: Socrates helps VLMs understand remote sensing images
RS-EoT (Remote Sensing Evidence-of-Thought) 研究旨在解决视觉语言模型(VLM)在处理遥感图像时的“虚假推理”问题 。 文章目录 核心问题 核心思想 核心方法 A. 数据合成:SocraticAgent Data Statistics B. 训练策略:两阶段渐进式强化学习 (RL) C. 训练策略 实验验证 主要…...
Lansium-Arduino:面向物联网终端的轻量级MQTT通信库
1. 项目概述 Lansium-Arduino 是一个面向嵌入式物联网终端的轻量级通信库,专为 Arduino 生态(含 ESP32、ESP8266、Arduino Uno Ethernet/WiFi 扩展板等平台)设计,用于实现设备与 Lansium Server 的可靠双向连接。其核心通信协议…...
智慧校园厂家怎么选?看懂这 5 个核心功能再决定不迟
✅作者简介:合肥自友科技 📌核心产品:智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…...
保姆级教程:用SNAP处理哨兵2号L1C数据,5分钟搞定大气校正生成L2A
零基础实战:SNAP快速处理哨兵2号L1C数据的完整指南 当第一次拿到哨兵2号L1C级数据时,很多研究者都会面临一个共同问题:如何高效地将原始数据转换为可直接用于分析的表面反射率产品?本文将手把手带你完成从数据准备到大气校正的全流…...
# 发散创新:基于Python与Stable Diffusion的AI绘画自动化流程设计与实践
发散创新:基于Python与Stable Diffusion的AI绘画自动化流程设计与实践 在人工智能技术飞速发展的今天,AI绘画已从实验室走向大众创作场景。如何将这一前沿能力融入开发者工作流?本文以 Python Stable Diffusion API(如InvokeAI或…...
抖音视频批量下载工具全攻略:从效率提升到合规应用
抖音视频批量下载工具全攻略:从效率提升到合规应用 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support.…...
