当前位置: 首页 > news >正文

【python爬虫】批量识别pdf中的英文,自动翻译成中文下

不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。之前的文章提供了批量识别pdf中英文的方法,详见【python爬虫】批量识别pdf中的英文,自动翻译成中文上,本文实现自动pdf英文转中文文档。

文章目录

    • 一、导入库
    • 二、模拟登录百度翻译
    • 三、翻译英文
    • 四、把翻译语句定义成函数
    • 五、把翻译后的内容输出到txt文档中

  

一、导入库

  
首先导入需要用到的库,如果有部分库还没安装,可以采用pip install的方法进行安装。具体导入库的代码如下:

import os 
import json
import time
import random
import pandas as pd
from captcha import * 
from datetime import da

相关文章:

【python爬虫】批量识别pdf中的英文,自动翻译成中文下

不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。之前的文章提供了批量识别pdf中英文的方法,详见【…...

YApi 新版如何查看 http 请求数据

YApi 新版如何查看 http 请求数据 因chrome 安全策略限制,在 cross-request 升级到 3.0 后, 不再支持文件上传功能,并且需要通过以下方法查看 network:1.首先在chrome 输入 > chrome://extensions打开扩展页2.开启开发者模式3.点击 cross…...

自动驾驶(apollo)

💓博主csdn个人主页:小小unicorn 🚚代码仓库:小小unicorn的代码仓库🚚 🌹🌹🌹关注我带你学习编程知识 自动驾驶技术 引言自动驾驶的基本原理自动驾驶的技术挑战自动驾驶的潜在影响结…...

web3.0涉及的技术

非同质化代币 非同质化代币(Non-Fungible Tokens,NFTs)是一种数字资产,与传统的加密货币(如比特币或以太币)不同,它们具有独特性和不可替代性。NFTs 是基于区块链技术的数字资产,用…...

26. 不相同的字符串(第一期模拟笔试)

题目:样例: 输入 1 abab 输出 2 思路: 这里的题目要求我们要最少操作删除次数,我们可以先统计每个字符个数,然后开始删除,每操作删除一次,就会产生一个新字符,ans r[i] >> 1…...

Rethink LSTMGRU

LSTM 设计思想 姑且不看偏置。 W W W 和 U U U 是加权的矩阵,写模型的时候用 nn.Linear(in_dim, out_dim) 就成; σ \sigma σ 是 Sigmoid 函数 第一条,遗忘门,定义为 有多少内容需要被遗忘;第二条:输入门…...

状态管理艺术——借助Spring StateMachine驭服复杂应用逻辑

文章目录 1. 什么是状态2. 有限状态机概述3. Spring StateMachine4. Spring StateMachine 入门小案例4.1 接口测试 5. 总结 1. 什么是状态 在开发中,无时无刻离不开状态的一个概念,任何一条数据都有属于它的状态。 比如一个电商平台,一个订…...

获取和设置小程序和h5的页面栈

获取页面栈: 语法: let pages getCurrentPages(); 设置页面栈: 小程序语法: pages.data H5语法: pages let pages getCurrentPages(); let page pages[pages.length - 2]; if(page.route "pages/conf…...

Mysql基于成本选择索引

本篇文章介绍mysql基于成本选择索引的行为,解释为什么有时候明明可以走索引,但mysql却没有走索引的原因 mysql索引失效的场景大致有几种 不符合最左前缀原则在索引列上使用函数或隐式类型转换使用like查询,如 %xxx回表代价太大索引列区分度过…...

Element-ui container常见布局

1、header\main布局 <template> <div> <el-container> <el-header>Header</el-header> <el-main>Main</el-main> </el-container> </div> </template> <style> .el-header { …...

ssm实现折线统计图

​ 方法1&#xff1a;单张数据表中的数据图表生成 图表统计&#xff0c;查看部门人数统计这里实现的时单张表中的数据实现部门人数折线统计图展示。 <script type"text/javascript">// 利用AjAx来获取后台传入的数据&#xff08;Responsebody注解传入的&…...

GLSL ES着色器 精度限定字

目录 前言 WebGL支持的三种精度 数据类型的默认精度 float类型没有默认精度 预处理指令 在GLSL ES中常用的三种预处理指令。 预定义的内置宏 前言 GLSL ES新引入了精度限定字&#xff0c;目的是帮助着色器程序提高运行效率&#xff0c;削减内存开支。顾名思义&#xf…...

webrtc的FULL ICE和Lite ICE

1、ICE的模式 分为FULL ICE和Lite ICE&#xff1a; FULL ICE:是双方都要进行连通性检查&#xff0c;完成的走一遍流程。 Lite ICE: 在FULL ICE和Lite ICE互通时&#xff0c;只需要FULL ICE一方进行连通性检查&#xff0c; Lite一方只需回应response消息。这种模式对于部署在公网…...

flink的几种常见的执行模式

背景 在运行flink时&#xff0c;我们经常会有几种不同的执行模式&#xff0c;比如在IDE中启动时&#xff0c;通过提交到YARN上&#xff0c;还有通过Kebernates启动时&#xff0c;本文就来记录一下这几种模式 flink的几种执行模式 flink嵌入式模式&#xff1a; 这是一种我们在…...

蓝桥杯备赛Day8——队列

大家好,我是牛哥带你学代码,本专栏详细介绍了蓝桥杯备赛的指南,特别适合迎战python组的小白选手。专栏以天作为单位,定期更新,将会一直更新,直到所有数据结构相关知识及高阶用法全部囊括,欢迎大家订阅本专栏! 队列也属于基础数据结构。 队列概念 队列是一种数据结构,…...

用滑动条做调色板---cv2.getTrackbarPos(),cv2.creatTrackbar()

滑动轨迹栏作调色板 cv.createTrackbar(‘R’, ‘image’, 0, 255, nothing) 参数&#xff1a;哪个滑动轨迹栏&#xff0c;哪个窗口&#xff0c;最小值&#xff0c;最大值&#xff0c;回调函数 cv.getTrackbarPos(‘R’, ‘image’) 参数&#xff1a;轨迹栏名&#xff0c;窗口…...

dubbo 服务注册使用了内网IP,而服务调用需要使用公网IP进行调用

一、问题描述&#xff1a; 使用dubbo时&#xff0c;提供者注册时显示服务地址ip为[内网IP:20880]&#xff0c;导致其他消费者在外部连接的情况下时&#xff0c;调用dubbo服务失败 二、解决办法 方法一、修改hosts文件 &#xff08;1&#xff09;. 先查询一下服务器的hostna…...

外传-Midjourney的局部重绘功能

今天在抄袭。。。啊不&#xff0c;借鉴 midjourney 官网教程的时候&#xff0c;发现多了一个 局部重绘的功能&#xff0c;意外发觉还不错&#xff0c;分享一下用法。 先给大家说一下&#xff0c;我这段时间都在学习 SD&#xff0c;局部重绘是基操&#xff0c;而 MJ 一直是次次…...

Spring Boot 中使用 Poi-tl 渲染数据并生成 Word 文档

本文 Demo 已收录到 demo-for-all-in-java 项目中&#xff0c;欢迎大家 star 支持&#xff01;后续将持续更新&#xff01; 前言 产品经理急冲冲地走了过来。「现在需要将按这些数据生成一个 Word 报告文档&#xff0c;你来安排下」 项目中有这么一个需求&#xff0c;需要将用户…...

Java基础(二十一)十点半游戏

十点半游戏 十点半是一种流行的纸牌游戏&#xff0c;可以说是一种变体的二十一点游戏。游戏的规则是&#xff0c;每个玩家根据所拿到的牌点数的总和来决定是否继续要牌。目标是尽量接近但不超过十点半的点数&#xff0c;超过十点半即为爆牌。如果两名玩家都未爆牌&#xff0c;…...

SpringBoot新手避坑:@Value(“${xxx}“)注入失败,除了配置文件还有这8个地方要检查

SpringBoot配置注入深度排查&#xff1a;当Value("${xxx}")失效时的8个关键检查点 刚接触SpringBoot的开发者往往会被其"约定优于配置"的理念所吸引&#xff0c;直到在控制台看到那个令人困惑的Could not resolve placeholder错误。这个看似简单的配置问题…...

基于MCP协议构建Azure DevOps智能助手:连接AI与开发运维的实践指南

1. 项目概述&#xff1a;一个连接开发与运维的智能“翻译官”如果你和我一样&#xff0c;长期在Azure DevOps的流水线、看板和代码仓库里打转&#xff0c;同时又对新兴的AI编程助手&#xff08;比如Claude、Cursor&#xff09;爱不释手&#xff0c;那你肯定遇到过这样的困境&am…...

基于MCP协议的AI工具调用服务器:omega-point-convergence-mcp实战指南

1. 项目概述与核心价值最近在折腾AI智能体开发&#xff0c;特别是想让它们能更“主动”地去获取和处理外部信息时&#xff0c;一个绕不开的话题就是工具调用。传统的API集成方式&#xff0c;每个新工具都得写一遍对接代码&#xff0c;调试起来繁琐不说&#xff0c;维护成本也高…...

HsMod终极指南:如何通过55项功能全面优化炉石传说游戏体验

HsMod终极指南&#xff1a;如何通过55项功能全面优化炉石传说游戏体验 【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是基于BepInEx框架开发的炉石传说模改插件&#xff0c;专为提升…...

英特尔IPEX-LLM:大模型在CPU与GPU上的高效推理部署指南

1. 项目概述&#xff1a;当大语言模型遇见英特尔硬件如果你最近在折腾大语言模型&#xff08;LLM&#xff09;的本地部署&#xff0c;特别是手头有一台搭载英特尔酷睿或至强处理器的机器&#xff0c;那么“intel/ipex-llm”这个项目很可能已经进入了你的视野。简单来说&#xf…...

Mochi语言解析:轻量级编程语言的设计原理与应用实践

1. 项目概述&#xff1a;一个为现代应用而生的轻量级编程语言最近在社区里看到不少朋友在讨论mochilang/mochi这个项目&#xff0c;作为一个对编程语言设计和运行时实现有浓厚兴趣的老码农&#xff0c;我立刻就被吸引住了。简单来说&#xff0c;Mochi 是一个新兴的、以轻量级和…...

GitHub仓库自动化同步工具xpull:原理、配置与实战应用

1. 项目概述&#xff1a;一个被低估的GitHub数据同步利器 如果你经常在GitHub上管理多个仓库&#xff0c;或者需要将某个仓库的特定分支、标签甚至整个提交历史同步到另一个仓库&#xff0c;那么你很可能经历过手动操作的繁琐。无论是为了备份、镜像、还是将上游的更新合并到自…...

AI Agent工作流引擎:从DAG编排到生产级应用实践

1. 项目概述&#xff1a;AI Agent工作流引擎的诞生与价值最近在GitHub上看到一个挺有意思的项目&#xff0c;叫“ai-agent-workflow”。光看名字&#xff0c;你可能觉得这又是一个关于AI智能体的框架&#xff0c;但仔细研究它的代码和设计理念&#xff0c;你会发现它瞄准的是一…...

基于词汇统计的个人技能量化管理系统:从理论到实践

1. 项目概述&#xff1a;当词汇统计遇上技能图谱最近在整理个人技能库时&#xff0c;我遇到了一个挺有意思的问题&#xff1a;如何用一种更科学、更直观的方式&#xff0c;来量化和管理自己那看似杂乱无章、不断增长的技能树&#xff1f;传统的简历列表或者简单的熟练度评级&am…...

嵌入式开发中的模拟信号处理:ADC、DAC与PWM核心原理与CircuitPython实战

1. 项目概述&#xff1a;从数字世界到物理世界的桥梁在嵌入式开发的世界里&#xff0c;我们写的代码最终是要和物理世界打交道的。物理世界是连续的、模拟的——光线强弱、温度高低、声音大小&#xff0c;这些都不是简单的“开”或“关”&#xff0c;而是平滑变化的连续量。而我…...