当前位置: 首页 > news >正文

开源一套Trados Sdlxliff 对比工具

开源一套Trados Sdlxliff 对比工具

在Trados翻译过程中经常对需要进行版本控制和对比,例如对比不同设置下生成的sdlxliff文件,对比不同的机器翻译结果以及对比机器翻译和人工翻译,对比翻译和审校等等。

当然SDL官方也提供了对比工具
https://appstore.rws.com/Plugin/43?tab=releases
但官方的这种是基于TradosAPI的比较笨重,可定制化程度不高,因此还是单独又制作了一个sdlxliff对比工具:
https://github.com/Dark-20001/CompareSdlxliff/

这个和官方工具不同,官方使用Trados内置API来做因此2017,2019,2021,2022各个版本都不一样要下载对应的版本,所以此版本按照xliff文件标准来执行,独立运行,不依赖于Trados.

程序不是XML直接读取sdlxliff,因为sdlxliff会以base64编码形式讲小于25MB的文件编入sdlxliff这部分其实意义不大,所以我跳过这个部分。(sdlxliff这么多年也应该改进一下了,这种基于xml的文件结构经常出现问题,越来越多的软件企业使用zip格式二次封装文件,这样能够将不同独立的组件部分,嵌入部分进行分离,例如docx,xlsx)

string line1 = xlifflines.First();
List<string> base64lines = new List<string>();int s = line1.IndexOf(bmark);if (s != -1)
{string lineb = line1.Substring(s + 29);base64lines.Add(lineb);line1 = line1.Substring(0, s + 29);xlifflinesClean.Add(line1);int cc = 1;for (int i = 1; i < xlifflines.Count; i++){if (xlifflines[i].StartsWith(bmarkStop)){xlifflinesClean.Add(xlifflines[i]);cc = i;break;}else{base64lines.Add((string)xlifflines[i]);}}for (int i = cc+1; i < xlifflines.Count; i++){xlifflinesClean.Add(xlifflines[i]);}}

之后在进行xml解析

doc = XDocument.Parse(String.Join("\r\n", xlifflinesClean));
doc = XDocument.Parse(string.Join("\r\n",xlifflines));

解析之后就是常规操作,提取TranslationUnits和ID

IEnumerable<XElement> transunits = doc.Descendants(XName.Get("trans-unit", xnxliff));
string tuid = transunit.Attribute("id").Value;

由于文件是带有XML命名空间的,这里要提前声明,这样对比Xml.Linq确实方便

string xnsdl = "http://sdl.com/FileTypes/SdlXliff/1.0";
string xnxliff = "urn:oasis:names:tc:xliff:document:1.2";

开两个文件得到两组数据,类型如下

Dictionary<Guid, string> keyValuePairs = new Dictionary<Guid, string>();

然后进行比较,这里没有引入自定义类型,使用Dictionary,效率更高
匹配成功的分别存入paired1,paired2并且ID相同,匹配不上的存入unpaired
这样即使两文件差异较大也能存留记录

Dictionary<Guid, string> keyValuePairs1 = ReadSdlxliff(file1, mtOnly, isTarget);
Dictionary<Guid, string> keyValuePairs2 = ReadSdlxliff(file2, mtOnly, isTarget);Dictionary<Guid, string> paired1 = new Dictionary<Guid, string>();
Dictionary<Guid, string> paired2 = new Dictionary<Guid, string>();
Dictionary<Guid, string> unpaired = new Dictionary<Guid, string>();//match
foreach (KeyValuePair<Guid, string> unit1 in keyValuePairs1)
{IEnumerable<KeyValuePair<Guid,string>> selectedUnits = from unit in keyValuePairs2 where unit.Key == unit1.Key select unit;if (selectedUnits.Count() > 0){paired1.Add(unit1.Key, unit1.Value);paired2.Add(unit1.Key, selectedUnits.First().Value);}else{unpaired.Add(unit1.Key,unit1.Value);}
}

开始比较,使用了异地第三方开源的库,支持按字符和按单词的两种文本比较

public enum ComparisonType
{Words,Characters
}
foreach (KeyValuePair<Guid, string> unit1 in paired1)
{StringBuilder cb = new StringBuilder();List<string> list1 = new List<string>();List<string> list2 = new List<string>();list1.Add(unit1.Value);list2.Add(paired2[unit1.Key]);List<ComparisonTextUnit> comparisonTextUnits = comparer.GetComparisonTextUnits(list1, list2, comparisonType);foreach (ComparisonTextUnit u in comparisonTextUnits){switch (u.ComparisonTextUnitType){case ComparisonTextUnitType.Identical:cb.Append(u.Text);break;case ComparisonTextUnitType.Removed:cb.Append("<span class='removed'>");cb.Append(u.Text);cb.Append("</span>");changeRate.Removed += u.Text.Length;changeRate.RemovedCount++;break;case ComparisonTextUnitType.New:cb.Append("<span class='added'>");cb.Append(u.Text);cb.Append("</span>");changeRate.Added += u.Text.Length;changeRate.AddedCount++;break;default:break;}}}

剩下就是输出报告,并且在比较之前可以增加根据TranslationUnit属性,状态做一些筛选

最后项目地址:
https://github.com/Dark-20001/CompareSdlxliff

相关文章:

开源一套Trados Sdlxliff 对比工具

开源一套Trados Sdlxliff 对比工具 在Trados翻译过程中经常对需要进行版本控制和对比&#xff0c;例如对比不同设置下生成的sdlxliff文件&#xff0c;对比不同的机器翻译结果以及对比机器翻译和人工翻译&#xff0c;对比翻译和审校等等。 当然SDL官方也提供了对比工具 https:…...

百度网盘 url 正则表达式

匹配 https://pan.baidu.com/s/1NmVIJiI2Ot8MkI-vxxNPTg?pwdxxxx https://pan.baidu.com/s/[a-zA-Z0-9\-]*(\?pwd[a-zA-Z0-9]{4})?该正则表达式匹配以 https:// 开头&#xff0c;后面跟着 pan.baidu.com/s/ 或 yun.baidu.com/s/&#xff0c;最后跟着一串由大小写字母、数字…...

【stable diffusion】ComfyUI扩展安装以及”127.0.0.1拒绝了我们的连接请求“解决记录

目录 扩展安装”127.0.0.1拒绝了我们的连接请求“解决记录操作1操作2操作3操作4总结扩展安装 虽然大家都推荐将扩展包直接放到extension文件夹的方式,但我还是推荐直接在sd webui的扩展处下载,酱紫比较好维护一点,我个人感觉。 按照上图顺序点击会出现”URLError: <url…...

OceanBase 列存中多列过滤性能解析

今天有同事问我&#xff0c;列存大宽表场景下&#xff0c;如果在多个列上有等值过滤条件&#xff0c;OceanBase 的性能是不是无法满足要求&#xff1f; Hi 晓楚&#xff0c;帮评估个OTS替换场景 大概1亿大宽表&#xff0c;查询姿势就是任意字段的组合&#xff0c;进行等值查询g…...

嵌入式实验---实验二 中断功能实验

一、实验目的 1、掌握STM32F103中断程序设计流程&#xff1b; 2、熟悉STM32固件库的基本使用。 二、实验原理 1、在上一章的实验基础上&#xff0c;添加一个按键和一个LED&#xff1b; 2、使用中断的方式实现以下两个功能&#xff1a; &#xff08;1&#xff09;KEY1按键…...

在 Visual Studio 2022 (Visual C++ 17) 中使用 Visual Leak Detector

在 Visual C 2022 中使用 Visual Leak Detector 1 问题描述1.1 内存泄漏的困扰和解决之道1.2 内存泄漏检测工具的选择1.3 VLD的现状 2 安装和设置VLD的环境变量2.1 安装VLD文件2.2 VLD安装后的目录和文件说明2.2.1 include子目录说明2.2.2 lib子目录说明2.2.2.1 目录整理 2.2.3…...

基于IDEA的Maven(properties属性配置)

&#xff08;property &#xff1a;财产&#xff09;properties&#xff1a;它的复数。 同样也是基于上篇博客进行学习。&#xff08;具体的全部项目代码和结构可以去查看上篇...&#xff09; <properties><!--当前jdk版本 , 这一步可以完全省略--><maven.com…...

边缘计算(Edge Computing)_关键概念/优势/应用场景

边缘计算&#xff08;Edge Computing&#xff09;是一种计算范式&#xff0c;它将数据处理和分析从传统的集中式数据中心和云计算平台移至更接近数据生成源头的位置&#xff08;即“边缘”&#xff09;&#xff0c;例如物联网设备、传感器、路由器或其他边缘设备。边缘计算旨在…...

idea关联gitlab仓库,访问报错

1、登录方式 idea中集成了gitlab的最新版的插件后&#xff0c;登录强制使用token登录&#xff0c;不能使用账号密码登录。 2、版本问题报错 安装了插件后&#xff0c;如果本地部署的gitlab版本低&#xff0c;则直接导致gitlab生成的token也无法登录&#xff0c;操作会报错&am…...

【Hive】new HiveConf()时加载的配置浅析

简单看下源码&#xff1a; org.apache.hadoop.hive.conf.HiveConf HiveConf中有静态代码块&#xff0c;内容就是调用findConfigFile方法&#xff0c;尝试读取hive-default.xml&#xff0c;hive-site.xml&#xff0c;hivemetastore-site.xml&#xff0c;hiveserver2-site.xml。…...

Glide 缓存机制研究及同命名图片的替换回显

背景&#xff1a; 相册-图片后处理场景&#xff0c;需要先展示一张原图&#xff0c;同时后台对图片进行算法优化&#xff0c;完成优化之后无缝替换原图展示&#xff0c;同时保证后续都展示算法优化后的图片 图片加载采用 Glide 库实现 画重点&#xff1a; 相册场景&#xff…...

一键简易桌签(带背景)-Word插件-大珩助手

问题整理&#xff1a; 如何Word中设计简易桌签&#xff1f;如何设置带背景图的桌签&#xff1f; Word大珩助手是一款功能丰富的Office Word插件&#xff0c;旨在提高用户在处理文档时的效率。它具有多种实用的功能&#xff0c;能够帮助用户轻松修改、优化和管理Word文件&…...

如何解决centos停止维护后更换Debian11平替?

再有9天时间centos7.x就将停止维护,最近很多人已经再更换系统了!有推荐alibabacloud,opencloud,debian,ubuntu,centos-stream,tencentos,anolis,rockey,almal,oracle,arch,Fedora,opensuse 很多人不知道选什么,这里就主要介绍一下 如果你是使用宝塔面板 并且想要无缝衔…...

服务器雪崩的应对策略之----熔断机制

熔断机制&#xff08;Circuit Breaker&#xff09;是一种保护系统稳定性的重要手段。它的主要目的是防止系统在依赖的服务出现问题时&#xff0c;继续发送请求&#xff0c;从而保护系统免受进一步的影响。熔断机制通过监控请求的成功和失败率&#xff0c;在检测到故障率超过预设…...

RestClient操作索引库和文档

导入依赖&#xff1a; <dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId><version>7.12.1</version></dependency>导入依赖成功之后就可以开始我们的测…...

【设计模式深度剖析】【11】【行为型】【解释器模式】| 以算术表达式求值为例加深理解

&#x1f448;️上一篇:状态模式 设计模式-专栏&#x1f448;️ 文章目录 解释器模式定义英文原话直译 解释器模式中的角色1. 抽象表达式&#xff08;AbstractExpression&#xff09;2. 终端表达式&#xff08;TerminalExpression&#xff09;3. 非终端表达式&#xff08;Non…...

MySQL8,Navicat能登陆成功,密码却忘记了

执行成功的图&#xff1a; 以下为步骤&#xff1a;本文一共8个简单步骤。 环境&#xff1a;mysql8、window10、navicat11 1、打开本地电脑window10的命令窗&#xff08;俗称黑窗口&#xff09;&#xff0c;windowR 2、输入regegit&#xff0c;回车&#xff0c;打开注册表 3、…...

游戏中的寻路算法研究

1)Unity NavMesh研究 思考&#xff1a;毫无疑问&#xff0c;unity中自带的navmesh寻路是比较健全的&#xff0c;无奈在服务器中无法使用&#xff0c;这样子我们没办法做怪的导航&#xff0c;但是可以先体验下都有哪些api&#xff0c;并且可以可视化的看效果。 1)打开导航网格…...

【AWS SMB】关于AWS 中小型企业 (SMB) 能力介绍及注意事项

文章目录 前言一、什么是 SMB&#xff1f;&#x1f4e2;二、如何识别中小企业的需求三、中小企业营销活动的类型四、AWS 合作伙伴可获得的其他 AWS 机会4.1 AWS IQ4.2 APN 客户参与 (ACE) 计划 前言 AWS 中小型企业 &#xff08;SMB&#xff09; 能力合作伙伴专注于帮助中小型…...

中年之恋:重返青春的旅程

第一章&#xff1a;重逢 在一个普通的周末&#xff0c;李明参加了一次由老同学组织的聚会&#xff0c;尽管他对此并不抱有太大的兴趣&#xff0c;但出于礼貌还是选择了出席。聚会在一家风格复古的咖啡馆里举行&#xff0c;暖黄色的灯光与木质的装饰让人不自觉地放缓了脚步。在…...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子&#xff0c;用于处理异步操作&#xff08;如数据加载&#xff09;中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误&#xff1a;捕获在 loader 或 action 中发生的异步错误替…...

React Native 开发环境搭建(全平台详解)

React Native 开发环境搭建&#xff08;全平台详解&#xff09; 在开始使用 React Native 开发移动应用之前&#xff0c;正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南&#xff0c;涵盖 macOS 和 Windows 平台的配置步骤&#xff0c;如何在 Android 和 iOS…...

使用分级同态加密防御梯度泄漏

抽象 联邦学习 &#xff08;FL&#xff09; 支持跨分布式客户端进行协作模型训练&#xff0c;而无需共享原始数据&#xff0c;这使其成为在互联和自动驾驶汽车 &#xff08;CAV&#xff09; 等领域保护隐私的机器学习的一种很有前途的方法。然而&#xff0c;最近的研究表明&…...

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

打手机检测算法AI智能分析网关V4守护公共/工业/医疗等多场景安全应用

一、方案背景​ 在现代生产与生活场景中&#xff0c;如工厂高危作业区、医院手术室、公共场景等&#xff0c;人员违规打手机的行为潜藏着巨大风险。传统依靠人工巡查的监管方式&#xff0c;存在效率低、覆盖面不足、判断主观性强等问题&#xff0c;难以满足对人员打手机行为精…...

日常一水C

多态 言简意赅&#xff1a;就是一个对象面对同一事件时做出的不同反应 而之前的继承中说过&#xff0c;当子类和父类的函数名相同时&#xff0c;会隐藏父类的同名函数转而调用子类的同名函数&#xff0c;如果要调用父类的同名函数&#xff0c;那么就需要对父类进行引用&#…...

数据结构第5章:树和二叉树完全指南(自整理详细图文笔记)

名人说&#xff1a;莫道桑榆晚&#xff0c;为霞尚满天。——刘禹锡&#xff08;刘梦得&#xff0c;诗豪&#xff09; 原创笔记&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 上一篇&#xff1a;《数据结构第4章 数组和广义表》…...

前端调试HTTP状态码

1xx&#xff08;信息类状态码&#xff09; 这类状态码表示临时响应&#xff0c;需要客户端继续处理请求。 100 Continue 服务器已收到请求的初始部分&#xff0c;客户端应继续发送剩余部分。 2xx&#xff08;成功类状态码&#xff09; 表示请求已成功被服务器接收、理解并处…...

Python的__call__ 方法

在 Python 中&#xff0c;__call__ 是一个特殊的魔术方法&#xff08;magic method&#xff09;&#xff0c;它允许一个类的实例像函数一样被调用。当你在一个对象后面加上 () 并执行时&#xff08;例如 obj()&#xff09;&#xff0c;Python 会自动调用该对象的 __call__ 方法…...

[QMT量化交易小白入门]-六十二、ETF轮动中简单的评分算法如何获取历史年化收益32.7%

本专栏主要是介绍QMT的基础用法,常见函数,写策略的方法,也会分享一些量化交易的思路,大概会写100篇左右。 QMT的相关资料较少,在使用过程中不断的摸索,遇到了一些问题,记录下来和大家一起沟通,共同进步。 文章目录 相关阅读1. 策略概述2. 趋势评分模块3 代码解析4 木头…...