GLM大模型的机器翻译能力测试
背景介绍
最近想对GLM-4今年发布的几个大模型 glm-4-0520,glm-4-air以及glm-4-flash简单评测一下它们的机器翻译能力,由于这几个大模型的容量和训练数据都有区别,所以它们的翻译能力也是不同的。我们这里就分别选择一些有趣的,有挑战性的,专业性的数据来分别让glm-4-0520,glm-4-air以及glm-4-flash还有百度翻译分别给出它们的翻译结果。最后我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中,让它分别为每个模型的翻译结果进行打分,每个机器翻译例子都是10分的满分。最后我们汇总上面三方面的数据中各个模型和专业的翻译软件的得分,来把握GLM4的几款模型的机器翻译的能力。
本次体验平台为智谱AI的Mass平台,地址为:https://open.bigmodel.cn/ 注册即可在体验中心免费体验上面提到的几款glm-4系列模型。
本次用到的GLM4系列模型简介&价格对比
本次体验的 glm-4-0520,glm-4-air以及glm-4-flash 都是智谱AI提供的闭源大模型,在体验中心随手选择一个大模型之后我们就可以在价格页面看到所有的大模型定价和简介:

我们要体验的这三款模型分别主打性能最强,最高性价比和极速低价。特别地,对于glm-4-flash 模型来说,100w输入tokens只需要0.1元,惊人的便宜。我们就以这三款对性能和价格各有侧重的模型在机器翻译的任务上进行一次评测。
数据获取规则&&打分规则
我们尽可能的去防止数据泄漏,选择数据时尽量选择有版权的比如影视数据以及很新的一些文本数据,比如来自很新的axriv上的论文,较新的考试试卷等。
我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中,让它分别为每个模型的翻译结果进行打分,每个机器翻译例子都是10分的满分
Prompt
对于所有的模型均直接让它翻译即可,例如下面的例子:
- 请把“唉,我是少爷的身子,跑堂的命啊。”翻译成英语。
- 请把“My way or the highway.”翻译成中文。
此外,在打分阶段普遍采用下面的prompt:

但对于困难数据中的古文,我们采用下面的prompt,即对古文的原始意思进行标注,以帮助Cluade-3.5-Sonnet更准确的打分。

此外,每做完一次大的翻译课题里面的一个子问题,对Cluade-3.5-Sonnet的对话缓存进行清理。
有趣的翻译数据
这里选取3句《武林外传》的经典台词由中文翻译成英文。选择3句《老友记》的经典台词翻译成英文。再选择3句《哆啦A梦》的日文经典台词,要求翻译为中文。
3句《武林外传》的经典台词
选取如下3句:
- 唉,我是少爷的身子,跑堂的命啊。

- 帮我照顾好我7舅姥爷!

- 确定一定以及肯定。

3句《老友记》的经典台词
- My way or the highway.

- I would like to propose a toast.

- Too bad we must return them.

3句《哆啦A梦》的日文经典台词
- 毎日の小さな努力のつみ重ねが、歴史を作っていくんだよ!!

- 未来なんて ちょっとしたはずみで どんどん変わるから

- 道をえらぶということは、かならずしも歩きやすい安全な道をえらぶってことじゃないんだぞ

当前得分汇总
| 模型/api | 有趣的翻译数据总得分 |
|---|---|
| glm-4-0520 | 77 |
| glm-4-air | 73 |
| glm-4-flash | 71 |
| 百度翻译 | 54 |
在有趣的翻译数据中,glm-4系列模型的得分均能超过百度翻译的得分,其中glm-4-0520的得分是最高的,glm-4-flash的得分则是三款模型中得分最低的,这也符合模型本身的定位。
困难的翻译数据
比较难翻译的词
- 内卷

- 东施效颦

- 江湖

《滕王阁序》中的三个名句
这里不仅仅设计到文本翻译,还设计到对古文的理解,可以一起考察大模型的推理能力。
- 酌贪泉而觉爽,处涸辙以犹欢。

- 老当益壮,宁移白首之心?穷且益坚,不坠青云之志。

glm-4-flash翻译这个句子时还出现了大段复读机现象,表现很差,统计得分的时候我们将6分手动降低为3分。
- 关山难越,谁悲失路之人;萍水相逢,尽是他乡之客。

Cluade-3.5-Sonnet出三个英译中困难题目
我使用Cluade-3.5-Sonnet获取了3句阅读起来很困难的英语语句,要求把这些句子翻译成中文。
- The researcher, having meticulously analyzed the data collected over a decade-long study, concluded that the phenomenon, hitherto thought to be anomalous, was in fact a natural consequence of the complex interplay between various environmental factors.


- The ship that my sister said that the owner of the company claimed that the inspector had certified as seaworthy sank in the Pacific.

- Despite the fact that the intricate web of international trade agreements had ostensibly been designed to foster global economic cooperation, it paradoxically exacerbated existing inequalities between developed and developing nations.


当前得分汇总
| 模型/api | 有趣的翻译数据总得分 | 困难的翻译数据总得分 |
|---|---|---|
| glm-4-0520 | 77 | 81 |
| glm-4-air | 73 | 73 |
| glm-4-flash | 71 | 71 |
| 百度翻译 | 54 | 57 |
在困难的数据中,glm-4系列模型仍然体现出了越贵的模型能力越强的特点,且这三款模型的翻译能力都比百度翻译的结果更强。
专业的翻译数据
分别选取很新的一篇arxiv论文上关于大模型的3个英文句子翻译成中文;选取2024高考英语试卷阅读理解中的的3个句子翻译成英文;再选取2024高考语文阅读理解中的5个句子翻译成英文。
新的axriv论文
- Efficient use of GPU memory is essential for high throughput LLM inference.

- We evaluate three models Yi-6B, Llama-3-8B and Yi-34B, using a single NVIDIA A100 GPU for Yi-6B, and two NVLink-connected A100 GPUs for Llama- 3-8B and Yi-34B (see Table 5).

- Implementing an additional memory manager can add performance issues in the CPU runtime of the serving system. We refer to a few real-world examples and our own observations on vLLM to corroborate this argument

2024高考英语试卷阅读理解抽取3个句子
- In the race to document the species on Earth before they go extinct, researchers and citizen scientists have collected billions of records.

- Though they are useful for detecting shifts in the number and variety of species in an area, a new Stanford study has found that this type of record is not perfect.

- Using a global dataset of 1.9 billion records of plants, insects, birds, and animals, Daru and his team tested how well these data represent actual global biodiversity patterns.

2024高考语文试卷阅读理解抽取3个句子
- 白露过后,乌乡的风里就已丰满了寒意。

glm4-4-flash的输出开头多了一些奇怪的符号,扣3分。
- 我提着满满一大铁桶羊木炭,把它们倾倒在大路边洞道的木凳里——这是房东阿姨安排给我的任务。

- "天寒落露了,大伙儿小心着凉。"她说。

当前得分汇总
| 模型/api | 有趣的翻译数据总得分 | 困难的翻译数据总得分 | 专业的翻译数据总得分 |
|---|---|---|---|
| glm-4-0520 | 77 | 81 | 81 |
| glm-4-air | 73 | 73 | 79 |
| glm-4-flash | 71 | 71 | 75 |
| 百度翻译 | 54 | 57 | 68 |
机器翻译性能和价格的分析&总结
这里基于GLM-4每种模型和专业翻译软件在有趣的,困难的,专业的三个方面的得分总结每种模型/百度翻译的机器翻译能力。最后我综合价格,对有机器翻译需求的用户做一个最佳建使用建议。
| 模型/api | 有趣的翻译数据总得分 | 困难的翻译数据总得分 | 专业的翻译数据总得分 | 价格(百万tokens多少元人民币) |
|---|---|---|---|---|
| glm-4-0520 | 77 | 81 | 81 | 100 |
| glm-4-air | 73 | 73 | 79 | 1 |
| glm-4-flash | 71 | 71 | 75 | 0.1 |
| 百度翻译 | 54 | 57 | 68 | - |
把每个模型/api的总得分折算成glm-4-0520得分的百分制比例
| 模型/api | 所有数据的总得分折算glm-4-0520得分的百分制比例 | 价格(百万tokens多少元人民币) |
|---|---|---|
| glm-4-0520 | 100% | 100 |
| glm-4-air | 94.14% | 1 |
| glm-4-flash | 90.79% | 0.1 |
| 百度翻译 | 75% | - |
综合性建议:
- 对于预算充足、追求最高翻译质量的用户:建议使用GLM-4-0520。它在所有类型的翻译中都表现最佳,特别适合处理困难和专业的翻译任务。
- 对于寻求性价比的用户:GLM-4-air是一个很好的选择。它在翻译质量和价格之间取得了很好的平衡,特别适合需要大量专业翻译的用户。
- 对于预算有限但仍需要相对较好翻译质量的用户:GLM-4-flash是一个不错的选择。虽然翻译质量略低于其他GLM-4模型,但其极低的价格使其成为小型项目或个人用户的理想选择。
- 对于只需要基本翻译功能且想免费使用的用户:百度翻译可以作为一个选择。
此外,使用glm-4系列大模型进行机器翻译的优点是它们可以作为api被你的代码调用,批量处理更多需求。此外,如果使用glm-4的批处理api,则价格还可以降低一倍。

相关文章:
GLM大模型的机器翻译能力测试
背景介绍 最近想对GLM-4今年发布的几个大模型 glm-4-0520,glm-4-air以及glm-4-flash简单评测一下它们的机器翻译能力,由于这几个大模型的容量和训练数据都有区别,所以它们的翻译能力也是不同的。我们这里就分别选择一些有趣的,有…...
【硬件产品经理】汽车A样设计
目录 简介 制造方式 作者简介 简介 一般被称作原型样件(Prototype)。 主要是根据系统需求设计,实现基本功能和关键尺寸,用于基本功能的验证,用于初期产品软件调试和Hil台架测试(Hardware in Loop,硬件在环)的样机阶段。 也就说在设计初期,A样的主要目的可以划分…...
Ubuntu22.04系统中安装机器人操作系统ROS
在Ubuntu 22.04上安装ROS(Robot Operating System)的过程可以分为几个主要步骤。请注意,ROS有不同的版本(如ROS 1的Melodic、Noetic等,以及ROS 2的Foxy、Humble等),这些版本对Ubuntu的支持程度可…...
LeetCode54题:螺旋矩阵(原创)
【题目描述】 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2,3,6,9,8,7,4,5]示例 2: 输入:mat…...
FPGA常见型号
FPGA(现场可编程门阵列)开发板种类繁多,涵盖了从入门级教育用途到高性能工业应用的广泛领域。以下是一些常见的 FPGA 开发板型号及其特点: 1. Xilinx(赛灵思)系列 Xilinx 是 FPGA 领域的领导者之一&#…...
【多模态大模型】FlashAttention in NeurIPS 2022
一、引言 论文: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 作者: Stanford University 代码: FlashAttention 特点: 该方法提出将Q、K、V拆分为若干小块,使执行注意力时不需要频…...
过滤器doFilter 方法
在Java EE中,过滤器的放行是指在过滤器的 doFilter 方法中调用 FilterChain 对象的 doFilter 方法,将请求传递给下一个过滤器或目标 servlet 进行处理。这个过程可以理解为过滤器的责任链传递。 过滤器的 doFilter 方法 在过滤器中,实现 Fil…...
WPF篇(9)-CheckBox复选框+RadioButton单选框+RepeatButton重复按钮
CheckBox复选框 CheckBox继承于ToggleButton,而ToggleButton继承于ButtonBase基类。 案例 前端代码 <StackPanel Orientation"Horizontal" HorizontalAlignment"Center" VerticalAlignment"Center"><TextBlock Text"…...
【机器学习基础】线性回归
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…...
java基础概念12-二维数组
一、二维数组的定义 二维数组可以被视为数组的数组,即每个元素都是一个数组。 二维数组的应用场景: 当我们需要把数据分组管理的时候,就需要用到二维数组。 二、二维数组的初始化 2-1、静态初始化 阿里巴巴规范手册: // 静态初始…...
56 锐键交换机开局
锐键交换机开局 一 锐键视图切换 1 Ruijie> 用户视图 2 Ruijie# 特权模式 3 Ruijie(config)# 全局配置模式 4 Ruijie(config-if-GigabitEthernet 1/1/1)# 接口配置模式 5 Ruijie(config)#show vlan 6 exit (退出) 7 enable(进入)...
VR虚拟展厅与传统实体展厅相比,有哪些优势?
视创云展虚拟展厅相比传统的实体展厅具有多方面的优势,主要体现在以下几个方面: 1、降低成本: 虚拟展厅无需租赁或建设物理空间,减少了场地、装修和维护等方面的开支。同时,参观者和参展商无需现场参观或布展&#x…...
Vue的事件处理、事件修饰符、键盘事件
目录 1. 事件处理基本使用2. 事件修饰符3. 键盘事件 1. 事件处理基本使用 使用v-on:xxx或xxx绑定事件,其中xxx是事件名,比如clickmethods中配置的函数,都是被Vue所管理的函数,this的指向是vm或组件实例对象 <!DOCTYPE html&g…...
c++单例实践
C单例实践 在日常开发中,虽然太多的单例调用会让代码的耦合度变高,但是例如日志类这种,单例模式就变得非常有。所以这篇文章为大家介绍static 关键字相关知识以及如何实现自己的C单例类。 static关键字 首先让我们请出今天的主角: static。…...
SQL注入实例(sqli-labs/less-9)
0、初始页面 1、爆库名 使用python脚本 def inject_database1(url):name for i in range(1, 20):low 32high 128mid (low high) // 2while low < high:payload "1 and if(ascii(substr(database(),%d,1)) > %d ,sleep(2),0)-- " % (i, mid)res {"…...
http不同类型方法的作用,get和post区别
在HTTP协议中,不同的请求方法用于不同的操作。常见的HTTP方法包括GET、POST、PUT、DELETE、HEAD、OPTIONS、PATCH等,每种方法有其特定的作用。 常见的HTTP方法及其作用 1. GET - **作用**: 从服务器请求指定资源。GET方法通常用于获取数据而不会修改数据…...
# 利刃出鞘_Tomcat 核心原理解析(二)
利刃出鞘_Tomcat 核心原理解析(二) 一、 Tomcat专题 - Tomcat架构 - HTTP工作流程 1、Http 工作原理 HTTP 协议:是浏览器与服务器之间的数据传送协议。作为应用层协议,HTTP 是基于 TCP/IP 协议来传递数据的(HTML文件…...
美团秋招笔试第三题(剪彩带)求助帖
题目描述及代码如下。 我使用模拟打表法,示例通过了,但是提交通过率为0。诚心求教。欢迎补充题目,或者有原题链接更好~。我觉得可能出错的点:int -> long long ?或者一些临界条件。 /* 美团25毕业秋招第三题,做题…...
LeetCode 算法:最小栈 c++
原题链接🔗:最小栈 难度:中等⭐️⭐️ 题目 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。void push(int val) 将元素val推…...
【解压既玩】PS3模拟器v0.0.32+战神3+战神升天+各存档 整合包 ,完美不死机,没有BUG,旷世神作,强力推荐
战神3是圣莫尼卡公司的大作,PS3 上必玩的游戏之一。 本文收集了战神3和升天两作,附存档,完美不死机,没有BUG,强烈推荐。 解压即玩。 立即下载:【chumenx.com】【解压既玩】PS3模拟器v0.0.32战神3战神升天…...
python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...
屋顶变身“发电站” ,中天合创屋面分布式光伏发电项目顺利并网!
5月28日,中天合创屋面分布式光伏发电项目顺利并网发电,该项目位于内蒙古自治区鄂尔多斯市乌审旗,项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站,总装机容量为9.96MWp。 项目投运后,每年可节约标煤3670…...
Ascend NPU上适配Step-Audio模型
1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤)&#x…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
vulnyx Blogger writeup
信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...
【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构 定向转发机制
目录 节点的功能承载层(GATT/Adv)局限性: 拓扑关系定向转发机制定向转发意义 CG 节点的功能 节点的功能由节点支持的特性和功能决定。所有节点都能够发送和接收网格消息。节点还可以选择支持一个或多个附加功能,如 Configuration …...
在 Spring Boot 项目里,MYSQL中json类型字段使用
前言: 因为程序特殊需求导致,需要mysql数据库存储json类型数据,因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...
es6+和css3新增的特性有哪些
一:ECMAScript 新特性(ES6) ES6 (2015) - 革命性更新 1,记住的方法,从一个方法里面用到了哪些技术 1,let /const块级作用域声明2,**默认参数**:函数参数可以设置默认值。3&#x…...
书籍“之“字形打印矩阵(8)0609
题目 给定一个矩阵matrix,按照"之"字形的方式打印这个矩阵,例如: 1 2 3 4 5 6 7 8 9 10 11 12 ”之“字形打印的结果为:1,…...
Vue3中的computer和watch
computed的写法 在页面中 <div>{{ calcNumber }}</div>script中 写法1 常用 import { computed, ref } from vue; let price ref(100);const priceAdd () > { //函数方法 price 1price.value ; }//计算属性 let calcNumber computed(() > {return ${p…...
