当前位置：首页 > article >正文

多语言AI图像生成器NeoBabel开源发布

article 2026/3/24 0:04:37

虽然文本到图像的生成技术正在迅速发展但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel一个能够支持六种不同语言的AI图像生成器。通过将其研究的所有要素开源任何人都可以在该模型的基础上进行构建并帮助推动包容性AI研究。当你使用AI生成图像时如果你的提示词是英语结果通常更好。这是因为许多AI模型的核心是英语如果你使用另一种语言你的提示词会在图像创建前被翻译成英语。然而世界上大多数人并非以英语为母语这使他们处于不利地位。与此同时文本到文本的生成器可以流利地使用超过200种语言。这就是为什么阿姆斯特丹大学信息学研究所的研究人员与一家专门从事文本生成的公司Cohere实验室展开合作。研究团队将图像生成系统集成到这些文本生成器中创建了一个先进的多语言图像生成器。该图像生成器名为NeoBabel目前支持六种语言英语、法语、荷兰语、中文、印地语和波斯语。完全开源大多数图像生成模型由几家美国大公司构建这些公司很少透露其模型的全部细节。Cees Snoek计算机科学正教授及NeoBabel研究团队成员表示“通常大部分工作都是闭源的因此我们无法确切了解模型的工作原理。我们不知道数据中是否存在偏见系统是如何创建的以及如何改进。这有悖于我们的学术原则。”相比之下在发表关于NeoBabel的论文的同时研究团队公开了他们的所有代码和数据。论文第一作者、博士生Mohammad Derakhshani说“就个人而言我想构建一个用于科学探索的工具为此你需要完整的研究流程。我们公开了整个流程这样任何对该领域感兴趣的人都能获得所需的所有信息。”一张桌子和一只熊NeoBabel在英语上的表现与图像模型相当但在其他五种语言上轻松超越它们。竞争模型首先将提示词翻译成英语而NeoBabel则直接从多种语言生成图像。Snoek解释道“翻译会丢失语言和文化的细微差别因为许多词语在英语中没有好的对应词。”下面展示了一个此类误译的例子其中提示词要求生成一张桌子和一只熊的图像。提示词用荷兰语要求生成一张桌子和一只熊的图像。在荷兰语中熊是“beer”这使大多数图像生成器感到困惑。研究人员还改进了用于训练AI模型的数据标签。他们使用多语言语言模型将图像标签翻译成多种语言并使这些标签更具描述性。Snoek说“这使我们能够同时用所有这些语言训练我们的模型。对于每种语言它都学习单词和像素之间的联系。”通过改进数据AI模型也比其他竞争模型更小——用技术术语来说它的参数更少。此外研究人员将公开可用的图像-标签对数据集从4000万扩展到了1.24亿。Derakhshani说“这个数据量通常不公开。尽管我们计算能力有限我们还是大规模扩展了数据集。”迈向视频NeoBabel开辟了广泛的应用前景包括一个多语言创意画布。在这个数字画布上多个用户可以“绘制”同一幅图像各自使用自己的语言。Derakhshani解释说“如果我只说波斯语而你只说荷兰语我们可以共同创作一幅图像而无需使用英语。你可能会用荷兰语生成第一个版本然后我可以标记一个区域并用波斯语描述修改内容。模型会根据描述相应地调整图像。”据Snoek称NeoBabel的下一步是生成具有文化特定性的图像。然而这需要特定文化的数据以及更强的计算能力。“如果拥有更强大的计算基础设施我们可以完成更多工作”Snoek说。“这些AI模型不一定非得来自大型工业实验室。创造力就在这里但我们缺乏展示它的资源。”因此研究人员正在寻求合作伙伴。从长远来看他们希望将NeoBabel扩展到视频创作领域。Snoek说“我的梦想是它也能生成视频。希尔弗瑟姆有一个大型电视档案馆‘Beeld en Geluid’。如果能与他们合作生成荷兰文化视频那就太棒了。”了解更多NeoBabel GitHub页面论文《NeoBabel用于视觉生成的多语言开放塔楼》作者Mohammad Mahdi Derakhshani、Dheeraj Varghese、Marzieh Fadaee、Cees G. M. SnoekFINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

多语言AI图像生成器NeoBabel开源发布

相关文章：

多语言AI图像生成器NeoBabel开源发布

比迪丽WebUI实战：用负向提示词精准去除多余肢体与背景干扰

数组中有两个数据，将其变成字符串

亲测有效！论文AI率直降40%的秘密：4个指令+3个技巧+1个神器

Vue3 + Element Plus 日期选择器：开始 / 结束时间，结束时间不超过今天

GigaWorld-Policy——以动作为中心的世界–动作模型

养虾之腾讯QClaw安装和使用_不支持离线模型_但是可以一键接入微信---AI大模型应用探索0014

保姆级教程：用Python 3.8+和FunASR库，5分钟搞定SenseVoice语音大模型本地部署

Ostrakon-VL-8B在复杂光照下的鲁棒性优化实战

PPT科研绘图：5分钟搞定三维螺口瓶绘制（附OK插件配置指南）

AD5330并行DAC驱动开发与嵌入式应用实战

Materials Studio多层聚合物建模全流程：从Build Layers到LAMMPS data文件导出避坑指南

Stable-Diffusion-v1-5-archive企业级部署教程：Supervisor守护+异常自动恢复配置

Qwen2.5-VL多模态定位教程：零基础运行Chord图像目标检测

【实战案例：基于特征匹配的指纹识别系统开发】

拆解液晶面板供电：用GH6121AC实现120mA双路输出的5个关键技巧

Ubuntu虚拟机IP卡在127.0.0.1？别慌，试试这个一键修复命令（附原理详解）

Vite项目实战：利用Autoprefixer优化跨浏览器CSS兼容性

万象熔炉 | Anything XL基础教程：模型加载日志解读与常见报错排查

漫画脸描述生成创意玩法：反向提示词生成、风格迁移描述、跨作品融合设定

sdut-软件测试-软件测试概述1

Stable Yogi Leather-Dress-Collection免配置方案：自动检测显存并推荐最优参数

密码安全那些坑：为什么你的正则表达式可能漏掉键盘连续字符？

Clawdbot部署实操：Qwen3-32B与LangChain/LlamaIndex生态无缝集成指南

达摩院PALM春联模型应用场景：文旅景区AI楹联互动体验设计

MacBook用户必看：Cursor免费版无限续杯的3种技术方案

实战解密il2cpp的global-metadata.dat文件：用IDA和VS Code逆向分析技巧

正点原子2026开发板教程——从0开始配置Linux内核（4）内核模块详解：从 Hello World 到设备驱动

DocMost 容器化部署进阶：从单机到高可用集群

手把手教你为STM32F103C8T6（蓝色小药丸）编译Cleanflight固件，解决Flash溢出问题