当前位置: 首页 > article >正文

多语言AI图像生成器NeoBabel开源发布

虽然文本到图像的生成技术正在迅速发展但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel一个能够支持六种不同语言的AI图像生成器。通过将其研究的所有要素开源任何人都可以在该模型的基础上进行构建并帮助推动包容性AI研究。当你使用AI生成图像时如果你的提示词是英语结果通常更好。这是因为许多AI模型的核心是英语如果你使用另一种语言你的提示词会在图像创建前被翻译成英语。然而世界上大多数人并非以英语为母语这使他们处于不利地位。与此同时文本到文本的生成器可以流利地使用超过200种语言。这就是为什么阿姆斯特丹大学信息学研究所的研究人员与一家专门从事文本生成的公司Cohere实验室展开合作。研究团队将图像生成系统集成到这些文本生成器中创建了一个先进的多语言图像生成器。该图像生成器名为NeoBabel目前支持六种语言英语、法语、荷兰语、中文、印地语和波斯语。完全开源大多数图像生成模型由几家美国大公司构建这些公司很少透露其模型的全部细节。Cees Snoek计算机科学正教授及NeoBabel研究团队成员表示“通常大部分工作都是闭源的因此我们无法确切了解模型的工作原理。我们不知道数据中是否存在偏见系统是如何创建的以及如何改进。这有悖于我们的学术原则。”相比之下在发表关于NeoBabel的论文的同时研究团队公开了他们的所有代码和数据。论文第一作者、博士生Mohammad Derakhshani说“就个人而言我想构建一个用于科学探索的工具为此你需要完整的研究流程。我们公开了整个流程这样任何对该领域感兴趣的人都能获得所需的所有信息。”一张桌子和一只熊NeoBabel在英语上的表现与图像模型相当但在其他五种语言上轻松超越它们。竞争模型首先将提示词翻译成英语而NeoBabel则直接从多种语言生成图像。Snoek解释道“翻译会丢失语言和文化的细微差别因为许多词语在英语中没有好的对应词。”下面展示了一个此类误译的例子其中提示词要求生成一张桌子和一只熊的图像。提示词用荷兰语要求生成一张桌子和一只熊的图像。在荷兰语中熊是“beer”这使大多数图像生成器感到困惑。研究人员还改进了用于训练AI模型的数据标签。他们使用多语言语言模型将图像标签翻译成多种语言并使这些标签更具描述性。Snoek说“这使我们能够同时用所有这些语言训练我们的模型。对于每种语言它都学习单词和像素之间的联系。”通过改进数据AI模型也比其他竞争模型更小——用技术术语来说它的参数更少。此外研究人员将公开可用的图像-标签对数据集从4000万扩展到了1.24亿。Derakhshani说“这个数据量通常不公开。尽管我们计算能力有限我们还是大规模扩展了数据集。”迈向视频NeoBabel开辟了广泛的应用前景包括一个多语言创意画布。在这个数字画布上多个用户可以“绘制”同一幅图像各自使用自己的语言。Derakhshani解释说“如果我只说波斯语而你只说荷兰语我们可以共同创作一幅图像而无需使用英语。你可能会用荷兰语生成第一个版本然后我可以标记一个区域并用波斯语描述修改内容。模型会根据描述相应地调整图像。”据Snoek称NeoBabel的下一步是生成具有文化特定性的图像。然而这需要特定文化的数据以及更强的计算能力。“如果拥有更强大的计算基础设施我们可以完成更多工作”Snoek说。“这些AI模型不一定非得来自大型工业实验室。创造力就在这里但我们缺乏展示它的资源。”因此研究人员正在寻求合作伙伴。从长远来看他们希望将NeoBabel扩展到视频创作领域。Snoek说“我的梦想是它也能生成视频。希尔弗瑟姆有一个大型电视档案馆‘Beeld en Geluid’。如果能与他们合作生成荷兰文化视频那就太棒了。”了解更多NeoBabel GitHub页面论文《NeoBabel用于视觉生成的多语言开放塔楼》作者Mohammad Mahdi Derakhshani、Dheeraj Varghese、Marzieh Fadaee、Cees G. M. SnoekFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

相关文章:

多语言AI图像生成器NeoBabel开源发布

虽然文本到图像的生成技术正在迅速发展,但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel,一个能够支持六种不同语言的AI图像生成器。通过将其研究的所有要素开源,任何人都可…...

比迪丽WebUI实战:用负向提示词精准去除多余肢体与背景干扰

比迪丽WebUI实战:用负向提示词精准去除多余肢体与背景干扰 1. 引言:当AI画图“画蛇添足”时 如果你用过AI绘画工具,一定遇到过这样的烦恼:明明只想画一个角色,结果AI给你画出了三只手;想要一个干净的背景…...

数组中有两个数据,将其变成字符串

数组两个数据 → 转字符串(3种最常用方式) 下面是直观图解 Vue/JS 直接复制代码1. 用逗号连接(最常用) 图示 数组:[2026-03-01, 2026-03-23]↓ join(,) 字符串:"2026-03-01,2026-03-23"代码 le…...

亲测有效!论文AI率直降40%的秘密:4个指令+3个技巧+1个神器

写完论文最崩溃的是什么?不是熬夜秃头,不是数据跑崩,而是查重时AI率超标!学校要求AI率低于15%,结果一查50%!改到怀疑人生还得重写,这种痛我太懂了… 不过别慌!我花了半个月实测各种…...

Vue3 + Element Plus 日期选择器:开始 / 结束时间,结束时间不超过今天

写一个完整可直接复制使用的示例,包含: 开始时间 ≤ 结束时间结束时间 最大只能选今天禁用逻辑联动(选完开始时间后,结束时间不能早于开始时间)支持 date / daterange 两种常用场景 完整代码(推荐&#xff…...

GigaWorld-Policy——以动作为中心的世界–动作模型

前言// 待更第一部分 GigaWorld-Policy: An Efficient Action-CenteredWorld–Action Model1.1 引言与相关工作1.1.1 引言如原论文所说,近期,一些工作(Cen 等,2025;Chang 等,2025;Ni等,2025&…...

养虾之腾讯QClaw安装和使用_不支持离线模型_但是可以一键接入微信---AI大模型应用探索0014

可以看到下载安装都是一键就可以了,我们主要看他的效果怎么样。安装以后可以直接下面有个默认大模型,点击开,可以看到不好。可以看到这里面。全是在线的厂商的模型,不能配置离线模型啊QCLAW 是闭源的商业软件所以还是不能无限toke…...

保姆级教程:用Python 3.8+和FunASR库,5分钟搞定SenseVoice语音大模型本地部署

5分钟极速部署SenseVoice语音大模型:Python 3.8实战指南 刚拿到新服务器时,最让人头疼的莫过于复杂的环境配置和依赖冲突。作为一款支持50语言识别、情感分析的多功能语音模型,SenseVoice的官方文档往往假设用户具备完善的开发环境——但现实…...

Ostrakon-VL-8B在复杂光照下的鲁棒性优化实战

Ostrakon-VL-8B在复杂光照下的鲁棒性优化实战 最近和几个做餐饮智能化的朋友聊天,他们都在吐槽同一个问题:后厨和大堂的摄像头识别系统一到晚上或者光线变化大的时候就“罢工”。要么是把土豆认成洋葱,要么是数不清盘子里还剩几块肉。这听起…...

PPT科研绘图:5分钟搞定三维螺口瓶绘制(附OK插件配置指南)

PPT科研绘图:5分钟搞定三维螺口瓶绘制(附OK插件配置指南) 在学术汇报和科研展示中,专业且精美的实验器材插图往往能大幅提升演示的说服力与观感。然而,许多科研工作者和高校师生在制作PPT时,常面临专业绘图…...

AD5330并行DAC驱动开发与嵌入式应用实战

1. SparkFun AD5330 库深度解析:面向嵌入式工程师的8位并行DAC驱动开发指南1.1 芯片级认知:AD5330的硬件本质与工程定位AD5330是Analog Devices(ADI)推出的单通道、8位分辨率、并行接口数字-模拟转换器(DAC&#xff09…...

Materials Studio多层聚合物建模全流程:从Build Layers到LAMMPS data文件导出避坑指南

Materials Studio多层聚合物建模全流程:从Build Layers到LAMMPS data文件导出避坑指南 在计算材料学领域,多层聚合物建模是研究界面相互作用、复合材料性能的重要基础。Materials Studio作为一款功能强大的分子模拟软件,提供了从建模到模拟的…...

Stable-Diffusion-v1-5-archive企业级部署教程:Supervisor守护+异常自动恢复配置

Stable-Diffusion-v1-5-archive企业级部署教程:Supervisor守护异常自动恢复配置 你是不是也遇到过这种情况:辛辛苦苦部署好的AI绘画服务,运行几天后突然挂掉,半夜收到报警还得爬起来手动重启?或者团队里其他人想用&am…...

Qwen2.5-VL多模态定位教程:零基础运行Chord图像目标检测

Qwen2.5-VL多模态定位教程:零基础运行Chord图像目标检测 1. 项目简介 1.1 什么是Chord视觉定位? Chord是一个基于Qwen2.5-VL多模态大模型的智能视觉定位服务。它能理解你的自然语言描述,在图片中精确找到你指定的目标,并用方框…...

【实战案例:基于特征匹配的指纹识别系统开发】

角点检测:角点(Corner)是图像中在两个或多个方向上灰度值发生剧烈变化的点。这些点通常包含丰富的信息,适用于特征匹配、目标跟踪、三维重建等任务。#------------------角点检测------------------------ #角点指图像中局部区域与…...

拆解液晶面板供电:用GH6121AC实现120mA双路输出的5个关键技巧

拆解液晶面板供电:用GH6121AC实现120mA双路输出的5个关键技巧 液晶面板的稳定供电是显示设备可靠运行的基础,而GH6121AC作为一款专为中小尺寸液晶面板优化的电源管理芯片,其双路120mA输出能力在3.3V系统中表现尤为突出。本文将深入剖析五个工…...

Ubuntu虚拟机IP卡在127.0.0.1?别慌,试试这个一键修复命令(附原理详解)

Ubuntu虚拟机IP卡在127.0.0.1的终极解决方案 刚装好的Ubuntu虚拟机突然上不了网,输入ifconfig只看到127.0.0.1这个回环地址?作为Linux新手,这种场景确实容易让人手足无措。但别担心,这其实是虚拟机环境下非常典型的网络配置问题。…...

Vite项目实战:利用Autoprefixer优化跨浏览器CSS兼容性

1. 为什么你的CSS在不同浏览器上表现不一致? 每次写完漂亮的CSS样式,打开Chrome一看效果完美,结果同事用Safari打开却发现布局错乱?这种场景前端开发者应该都不陌生。浏览器兼容性问题就像牛皮癣一样困扰着我们,特别是…...

万象熔炉 | Anything XL基础教程:模型加载日志解读与常见报错排查

万象熔炉 | Anything XL基础教程:模型加载日志解读与常见报错排查 你是不是也遇到过这种情况?满怀期待地启动一个AI绘画工具,结果控制台刷出一堆看不懂的日志,或者干脆弹出一个红色的错误提示,瞬间浇灭了创作的激情。…...

漫画脸描述生成创意玩法:反向提示词生成、风格迁移描述、跨作品融合设定

漫画脸描述生成创意玩法:反向提示词生成、风格迁移描述、跨作品融合设定 你是不是也遇到过这样的情况:脑子里有个特别酷的动漫角色形象,但就是不知道怎么用文字描述出来?或者想画个新角色,但想来想去都是那几个老套路…...

sdut-软件测试-软件测试概述1

1. 单选题 某网上购物软件,与京东、淘宝等现有主流系统操作流程一致,符合最终用户的使用习惯和操作模式,主要目的是为了改善 ISO/IEC 9126 质量模型中的( C )质量特性。 A. 功能性B. 可靠性C. 易用性D. 可维护性E.…...

Stable Yogi Leather-Dress-Collection免配置方案:自动检测显存并推荐最优参数

Stable Yogi Leather-Dress-Collection免配置方案:自动检测显存并推荐最优参数 想体验动漫风格的皮衣穿搭生成,但被复杂的模型配置和显存不足劝退?今天介绍的这个工具,或许能让你眼前一亮。 Stable Yogi Leather-Dress-Collecti…...

密码安全那些坑:为什么你的正则表达式可能漏掉键盘连续字符?

密码安全进阶:如何用正则表达式堵住键盘连续字符的漏洞? 当我们在设计密码策略时,常常会关注密码长度、字符多样性等基本要求,却忽略了一个关键的安全隐患——键盘连续字符。这类密码看似复杂,实则极易被破解工具识别。…...

Clawdbot部署实操:Qwen3-32B与LangChain/LlamaIndex生态无缝集成指南

Clawdbot部署实操:Qwen3-32B与LangChain/LlamaIndex生态无缝集成指南 1. 项目概述与核心价值 Clawdbot是一个统一的AI代理网关与管理平台,专门为开发者设计,提供了一个直观的界面来构建、部署和监控自主AI代理。这个平台通过集成的聊天界面…...

达摩院PALM春联模型应用场景:文旅景区AI楹联互动体验设计

达摩院PALM春联模型应用场景:文旅景区AI楹联互动体验设计 春节贴春联,是中国人传承千年的文化习俗。一副好的春联,不仅寓意吉祥,更能烘托节日氛围。但对于文旅景区、文化街区、博物馆等场所来说,每年为不同主题、不同…...

MacBook用户必看:Cursor免费版无限续杯的3种技术方案

1. Cursor免费版的试用限制解析 作为MacBook用户,你可能已经发现Cursor免费版存在一些使用限制。Cursor官方通过多重技术手段识别设备信息,包括硬件指纹、网络标识和账户关联等。当检测到同一设备频繁使用免费服务时,系统会自动触发限制机制。…...

实战解密il2cpp的global-metadata.dat文件:用IDA和VS Code逆向分析技巧

实战解密il2cpp的global-metadata.dat文件:用IDA和VS Code逆向分析技巧 在移动应用安全研究和游戏逆向工程领域,il2cpp作为Unity引擎的核心组件,其生成的global-metadata.dat文件承载着关键的类型信息和运行时元数据。本文将深入探讨如何通过…...

正点原子2026开发板教程——从0开始配置Linux内核(4)内核模块详解:从 Hello World 到设备驱动

正点原子2026开发板教程——从0开始配置Linux内核(4)内核模块详解:从 Hello World 到设备驱动 为什么要写这一章 这块跟移植关系不大,是桥接到后续驱动编写的。后面准备更新Rootfs。 前面我们花了三章的篇幅,把 Linux …...

DocMost 容器化部署进阶:从单机到高可用集群

1. 从单机到集群:为什么需要高可用部署 第一次用Docker Compose部署DocMost时,那种"一条命令启动全套服务"的爽快感至今难忘。但当我负责的在线教育平台用户量突破10万时,凌晨三点被报警短信吵醒成了家常便饭——数据库连接池爆满、…...

手把手教你为STM32F103C8T6(蓝色小药丸)编译Cleanflight固件,解决Flash溢出问题

深度优化STM32F103C8T6固件编译:从Flash溢出到精准裁剪实战 如果你手头正好有一块STM32F103C8T6开发板(也就是圈内俗称的"蓝色小药丸"),想要为它编译Cleanflight固件却频频遭遇Flash空间不足的问题,那么这篇…...