实测文心一言4.0,真的比GPT-4毫不逊色吗?

10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本。
今天,咱们就开门见山啊。这一回要测一测,昨天才发布的文心一言大模型 4.0。
之所以要测它,是因为李彦宏昨天在会上说的那句:“综合能力比GPT-4毫不逊色!”

这话一出,很多人就沸腾了。
据李彦宏这边的说法,文心 4.0 在记忆、理解、逻辑和生成四块,进步神速。
尽管他也在现场亲自演示了很多案例,但很多用户是压根不买账的。
不少人调侃说:“骗骗兄弟就可以了,别把自己也骗了啊。”

这回,业内人员世超也是很幸运地拿到了抢先内测的资格。
既然他吹自己和 GPT-4 比毫不逊色,那我们就让这俩互掐一下,比比斤两。
从拿到资格开始,世超试了一整天。这次也不跟大家卖关子了,直接说测试结论:
总体来说, GPT-4 稳定胜利,但文心一言 4.0 居然意外地某些方面压过 GPT-4 一头。

那么世超这次测试,还是从比较常见的几个测评角度入手,这样体现的更全面、真实。但是,测试难度我们是和之前的 GPT-4 测评难度对齐的。
这比赛的第一轮,先测点大家喜闻乐见的吧。
先从比较轻松的弱智吧和语义陷阱题入手,也正好可以考察一下逻辑和理解能力。
不过,这块很多大模型都有专门训练,问了很多题都没把它们考倒。但是,经过不懈努力,还是被世超抓到了漏洞。
我问了一个非常经典的弱智吧问题:世界上真的有“龙”,那我就在某地被“一条龙”服务过。
先看 GPT-4 这边,由于不知道这俩“龙”到底嘛意思,就开始乱编一些历史典故。

文心这边,也没有聪明到哪去,也是乱编了一种“幽默”的说法。
甚至,世超后面又给了它一次机会,追问它:两个龙是同一个龙吗?
文心依然极其坚定地给了我一个完全错误的答案。

不过,到了第二题, GPT-4 就站起来了。
当我问:公司是个温暖的大家庭,怪不得我总是当孙子。
文心这边还在那“温暖的公司”、“没有等级差别”。


不过,当世超又追加了一道领导题。事态却突然彻底反转,反而是文心赢得很彻底。
世超问了几个流行的段子:“领导夹菜你转桌,领导喝水你刹车”,让它们给仿写几个。
两边 AI 给我的句子,对仗都蛮工整的,就是 GPT-4 语义彻底理解反了。领导的马屁拍的非常完美,可惜就是答案全错。

文心这边给的这些答案,才真的符合当代青年的领导文化。
不过温馨提示,实操的时候建议开始以 GPT-4 为准。

这第一轮比拼结束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。
看来,文心一言说自己进步神速,不是完全在吹牛啊。
第二轮比赛,世超还想继续玩点有意思的,试试 AI 解读梗的能力。
当年, GPT-4 上线时能解梗图,那是叱诧风云了好长一段时间。
因为前面都是测中文语义,世超觉得对 GPT-4 有点不公平,所以特地选了个中英注解都有的梗图。
就像我的人生一样
不知道在忙些什么

不知道是不是有英文辅助,这一次 GPT-4 梗图解读能力强的不是一星半点。
不光能看懂“狗狗”是这张梗图的关键角色,而且读懂了笑点在于“认真帮忙”和“毫无效果”的对比。

但是,文心这边却还在一板一眼地把梗图,当阅读理解题来做。。。
而且嘴还蛮硬,你说这张图好笑,它坚持:这没啥让人发笑的,搞不懂你在乐什么。

不过,文心虽然不擅长解释梗图。但到了中文互联网梗,又马上扳回了一城。
世超问了个关于最近互联网上的新晋网红完颜慧德老师的 lonely 梗。

结果,文心不光点出了梗来源,而且正确解释了这是个谐音梗。
虽然最后很可惜,把“伦理”错误理解成了“理论”,就差这临门一脚,没踢进去。

但如果文心这边是没满分,那 GPT-4 这边恐怕属于不及格了。。
不光没读懂梗,连出处都找错了,让你去大型纪录片《完颜慧德传奇》里面找一找答案。

这第二轮比赛的两道小测试下来,双方各有千秋,不分高下吧。文心的热梗更新很快, GPT-4 图片解读更强。
两轮比赛下来,目前还没分出个高低来,焦灼在了 2 比 2 。
前面两轮语义理解都更偏基础,我们再测试一下专业能力。第三轮直接顶上 GPT-4 的超级强项——代码题。
不知道还有没有人记得,当年 GPT-4 花了 60 秒,做出一个完整的贪吃蛇小游戏,震撼了整个江湖。
现在我们用同样的测试,让文心来试一下。
因为代码比较长,所以这里就不完全展示了。咱们可以直接划到下面,看最后的效果。


先来看 GPT-4 老大哥,依然是稳定发挥。大概几十秒,就做出一个完整的、可以玩的贪吃蛇游戏。包括蛇的移动、点的随机出现、吃完后体积增大这些效果。

但是,来到文心这一边,就是彻底不及格了。
这不是动图没动
是文心就没做出动的效果来

不过,也不代表文心就很拉,这样悬殊的实力差距,其实是因为 GPT-4 的代码能力太变态了。
如果我们稍微降低一点难度,让它们根据草图,来做网站,那文心也是能自如应对的。

但是,尽管这样,从下面两个网站的效果比较来看, GPT-4 还是更精美、更完整。
文心一言

GPT-4

这第三轮的比赛, GPT-4 是毫无疑问地全面吊打了。现在比分也被拉开了,文心 VS GPT-4 = 2:3 。
为了避免不公平,既然前面试了一个 GPT-4 的强项,那接下俩也测一个文心说自己比较厉害的能力——记忆。
世超找了一份曾经采访导盲犬相关人士的采访文件,全采访资料总共有一万三千多个字。

把这一大份文件丢给这俩 AI 之后,我问了一个最简单的问题:
为什么说导盲犬是骗局?
让人有点意外的是, GPT-4 虽然答案是对的,可是分析得牛头不对马嘴。

反倒是文心这一边理解的很准确,它回答的成本高、夸大宣传、不如导盲设备前景好等等,这些才是关键信息。

文心在记忆和理解方面,确实挺扎实。算是成功扳回一城,把比分重新拉回到平局 3 :3 。
既然事态这么胶着,那这最后一轮,我们就再试一个比较有意思的题。
之前 GPT-4 Vision 版提过,这一代的 GPT-4 图片识别能力很强,可以给合照里的单人进行标注、给图片排序等等。

前面好几道试题,已经证明了文心的图片识别能力也完全不弱。所以,这最后一题,咱们就用图片来一决高下。
世超丢了一张牙齿的 X 光片进去,让双方给我当医生,诊断诊断病情。

虽然文心一言也发现了智齿阻生的问题,也指出了可能存在的其他问题。但还是 GPT-4 的答案更准确,更贴切。

这五轮比赛结束,文心一言还是 4 :3 输给了 GPT-4 ,在代码这方面,更是被狠狠吊打了。。但在文心的中文语义理解和记忆这些方面,也确实如百度所说,提升了不少。
除了上面我们这些基础测试,这次文心一言还上线了好几个插件功能。
比如一镜流影(视频生成)、说图解画(图片解读)、E 言易图(可视化数据分析)

比如说一句话做一个金毛爬楼梯的视频,几分钟之后一条配好音的视频就做好了。
不过,目前也不是非常完善,经常出现素材不够,无法生成视频的情况。
作为一个玩具体验一下,还是挺有意思的,真当生产力工具,多少有点够呛。

虽然如此,但文心 4.0 的表现已经让我眼前一亮了。

在这么强的对手面前,很容易显得你的努力都白费了。。。
这回尽管还是输了,但起码你能感受到进步的地方,更擅长的领域。
不过,最后还是要强调一下,世超的测试只能从常规的角度来简单对比两个大模型。只能算带大家尝个鲜,抢先体验一下,并没有办法,完全代表大模型的实力情况。
到底几斤几两,还需要等彻底开放之后。大家亲自上手体验,才会有更深的感受。
相关文章:
实测文心一言4.0,真的比GPT-4毫不逊色吗?
10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本。 今天,咱们就开门见山啊。这一回要测一测,昨天才发布的文心一言大模型 4.0。 之所以要测它&…...
损失函数——KL散度(Kullback-Leibler Divergence,KL Divergence)
KL散度(Kullback-Leibler Divergence,简称KL散度)是一种度量两个概率分布之间差异的指标,也被称为相对熵(Relative Entropy)。KL散度被广泛应用于信息论、统计学、机器学习和数据科学等领域。 KL散度衡量的…...
基于springboot的医护人员排班系统 全套代码 全套文档
基于springboot的医护人员排班系统,springboot vue mysql (毕业论文10411字以上,共27页,程序代码,MySQL数据库) 代码下载链接:https://pan.baidu.com/s/177HdCGtTvqiHP4O7qWAgxA?pwd0jlf 提取码:0jlf 【运行环境】 IDEA, JDK1.8, Mysql, Node, Vue …...
【YOLOX简述】
YOLOX的简述 一、 原因1. 背景2. 概念 二、 算法介绍2.1 YOLOX算法结构图:2.2 算法独特点2.3 Focus网络结构2.4 FPN,PAN2.5 BaseConv2.6 SPP2.7 CSPDarknet2.8 YOlO Head 三、预测曲线3.1 曲线 一、 原因 1. 背景 工业的缺陷检测是计算机视觉中不可缺少…...
一文带你深入浅出Web的自动化测试工具Selenium【建议收藏】
文章目录 前言第01节 Selenium概述第02节 安装浏览器驱动(以Google为例)第03节 定位页面元素1. 打开指定页面2. id 定位3. name 定位4. class 定位5. tag 定位6. xpath 定位7. css 选择器8. link 定位9. 示例 有道翻译 第04节 浏览器控制1. 修改浏览器窗…...
Django模版层
解析: forloop内置对象:运行结果解析 counter0: 从0开始计数 counter : 从1开始计数 first: True,判断循环的开始 last : Tues,判断循环的结束模版变量的书写 我们可以在html中编写python代码。 演示: {{ 填写变量 }}{% 填写类的 %}{{ d.0 }} {{ d.1 }…...
同一个IP地址可有不同的写法?
每个人在上网的时候,都会被分配一个IP地址,这是互联网世界中的“身份证号码”。IP地址是以数字形式呈现的,例如192.168.1.1。然而,你是否知道,尽管一个IP地址的数字串唯一标识一个设备,但它可以有不同的写法…...
《Effective C++》条款13
以对象管理资源 有这样一段代码: class A { public:A* create(){...}}; class B :public A { public:A* ptr create();...delete ptr; }; 我们定义了ptr去接收create()函数的返回值,并且在最后进行了回收资源。看似是没问题的。但是实际上有很多隐患&am…...
【入门Flink】- 09Flink水位线Watermark
在窗口的处理过程中,基于数据的时间戳,自定义一个“逻辑时钟”。这个时钟的时间不会自动流逝;它的时间进展,就是靠着新到数据的时间戳来推动的。 什么是水位线 用来衡量事件时间进展的标记,就被称作“水位线”&#x…...
华为交换机的基本配置,看完秒懂
一、 交换机的基本配置 交换机连接方式 本地:计算机COM口/USB口 --> Console线 --> 交换机Console口 远程:Putty、SecureCRT、Xshell远程管理工具 华为VRP网络操作系统 1)华为的视图模式 <Huawei> //用户视图&#x…...
spark与scala的对应版本查看
仓库地址 https://mvnrepository.com/artifact/org.apache.spark/spark-core 总结 spark3.0 以后,不再支持 scala2.11spark3.0 以后,只能用 scala2.12以上...
影响力|子芽首创代码疫苗技术获评“年度技术突破者”
近日,由业界权威机构嘶吼产业研究院主办的2023网络安全“金帽子”年度评选结果已正式公布。本届评选由网安产业监管机构及相关委办局领导坐镇、行业资深专家、头部网安企业负责人权威加持。凭借首创的专利级代码疫苗技术创新突破了数字供应链安全领域关键核心技术&a…...
还在为忘记BIOS密码担心?至少有五种方法可以重置或删除BIOS密码
忘记密码是一个我们都非常熟悉的问题。虽然在大多数情况下,只需单击“忘记密码”选项,然后按照几个简单的步骤即可恢复访问权限,但情况并非总是如此。忘记BIOS密码(通常为避免进入BIOS设置或避免个人计算机启动而设置的密码)意味着你将无法完全启动系统。 幸运的是,就像…...
部署百川大语言模型Baichuan2
Baichuan2是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。 模…...
java面试常问
文章目录 java 基础1、JDK 和 JRE的区别2、 和equals的区别3、String、StringBuffer、StringBuilder4、String str “a”、 new String(“a”)一样吗?5、ArrayList 和 LinkedList的区别?6、HashMap的原理与实现6.1、容量与扩容6.2、扩容机制 7、HashMa…...
关于nginx一个域名,配置多个端口https的方法
假如我有一个域名 abc.com。在这个域名下,部署了两个应用,分别对应端口:8081,8082 想要给两个应用接口都开启https访问。 nginx配置如下: server { #监听443端口 listen 443 ssl;…...
IntelliJ IDEA插件开发入门实战
介绍 IntelliJ IDEA是备受赞誉的Java开发工具,提供了丰富的功能和工具。通过使用插件,可以扩展和增强这个集成开发环境。IntelliJ IDEA拥有庞大的插件生态系统,涵盖了代码分析、格式化工具和完整的框架等各个领域。开发人员还可以创建自己的…...
站群服务器如何选择
站群服务器如何选择 1.站群服务器线路 双线服务器在访问网站不受线路影响,较稳定。 2.站群服务器的稳定性 选择站群服务器的时候,服务器的稳定性是非常重要的。 3.站群服务器带宽大小 站群服务器网站在日常使用时,主要的目的是为了集中网…...
【vue】AntDV组件库中a-upload实现文件上传:
文章目录 一、文档:二、使用(以Jeecg为例):【1】template:【2】script: 三、效果图: 一、文档: Upload 上传–Ant Design Vue 二、使用(以Jeecg为例): 【1】template: <a-uploa…...
JSP在Scriptlet中编写java代码的形式
我们想在jsp界面中去写java代码,就需要将java代码写在Scriptlet中 虽然说 有这种方式 但是 目前 大部分都会不建议你往jsp中去写java代码 因为 目前都在推广前后端分离 这也是jsp使用面有没有少的原因 jsp也建议解耦 不要让你的程序耦合性太高 还是前端是前端 后端是…...
如何快速部署AI模型:免费本地化解决方案完整指南
如何快速部署AI模型:免费本地化解决方案完整指南 【免费下载链接】LocalAI mudler/LocalAI: LocalAI 是一个开源项目,旨在本地运行机器学习模型,减少对云服务的依赖,提高隐私保护。 项目地址: https://gitcode.com/GitHub_Trend…...
高等数学实战解析:定积分换元法与分部积分法的核心技巧
1. 定积分换元法的实战技巧 第一次接触定积分换元法时,我完全被那些符号变换绕晕了。直到后来在物理实验中遇到一个弹簧振子的能量计算问题,才真正明白这个方法的精妙之处。想象你手里拿着一根橡皮筋,想要测量拉伸它需要的总能量——这就是定…...
别再说‘差不多’了!搞懂PPM,你的数字电路时钟才算真的稳了(附计算器)
别再说‘差不多’了!搞懂PPM,你的数字电路时钟才算真的稳了(附计算器) 在数字电路设计中,时钟信号如同人体的心跳,其稳定性直接决定了整个系统的可靠性。然而,许多工程师在面对"PPM"这…...
计算机毕业设计springboot高校实验室安全巡检系统 基于SpringBoot的高校实验室智能安防监管平台 SpringBoot框架下高校实验楼安全隐患排查与预警系统
计算机毕业设计springboot高校实验室安全巡检系统4p1y5wo9 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着高等教育规模的持续扩张,高校实验室数量与类型日益增多…...
服装打版辅助新思路:Nano-Banana软萌拆拆屋结构化拆解应用
服装打版辅助新思路:Nano-Banana软萌拆拆屋结构化拆解应用 1. 引言:当服装设计遇见“拆解魔法” 想象一下,你是一位服装设计师,面对一件构思精巧的连衣裙,如何向打版师清晰地传达它的内部结构?是画一堆复…...
无线音频桥接实战指南:让传统音响实现跨设备兼容的完整方案
无线音频桥接实战指南:让传统音响实现跨设备兼容的完整方案 【免费下载链接】AirConnect Use AirPlay to stream to UPnP/Sonos & Chromecast devices 项目地址: https://gitcode.com/gh_mirrors/ai/AirConnect 🎶 从"音响孤岛"到&…...
PyQt5实战:用QTreeView+QStandardItemModel快速构建你的第一个树形文件浏览器(附完整代码)
PyQt5实战:用QTreeViewQStandardItemModel快速构建你的第一个树形文件浏览器 每次看到电脑资源管理器左侧那整齐的目录树,你是否好奇过它是如何实现的?今天我们就用PyQt5的QTreeView和QStandardItemModel组件,从零开始打造一个简…...
SDMatte模型API接口安全设计:防止恶意调用与资源滥用
SDMatte模型API接口安全设计:防止恶意调用与资源滥用 1. 引言:API安全的重要性 在将SDMatte模型部署为公开API服务时,安全防护是首要考虑的问题。我们曾遇到一个真实案例:某图像处理API上线一周内,由于缺乏防护措施&…...
告别pip安装失败:在Jetson Nano(ARM64)上手动编译PyQt5 5.15.2的完整记录
在Jetson Nano(ARM64)上手动编译PyQt5 5.15.2的完整指南 当你在Jetson Nano这样的ARM64架构设备上尝试用pip安装PyQt5时,很可能会遇到各种兼容性问题。作为一款强大的Python GUI库,PyQt5在嵌入式开发中有着广泛的应用场景&#x…...
Qwen3-0.6B-FP8效果对比:与Phi-3-mini、Gemma-2B在低资源设备上的实测PK
Qwen3-0.6B-FP8效果对比:与Phi-3-mini、Gemma-2B在低资源设备上的实测PK 想在小显存的电脑上跑个大模型,体验一下AI对话的乐趣,是不是总被“显存不足”的提示劝退?别急,今天我们就来一场专为“小显存”设备准备的AI模…...
