当前位置: 首页 > news >正文

实测文心一言4.0,真的比GPT-4毫不逊色吗?

 

7210d9d17b5547141b6be5cfdf8bfe7a.gif

10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本。

今天,咱们就开门见山啊。这一回要测一测,昨天才发布的文心一言大模型 4.0。

之所以要测它,是因为李彦宏昨天在会上说的那句:“综合能力比GPT-4毫不逊色!

 

a22759b61574ff47fb237118a5eb50c6.png

这话一出,很多人就沸腾了。

据李彦宏这边的说法,文心 4.0 在记忆、理解、逻辑和生成四块,进步神速。

尽管他也在现场亲自演示了很多案例,但很多用户是压根不买账的。

不少人调侃说:“骗骗兄弟就可以了,别把自己也骗了啊。”

 

4ace7565489b905c7bbfd9478f64939e.jpeg


这回,业内人员世超也是很幸运地拿到了抢先内测的资格。

既然他吹自己和 GPT-4 比毫不逊色,那我们就让这俩互掐一下,比比斤两。

从拿到资格开始,世超试了一整天。这次也不跟大家卖关子了,直接说测试结论:

总体来说, GPT-4 稳定胜利,但文心一言 4.0 居然意外地某些方面压过 GPT-4 一头。

 

b5ecc152954aea4b0d9cf71a42a5cabd.jpeg

那么世超这次测试,还是从比较常见的几个测评角度入手,这样体现的更全面、真实。但是,测试难度我们是和之前的 GPT-4 测评难度对齐的。

这比赛的第一轮,先测点大家喜闻乐见的吧。

先从比较轻松的弱智吧和语义陷阱题入手,也正好可以考察一下逻辑和理解能力。

不过,这块很多大模型都有专门训练,问了很多题都没把它们考倒。但是,经过不懈努力,还是被世超抓到了漏洞。

我问了一个非常经典的弱智吧问题:世界上真的有“龙”,那我就在某地被“一条龙”服务过。

先看 GPT-4 这边,由于不知道这俩“龙”到底嘛意思,就开始乱编一些历史典故。

 

 

f62cbe37c4f7ea52d57338d631eded1e.jpeg

文心这边,也没有聪明到哪去,也是乱编了一种“幽默”的说法。

甚至,世超后面又给了它一次机会,追问它:两个龙是同一个龙吗?

文心依然极其坚定地给了我一个完全错误的答案。

 

 

cda832898385044af36b186d0757f111.jpeg

不过,到了第二题, GPT-4 就站起来了。

当我问:公司是个温暖的大家庭,怪不得我总是当孙子。

文心这边还在那“温暖的公司”、“没有等级差别”。

 

05b604349e276cbc157b8492b7a22c59.jpeg

13958def2cd97b4fae686a3a20d4f7c3.jpeg

不过,当世超又追加了一道领导题。事态却突然彻底反转,反而是文心赢得很彻底。

世超问了几个流行的段子:“领导夹菜你转桌,领导喝水你刹车”,让它们给仿写几个。

两边 AI 给我的句子,对仗都蛮工整的,就是 GPT-4 语义彻底理解反了。领导的马屁拍的非常完美,可惜就是答案全错。

 

 

671cb3b758c05b8116b45cee2430e04d.jpeg

文心这边给的这些答案,才真的符合当代青年的领导文化。

不过温馨提示,实操的时候建议开始以 GPT-4 为准。

 

f628fa18d6cfb985e1ff24ec8dde8723.jpeg

这第一轮比拼结束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。

看来,文心一言说自己进步神速,不是完全在吹牛啊。

第二轮比赛,世超还想继续玩点有意思的,试试 AI 解读梗的能力。

当年, GPT-4 上线时能解梗图,那是叱诧风云了好长一段时间。

因为前面都是测中文语义,世超觉得对 GPT-4 有点不公平,所以特地选了个中英注解都有的梗图。

就像我的人生一样

不知道在忙些什么

 

82912478f003e19c4d23d6de90c15e97.jpeg

不知道是不是有英文辅助,这一次 GPT-4 梗图解读能力强的不是一星半点。

不光能看懂“狗狗”是这张梗图的关键角色,而且读懂了笑点在于“认真帮忙”和“毫无效果”的对比。

 

85cbda87c6ab145d6dd2579ec730ff2a.jpeg

但是,文心这边却还在一板一眼地把梗图,当阅读理解题来做。。。

而且嘴还蛮硬,你说这张图好笑,它坚持:这没啥让人发笑的,搞不懂你在乐什么。

 

47a3fd374cb141c071f07e156aa45263.jpeg

不过,文心虽然不擅长解释梗图。但到了中文互联网梗,又马上扳回了一城。

世超问了个关于最近互联网上的新晋网红完颜慧德老师的 lonely 梗。

 

b85094a26359445ef5e667b0de22a4d8.jpeg

结果,文心不光点出了梗来源,而且正确解释了这是个谐音梗。

虽然最后很可惜,把“伦理”错误理解成了“理论”,就差这临门一脚,没踢进去。

 

 

dd9e29ce004ef7ee9204062e12428c1b.jpeg

但如果文心这边是没满分,那 GPT-4 这边恐怕属于不及格了。。

不光没读懂梗,连出处都找错了,让你去大型纪录片《完颜慧德传奇》里面找一找答案。

 

47e0b727738e60545774be20ef83a7b6.jpeg

这第二轮比赛的两道小测试下来,双方各有千秋,不分高下吧。文心的热梗更新很快, GPT-4 图片解读更强。

两轮比赛下来,目前还没分出个高低来,焦灼在了 2 比 2 。

前面两轮语义理解都更偏基础,我们再测试一下专业能力。第三轮直接顶上 GPT-4 的超级强项——代码题。

不知道还有没有人记得,当年 GPT-4 花了 60 秒,做出一个完整的贪吃蛇小游戏,震撼了整个江湖。

现在我们用同样的测试,让文心来试一下。

因为代码比较长,所以这里就不完全展示了。咱们可以直接划到下面,看最后的效果。

 

703619c7bc22a4adff17dff9279169b5.jpeg

43564cf04726187308134fb81ffbb68e.jpeg

先来看 GPT-4 老大哥,依然是稳定发挥。大概几十秒,就做出一个完整的、可以玩的贪吃蛇游戏。包括蛇的移动、点的随机出现、吃完后体积增大这些效果。

 

84d1e5dff6c7204e806914b2e2629b02.gif

但是,来到文心这一边,就是彻底不及格了。

这不是动图没动

是文心就没做出动的效果来

 

f434706f5a9094c0f87a1e1f774ec811.jpeg

不过,也不代表文心就很拉,这样悬殊的实力差距,其实是因为 GPT-4 的代码能力太变态了。

如果我们稍微降低一点难度,让它们根据草图,来做网站,那文心也是能自如应对的。

 

c64ef54cd8c55d2f4f45f270c0719c8a.jpeg

但是,尽管这样,从下面两个网站的效果比较来看, GPT-4 还是更精美、更完整。

文心一言

 

6086c7c53f8405f4b8fd242ac809945e.jpeg

GPT-4

 

857a71e212711da57def4c7960039412.jpeg

这第三轮的比赛, GPT-4 是毫无疑问地全面吊打了。现在比分也被拉开了,文心 VS GPT-4 = 2:3 。

为了避免不公平,既然前面试了一个 GPT-4 的强项,那接下俩也测一个文心说自己比较厉害的能力——记忆。

世超找了一份曾经采访导盲犬相关人士的采访文件,全采访资料总共有一万三千多个字。

 

c28ae9cf47babc6c5bb36accd63faa90.jpeg

把这一大份文件丢给这俩 AI 之后,我问了一个最简单的问题:

为什么说导盲犬是骗局?

让人有点意外的是, GPT-4 虽然答案是对的,可是分析得牛头不对马嘴。

 

e361b8ffb456320493a34324b14d8df4.jpeg

反倒是文心这一边理解的很准确,它回答的成本高、夸大宣传、不如导盲设备前景好等等,这些才是关键信息。

 

6b41f9a1a6669284a82058f12821db83.jpeg

文心在记忆和理解方面,确实挺扎实。算是成功扳回一城,把比分重新拉回到平局 3 :3 。

既然事态这么胶着,那这最后一轮,我们就再试一个比较有意思的题。

之前 GPT-4 Vision 版提过,这一代的 GPT-4 图片识别能力很强,可以给合照里的单人进行标注、给图片排序等等。

 

9311ec1a8c57d4cb7cf0d64e999ce52f.jpeg

前面好几道试题,已经证明了文心的图片识别能力也完全不弱。所以,这最后一题,咱们就用图片来一决高下。

世超丢了一张牙齿的 X 光片进去,让双方给我当医生,诊断诊断病情。

 

49ff5f0c376488fafe8bc21b6ce297a8.jpeg

虽然文心一言也发现了智齿阻生的问题,也指出了可能存在的其他问题。但还是 GPT-4 的答案更准确,更贴切。

 

615bd7699a41a06f1fbed2ef7b8dc4ac.jpeg

这五轮比赛结束,文心一言还是 4 :3 输给了 GPT-4 ,在代码这方面,更是被狠狠吊打了。。但在文心的中文语义理解和记忆这些方面,也确实如百度所说,提升了不少。

除了上面我们这些基础测试,这次文心一言还上线了好几个插件功能。

比如一镜流影(视频生成)、说图解画(图片解读)、E 言易图(可视化数据分析)

 

4ce3a27ed2775f1f8fa392e7c6cacee8.jpeg

比如说一句话做一个金毛爬楼梯的视频,几分钟之后一条配好音的视频就做好了。

不过,目前也不是非常完善,经常出现素材不够,无法生成视频的情况。

作为一个玩具体验一下,还是挺有意思的,真当生产力工具,多少有点够呛。

 

669512c738b7aec48dc2ce1cac64e799.gif

虽然如此,但文心 4.0 的表现已经让我眼前一亮了。

 

f50d3ef2c4e505830f7b86b3a1fc5ba3.jpeg

在这么强的对手面前,很容易显得你的努力都白费了。。。

这回尽管还是输了,但起码你能感受到进步的地方,更擅长的领域。

不过,最后还是要强调一下,世超的测试只能从常规的角度来简单对比两个大模型。只能算带大家尝个鲜,抢先体验一下,并没有办法,完全代表大模型的实力情况。

到底几斤几两,还需要等彻底开放之后。大家亲自上手体验,才会有更深的感受。

 

 

 

 

相关文章:

实测文心一言4.0,真的比GPT-4毫不逊色吗?

10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本。 今天,咱们就开门见山啊。这一回要测一测,昨天才发布的文心一言大模型 4.0。 之所以要测它&…...

损失函数——KL散度(Kullback-Leibler Divergence,KL Divergence)

KL散度(Kullback-Leibler Divergence,简称KL散度)是一种度量两个概率分布之间差异的指标,也被称为相对熵(Relative Entropy)。KL散度被广泛应用于信息论、统计学、机器学习和数据科学等领域。 KL散度衡量的…...

基于springboot的医护人员排班系统 全套代码 全套文档

基于springboot的医护人员排班系统,springboot vue mysql (毕业论文10411字以上,共27页,程序代码,MySQL数据库) 代码下载链接:https://pan.baidu.com/s/177HdCGtTvqiHP4O7qWAgxA?pwd0jlf 提取码:0jlf 【运行环境】 IDEA, JDK1.8, Mysql, Node, Vue …...

【YOLOX简述】

YOLOX的简述 一、 原因1. 背景2. 概念 二、 算法介绍2.1 YOLOX算法结构图:2.2 算法独特点2.3 Focus网络结构2.4 FPN,PAN2.5 BaseConv2.6 SPP2.7 CSPDarknet2.8 YOlO Head 三、预测曲线3.1 曲线 一、 原因 1. 背景 工业的缺陷检测是计算机视觉中不可缺少…...

一文带你深入浅出Web的自动化测试工具Selenium【建议收藏】

文章目录 前言第01节 Selenium概述第02节 安装浏览器驱动(以Google为例)第03节 定位页面元素1. 打开指定页面2. id 定位3. name 定位4. class 定位5. tag 定位6. xpath 定位7. css 选择器8. link 定位9. 示例 有道翻译 第04节 浏览器控制1. 修改浏览器窗…...

Django模版层

解析: forloop内置对象:运行结果解析 counter0: 从0开始计数 counter : 从1开始计数 first: True,判断循环的开始 last : Tues,判断循环的结束模版变量的书写 我们可以在html中编写python代码。 演示: {{ 填写变量 }}{% 填写类的 %}{{ d.0 }} {{ d.1 }…...

同一个IP地址可有不同的写法?

每个人在上网的时候,都会被分配一个IP地址,这是互联网世界中的“身份证号码”。IP地址是以数字形式呈现的,例如192.168.1.1。然而,你是否知道,尽管一个IP地址的数字串唯一标识一个设备,但它可以有不同的写法…...

《Effective C++》条款13

以对象管理资源 有这样一段代码: class A { public:A* create(){...}}; class B :public A { public:A* ptr create();...delete ptr; }; 我们定义了ptr去接收create()函数的返回值,并且在最后进行了回收资源。看似是没问题的。但是实际上有很多隐患&am…...

【入门Flink】- 09Flink水位线Watermark

在窗口的处理过程中,基于数据的时间戳,自定义一个“逻辑时钟”。这个时钟的时间不会自动流逝;它的时间进展,就是靠着新到数据的时间戳来推动的。 什么是水位线 用来衡量事件时间进展的标记,就被称作“水位线”&#x…...

华为交换机的基本配置,看完秒懂

一、 交换机的基本配置 交换机连接方式 本地&#xff1a;计算机COM口/USB口 --> Console线 --> 交换机Console口 远程&#xff1a;Putty、SecureCRT、Xshell远程管理工具 华为VRP网络操作系统 1&#xff09;华为的视图模式 <Huawei> //用户视图&#x…...

spark与scala的对应版本查看

仓库地址 https://mvnrepository.com/artifact/org.apache.spark/spark-core 总结 spark3.0 以后&#xff0c;不再支持 scala2.11spark3.0 以后&#xff0c;只能用 scala2.12以上...

影响力|子芽首创代码疫苗技术获评“年度技术突破者”

近日&#xff0c;由业界权威机构嘶吼产业研究院主办的2023网络安全“金帽子”年度评选结果已正式公布。本届评选由网安产业监管机构及相关委办局领导坐镇、行业资深专家、头部网安企业负责人权威加持。凭借首创的专利级代码疫苗技术创新突破了数字供应链安全领域关键核心技术&a…...

还在为忘记BIOS密码担心?至少有五种方法可以重置或删除BIOS密码

忘记密码是一个我们都非常熟悉的问题。虽然在大多数情况下,只需单击“忘记密码”选项,然后按照几个简单的步骤即可恢复访问权限,但情况并非总是如此。忘记BIOS密码(通常为避免进入BIOS设置或避免个人计算机启动而设置的密码)意味着你将无法完全启动系统。 幸运的是,就像…...

部署百川大语言模型Baichuan2

Baichuan2是百川智能推出的新一代开源大语言模型&#xff0c;采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含有 7B、13B 的 Base 和 Chat 版本&#xff0c;并提供了 Chat 版本的 4bits 量化。 模…...

java面试常问

文章目录 java 基础1、JDK 和 JRE的区别2、 和equals的区别3、String、StringBuffer、StringBuilder4、String str “a”、 new String(“a”)一样吗&#xff1f;5、ArrayList 和 LinkedList的区别&#xff1f;6、HashMap的原理与实现6.1、容量与扩容6.2、扩容机制 7、HashMa…...

关于nginx一个域名,配置多个端口https的方法

假如我有一个域名 abc.com。在这个域名下&#xff0c;部署了两个应用&#xff0c;分别对应端口&#xff1a;8081&#xff0c;8082 想要给两个应用接口都开启https访问。 nginx配置如下&#xff1a; server { #监听443端口 listen 443 ssl;…...

IntelliJ IDEA插件开发入门实战

介绍 IntelliJ IDEA是备受赞誉的Java开发工具&#xff0c;提供了丰富的功能和工具。通过使用插件&#xff0c;可以扩展和增强这个集成开发环境。IntelliJ IDEA拥有庞大的插件生态系统&#xff0c;涵盖了代码分析、格式化工具和完整的框架等各个领域。开发人员还可以创建自己的…...

站群服务器如何选择

站群服务器如何选择 1.站群服务器线路 双线服务器在访问网站不受线路影响&#xff0c;较稳定。 2.站群服务器的稳定性 选择站群服务器的时候&#xff0c;服务器的稳定性是非常重要的。 3.站群服务器带宽大小 站群服务器网站在日常使用时&#xff0c;主要的目的是为了集中网…...

【vue】AntDV组件库中a-upload实现文件上传:

文章目录 一、文档&#xff1a;二、使用(以Jeecg为例)&#xff1a;【1】template&#xff1a;【2】script&#xff1a; 三、效果图&#xff1a; 一、文档&#xff1a; Upload 上传–Ant Design Vue 二、使用(以Jeecg为例)&#xff1a; 【1】template&#xff1a; <a-uploa…...

JSP在Scriptlet中编写java代码的形式

我们想在jsp界面中去写java代码&#xff0c;就需要将java代码写在Scriptlet中 虽然说 有这种方式 但是 目前 大部分都会不建议你往jsp中去写java代码 因为 目前都在推广前后端分离 这也是jsp使用面有没有少的原因 jsp也建议解耦 不要让你的程序耦合性太高 还是前端是前端 后端是…...

springboot 百货中心供应链管理系统小程序

一、前言 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;百货中心供应链管理系统被用户普遍使用&#xff0c;为方…...

工业安全零事故的智能守护者:一体化AI智能安防平台

前言&#xff1a; 通过AI视觉技术&#xff0c;为船厂提供全面的安全监控解决方案&#xff0c;涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面&#xff0c;能够实现对应负责人反馈机制&#xff0c;并最终实现数据的统计报表。提升船厂…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》

引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...

MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...

全球首个30米分辨率湿地数据集(2000—2022)

数据简介 今天我们分享的数据是全球30米分辨率湿地数据集&#xff0c;包含8种湿地亚类&#xff0c;该数据以0.5X0.5的瓦片存储&#xff0c;我们整理了所有属于中国的瓦片名称与其对应省份&#xff0c;方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

Axios请求超时重发机制

Axios 超时重新请求实现方案 在 Axios 中实现超时重新请求可以通过以下几种方式&#xff1a; 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

【Oracle】分区表

个人主页&#xff1a;Guiat 归属专栏&#xff1a;Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天&#xff0c;数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具&#xff0c;在大规模数据获取中发挥着关键作用。然而&#xff0c;传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时&#xff0c;常出现数据质…...

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式&#xff1a;dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一&#xff0c;腐蚀跟膨胀属于反向操作&#xff0c;膨胀是把图像图像变大&#xff0c;而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...

以光量子为例,详解量子获取方式

光量子技术获取量子比特可在室温下进行。该方式有望通过与名为硅光子学&#xff08;silicon photonics&#xff09;的光波导&#xff08;optical waveguide&#xff09;芯片制造技术和光纤等光通信技术相结合来实现量子计算机。量子力学中&#xff0c;光既是波又是粒子。光子本…...