当前位置: 首页 > news >正文

国产AI大模型哪家强?从投资者角度简单横评5款大模型!

前言01

国产AI大模型哪家强?

图片

我平时主要使用“腾讯元宝、Kimi”这2款AI大模型,对于其他国产知名AI大模型的表现,我同样充满好奇。

本次从个人投资者的角度,结合非控股子公司的问题,来测试各AI大模型的实力。本次测试选择了目前知名度比较高的5款产品:百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问\、腾讯的腾讯元宝、月之暗面的Kimi。

图片

在评估不同的大型模型时,对每一个测试细项进行打分(满分:10分,总分50分)。如果某款大模型在某个测试项中不符合要求,将根据表现进行扣分。

由于评测和评分过程中存在主观因素,因此评\分仅供参考。为了让大家更快速地了解评测结果,先透露一下总体得分情况,见下图:

图片

具体为什么最终是这个分数?得分项、丢分项在哪里?我们一起往下看吧。

语言理解能力02

国产AI大模型哪家强?

图片

AI 大模型的本质其实就是大语言模型,因此语言理解可以说是影响各种大模型产品体验的基础要素。这里先测试上面四款产品对中文语意的理解能力。首先用经典的一词多意的段子来考验大模型们:

问题:“茅台”除了指代茅台酒品牌,还有哪些其他含义?请列举至少三个。

图片

腾讯元宝

图片

Kimi

图片

通义千问

图片

文心一言

图片

讯飞星火

综上,从回答数量看,腾讯元宝、文心一言均是仅回答了3个解释,回答数量最多是讯飞星火8个、Kimi 6个。

从引用资料看,腾讯元宝在引用10篇资料的情况下,还会在底部推荐公众号相关内容;通义千问参考了6篇资料;讯飞星火参考了5篇资料。小结如下:

图片

知识丰富性03

国产AI大模型哪家强?

图片

问题:洋河的主要产品线有哪些?请简述各自的特点和市场定位。

1、腾讯元宝

图片

根据问题有针对性地从“主要产品线”、“各产品线特点”、“各产品线市场定位”3个角度进行阐述。描述准确度也不错,阐述也更全面,提到了梨花村、贵酒、双沟系列的产品,但少了红酒系列。

图片

下滑查看更多

2、Kimi

图片

相对于腾讯元宝,对“洋河蓝色经典”的阐述要详细一些:把蓝色经典分为“海之蓝、天之蓝、梦之蓝、梦之蓝手工班系列”进行逐一描述。还提到了星得斯红酒,但该红酒并非主要在国际市场上销售。

其余不足之处:没有提到贵酒、梨花村产品线;对于双沟的描述凌乱;对于问题的回答不全面,如洋河大曲定位情况并未提及。

图片

3、讯飞星火

图片

对于产品线的梳理不够全面,仅提到了洋河蓝色经典、洋河大曲。最后提到的“洋河绝世风华”产品,洋河官网并未查到、印象中也没有该款产品。

问题回答上,并未提及各产品线的市场定位,回答有所欠缺。

图片

4、文心一言

图片

首先从问题回答上看,都有提及产品线、特点、定位。但给出的产品线不够全面,仅提及了蓝色经典、洋河大曲、洋河特曲。

错误点也挺多,下图可见AI把洋河大曲、洋河特曲描述为“定位于中端市场”;还出现了“洋河清香系列”,洋河不是浓香型吗?百度也没看到有“洋河清香系列”。

图片图片

5、通义千问

图片

对产品线的梳理也是不够全面,缺乏了“红酒、贵酒、梨花村”系列,仅写了“其他特色产品线”,并未过多展开。

图片

6、小结

图片

图片

情境分析04

国产AI大模型哪家强?

图片

问题:为分众传媒在面对新媒体竞争和市场多元化趋势时,提出战略建议,并分析预期的市场反应。

腾讯元宝:除了大家都提到的数字化、AI技术投入,还提到加大海外市场的拓展力度。其他的建议及预期市场反应回答得中规中矩,个人感觉这题回答得没有通义千问、讯飞星火、Kimi全面、准确。

图片

腾讯元宝

图片

文心一言

讯飞星火相比于通义千问的回答,要多出3条“个性化和定制化服务、关注用户体验、合作与联盟”,其余4点建议均有所共同点。

图片

讯飞星火

Kimi给出的建议有6条,回答的相关度也比较紧密。相比于讯飞、通义,还提到了“海外市场、品牌合作”。回答的表现也有不错的参考建议。

图片

Kimi

图片

通义千问

小结:

图片

观点论证05

国产AI大模型哪家强?

图片

问题:在讨论腾讯在游戏产业的竞争地位时,有人认为“腾讯的游戏业务过于依赖中国市场”,请提供数据和案例支持或反驳这一观点。

腾讯元宝观点为“反驳”,提供的数据是23年国际市场游戏收入情况,用3款游戏表现和Supercell的游戏进行的案例印证观点。

图片

腾讯元宝

Kimi的观点是“反驳”,提供的数据是23年国际市场游戏收入情况。从“国际市场产品表现、全国市场布局、海外市场增长策略、海外市场品牌建设”等角度,印证观点。Kimi相比于腾讯元宝的阐述要详细不少。

图片

Kimi

文心一言用到的是24年一季报的数据。相较于Kimi和元宝,文心一言在观点论证时,分别提出“支持、反驳观点的数据和案例”的阐述,最终通过归纳结论得出“反驳”的观点。

不足之处:如下图提到“根据参考文章1/2/3”,但我并未找到所参考的文章链接在哪里。

图片

文心一言

讯飞星火持“反驳”观点,引用了腾讯23年国内外市场游戏收入、热门游戏数据,在数据引用上表现较为出色。

在案例支持上阐述较为全面,不仅提及了国际市场情况、全球化战略布局;还提到了国内市场热门游戏、新游戏推出表现。但案例着重于描述国内市场情况,表现没有Kimi好。

图片

讯飞星火

通义千问持“反驳”观点。回答的亮点:提到了“国际市场布局与收购”,并给出了相应的持股数据。足之处,海外游戏收入的数据未能抓取,对于腾讯财报的数据引用几乎为0。

图片

通义千问

小结:

图片

内容生成能力06

国产AI大模型哪家强?

图片

问题:请写一份500字以内的古井贡酒2023年报分析,要有具体的数据支撑且涵盖以下内容:1、营收和利润概览;2、白酒业务情况(要注明产品占比);3、近5年销售费用情况。

图片

Kimi

Kimi:回答该问题时,Kimi显示:“无法访问实时的数据库或外部数据源,因此无法提供古井贡酒2023年的具体营收、利润和销售费用等数据。不过,我可以提供一个基于假设数据的分析报告模板,您可以根据实际数据进行填充和调整。”

如上图所示,具体数据都是用xx进行代替。

图片

腾讯元宝

腾讯元宝:*引用的数据都是错的*:1)在营收和利润概览上,元宝用的是2022年报数据。正确数据见下图:

图片

2)在产品占比中,根据个人统计,年份原浆占白酒营收79%,古井贡酒占10%,“黄鹤楼及其他”占11%(注:23年不再单独展示黄鹤楼数据)。

但元宝描述为:年份原浆系列占比达到70%左右;古井贡酒系列和黄鹤楼系列分别占比约20%和5%。偏差较大。

图片

3)错误3:“2023年,公司销售费用约为36亿元,同比增长20%左右”。如下图报告所示,费用为54亿元。

图片

出乎意料的是,文心一言数据准确度很高。营收利润、白酒营收占比、年份原浆的数据都是正确的。但23年销售费用是错误的。

图片

文心一言

“讯飞星火”和“通义千问”的数据错误有点多:营收利润数据、产品营收占比、销售费用数据,全都是错的

图片

讯飞星火

图片

通义千问

小结:

图片

总结07

国产AI大模型哪家强?

图片

各大模型在各个方面都有一定的优势和不足,根据前面的5大能力评测,得出总分如下:Kimi分数37;腾讯元宝36;讯飞星火35;通义千问34;文心一言33。

图片

1、Kimi

图片

优点:

1)语言理解能力较强,能够准确理解中文语意。

2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。

3)情境分析能力较强,能够给出相关度较高的建议。

提升空间:

1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,由于无法访问实时数据库,只能提供基于假设数据的分析报告模板。

2、腾讯元宝

优点:1)语言理解能力较强,能够准确理解中文语意。2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。

提升空间:1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,引用的数据错误较多。2)在情境分析方面,给出的建议及预期市场反应相对较弱。

3、讯飞星火

优点:1)语言理解能力较好,能够理解中文语意。2)情景分析能力强,给出的建议和预期市场反应相对较全面。

提升空间:1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。2)内容生成能力需要加强,例如在古井贡酒2023年报分析中,数据错误较多。

4、通义千问

优点: 1)观点论证能力具有独特优势,尤其是在国际市场布局与收购方面的讨论;2)语言理解能力较好;

提升空间:

1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。

2)数据准确度还需加强,例如在古井贡酒2023年报分析中,错误较多。

3)在某些情况下,对于问题的回答不够全面。

5、文心一言

优点:1)语言理解能力较好,能够理解中文语意。2)内容生成能力较强,例如在古井贡酒2023年报分析中,数据准确度较高。

提升空间:

1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。

2)观点论证能力需要加强,例如在讨论腾讯游戏情况时,给出的数据和案例支持不够充分。

6、综上

由于本次横评的问题样本数量有限,得出的评分和结论可能无法完全覆盖所有场景和用户需求。在实际使用过程中,每个人对AI的体验和需求可能会有所不同,因此上述评分仅供参考。在选择适合自己的AI时,可以考虑以下几个方面:

1)个人需求:首先要明确自己使用AI大模型的主要目的,是为了获取信息、解决问题、提高工作效率还是娱乐休闲。不同的需求可能导致对AI大模型的不同偏好。

2)使用场景:考虑自己在何种场景下使用AI大模型,如在线聊天、写作辅助、数据分析等。不同场景可能需要不同类型的AI大模型。

3)交互方式:根据自己的使用习惯,选择适合自己的交互方式,如文本输入、语音输入等。

4)模型特点:了解各个AI大模型的特点,如语言理解能力、知识丰富性、情境分析能力、观点论证能力和内容生成能力等,选择在这些方面表现较好的模型。

5)用户体验:关注AI大模型的用户体验,如响应速度、界面设计、易用性等。良好的用户体验可以提高使用效率和满意度。

希望大家能够在实际使用过程中,根据自己的需求和感受,选择最适合自己的AI大模型。同时,我们也期待各大AI大模型在未来不断优化和完善,为用户提供更加优质的服务。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

相关文章:

国产AI大模型哪家强?从投资者角度简单横评5款大模型!

前言01 国产AI大模型哪家强? 我平时主要使用“腾讯元宝、Kimi”这2款AI大模型,对于其他国产知名AI大模型的表现,我同样充满好奇。 本次从个人投资者的角度,结合非控股子公司的问题,来测试各AI大模型的实力。本次测试…...

uc/OS-III多任务程序

目录 一、基于STM32CubeMX建立工程二、获取uC/OS-III源码三、代码移植1.复制uC/OS-III文件到工程文件夹2.工程组件和头文件路径的添加打开工程,添加一下六个组添加文件到分组添加头文件路径 3.文件内容的修改启动文件app_cfg.hincludes.hbsp.c和bsp.hlib_cfg.happ.c…...

6月13日在线研讨会 | 多产品多流程多团队的ALM选择方案

随着汽车产业步入“软件定义汽车”时代,传统汽车产业的硬件中心模式逐渐被软件与服务的核心地位所取代,这是一场对汽车设计、制造及运营的全方位重塑。在这一转型过程中,如何高效管理汽车的整个生命周期成为了一项全新挑战。在此背景下&#…...

Maven使用${revision}实现多模块版本统一管理及注意事项

在 Maven 中,确实可以利用 ${revision} 来实现多模块项目的版本统一管理,尤其是在使用一些高级特性如 Maven Release Plugin 或者是在 CI/CD 流程中动态设置版本时。${revision} 是一个特殊的变量,它允许你在构建时动态地使用或设定项目的版本…...

vue2 bug求助!!!(未解决,大概是浏览器缓存的问题或者是路由的问题)

我的vue2项目出现了一个超级恶心的bug 过程: 1 操作流程:页面a点击a标签->到页面b->页面b用户退出刷新页面->点击浏览器的返回按钮返回上一页 2 结果:返回页面后页面没有刷新导致用户名还显示着,页面没有发生任何变化&a…...

C++的“引用”是条寄生虫

在C中,引用(reference)是一个已存在变量的别名(alias)。比如鲁讯原名周树人,前者就是后者的别名。 一、引用的用法 定义引用时需要用到&,用法如下: int ival 9527; int &am…...

人体感应提醒 大声公+微波模块

文章目录 模块简介接线程序示例 模块简介 微波感应开关模块 RCWL-0516是一款采用多普勒雷达技术,专门检测物体移动的微波感应模块。采用 2.7G 微波信号检测,该模块具有灵敏度高,感应距离远,可靠性强,感应角度大&#…...

正确的功能可将热晶体管风速计线性化

处理传感器电路输出信号的电路或计算公式必须生成传感器响应的反函数。例如,如果传感器响应是对数函数,则线性化部分的响应必须是指数的。 这项工作首先获取传感器响应的 46 个离散点(参见参考论文中的图 4)。刚开始时&#xff0…...

小程序集arcgis地图显示自定义坐标的功能实现记录!(学习笔记)

最近再做一个新能源回收项目,项目中有个根据回收点坐标数据显示区域内回收点位置,点击图标直接导航到该位置,及分布的需求,研究了一下,实现效果如下,实现起来很简单,代码及效果 回收点位置及分…...

谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类

5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。 今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。 研究成果已登Nature。 论文地址:https://www.nature.com/articles/s41586-023-06291-2 这项研究…...

java-字符串相关类的底层原理

在 Java 中,字符串处理是编程中的一个常见任务。Java 提供了多种字符串相关的类,如 String, StringBuilder, StringBuffer 和 CharSequence 等,以满足不同的需求。这些类的底层原理基于 Java 内部的数据结构和算法。在本教程中,我…...

C++模板编程—学习C++类库的编程基础

课程总目录 文章目录 一、详解函数模板二、类模板三、类模板实践&#xff1a;实现向量容器vector四、理解容器空间配置器allocator的重要性 一、详解函数模板 模板的意义&#xff1a;对类型也可以进行参数化了 // 也可以用template<class T>&#xff0c;但class容易和类…...

[每周一更]-(第99期):MySQL的索引为什么用B+树?

文章目录 B树与B树的基本概念B树&#xff08;Balanced Tree&#xff09;B树&#xff08;B-Plus Tree&#xff09;对比 为什么MySQL选择B树1. **磁盘I/O效率**2. **更稳定的查询性能**3. **更高的空间利用率**4. **并发控制** 其他树结构的比较参考 索引是一种 数据结构&#x…...

详解MySQL的MVCC机制

多版本并发控制&#xff08;MVCC&#xff0c;Multi-Version Concurrency Control&#xff09;是MySQL InnoDB存储引擎用于实现事务隔离和提高并发性能的一种机制。MVCC通过在同一数据的多个版本之间进行管理&#xff0c;允许读写操作并发进行&#xff0c;从而避免了传统锁机制带…...

docker部署skywalking

skywalking版本下载 1&#xff1a;拉取skywalking的oap镜像(可以选择自己的版本&#xff0c;最好与ui&#xff0c;agent版本一致) docker pull apache/skywalking-oap-server:9.5.02&#xff1a;启动oap docker run -d -p 11800:11800 -p 12800:12800 --name sw_oap apache/…...

Mac 使用Docker安装Elasticsearch、Kibana 、ik分词器、head

安装ElasticSearch 通过docker安装es docker pull elasticsearch:7.8.1 在本地创建elasticsearch.yml文件 mkdir /Users/ky/Documents/learn/es/elasticsearch.yml 编辑yml文件内容 http: host: 0.0.0.0 xpack.security.enabled: false xpack.security.enrollment.enabled: t…...

【Webpack4打包机制原理解析】

webpack是一个打包模块化 JavaScript 的工具&#xff0c;在 webpack里一切文件皆模块&#xff0c;通过 Loader 转换文件&#xff0c;通过 Plugin 注入钩子&#xff0c;最后输出由多个模块组合成的文件。webpack专注于构建模块化项目。 # 简单版打包模型步骤 我们先从简单的入手…...

如何提高接口响应速度

在非大数据&#xff08;几万以上记录&#xff09;的情况下&#xff0c;影响接口响应速度的因素中最大的是查询数据库的次数&#xff0c;其次才是数组遍历和简单数据处理&#xff08;如根据已有字段增加新的属性&#xff0c;或计算值&#xff09;。 一般一次数据库查询需要50毫秒…...

项目敏感配置信息加固

概述 引入jasypt做密码等敏感配置信息的加固 项目集成依赖 pom.xml引入jasypt-spring-boot-starter依赖 <dependency><groupId>com.github.ulisesbocchio</groupId><artifactId>jasypt-spring-boot-starter</artifactId><version>3.0.…...

HCIA-AI课程大纲

该阶段详细介绍各个机器学习范式方法&#xff0c;涵盖有监督、无监督、半监督、强化学习&#xff0c;以及深度学习算法基础&#xff0c;共计 72 课时。 第一节&#xff1a;华为云 ModelArts 云服务开发环境搭建 - &#xff08;2 课时&#xff09; - 华为云 ModelArts 云服务简…...

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook&#xff0c;用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途&#xff0c;下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M&#xff1a;百万&#xff08;Million&#xff09; B&#xff1a;十亿&#xff08;Billion&#xff09; 1 B 1000 M 1B 1000M 1B1000M 参数存储精度 模型参数是固定的&#xff0c;但是一个参数所表示多少字节不一定&#xff0c;需要看这个参数以什么…...

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

通过Wrangler CLI在worker中创建数据库和表

官方使用文档&#xff1a;Getting started Cloudflare D1 docs 创建数据库 在命令行中执行完成之后&#xff0c;会在本地和远程创建数据库&#xff1a; npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库&#xff1a; 现在&#xff0c;您的Cloudfla…...

剑指offer20_链表中环的入口节点

链表中环的入口节点 给定一个链表&#xff0c;若其中包含环&#xff0c;则输出环的入口节点。 若其中不包含环&#xff0c;则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?

Otsu 是一种自动阈值化方法&#xff0c;用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理&#xff0c;能够自动确定一个阈值&#xff0c;将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

HTML前端开发:JavaScript 常用事件详解

作为前端开发的核心&#xff0c;JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例&#xff1a; 1. onclick - 点击事件 当元素被单击时触发&#xff08;左键点击&#xff09; button.onclick function() {alert("按钮被点击了&#xff01;&…...

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角&#xff0c;以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向&#xff0c;距离坐标原点x个像素;第二个是y坐标&#xff0c;表示当前位置为垂直方向&#xff0c;距离坐标原点y个像素。 坐标体系-像素 …...

七、数据库的完整性

七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

SQL慢可能是触发了ring buffer

简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...