当前位置: 首页 > news >正文

国产AI大模型哪家强?从投资者角度简单横评5款大模型!

前言01

国产AI大模型哪家强?

图片

我平时主要使用“腾讯元宝、Kimi”这2款AI大模型,对于其他国产知名AI大模型的表现,我同样充满好奇。

本次从个人投资者的角度,结合非控股子公司的问题,来测试各AI大模型的实力。本次测试选择了目前知名度比较高的5款产品:百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问\、腾讯的腾讯元宝、月之暗面的Kimi。

图片

在评估不同的大型模型时,对每一个测试细项进行打分(满分:10分,总分50分)。如果某款大模型在某个测试项中不符合要求,将根据表现进行扣分。

由于评测和评分过程中存在主观因素,因此评\分仅供参考。为了让大家更快速地了解评测结果,先透露一下总体得分情况,见下图:

图片

具体为什么最终是这个分数?得分项、丢分项在哪里?我们一起往下看吧。

语言理解能力02

国产AI大模型哪家强?

图片

AI 大模型的本质其实就是大语言模型,因此语言理解可以说是影响各种大模型产品体验的基础要素。这里先测试上面四款产品对中文语意的理解能力。首先用经典的一词多意的段子来考验大模型们:

问题:“茅台”除了指代茅台酒品牌,还有哪些其他含义?请列举至少三个。

图片

腾讯元宝

图片

Kimi

图片

通义千问

图片

文心一言

图片

讯飞星火

综上,从回答数量看,腾讯元宝、文心一言均是仅回答了3个解释,回答数量最多是讯飞星火8个、Kimi 6个。

从引用资料看,腾讯元宝在引用10篇资料的情况下,还会在底部推荐公众号相关内容;通义千问参考了6篇资料;讯飞星火参考了5篇资料。小结如下:

图片

知识丰富性03

国产AI大模型哪家强?

图片

问题:洋河的主要产品线有哪些?请简述各自的特点和市场定位。

1、腾讯元宝

图片

根据问题有针对性地从“主要产品线”、“各产品线特点”、“各产品线市场定位”3个角度进行阐述。描述准确度也不错,阐述也更全面,提到了梨花村、贵酒、双沟系列的产品,但少了红酒系列。

图片

下滑查看更多

2、Kimi

图片

相对于腾讯元宝,对“洋河蓝色经典”的阐述要详细一些:把蓝色经典分为“海之蓝、天之蓝、梦之蓝、梦之蓝手工班系列”进行逐一描述。还提到了星得斯红酒,但该红酒并非主要在国际市场上销售。

其余不足之处:没有提到贵酒、梨花村产品线;对于双沟的描述凌乱;对于问题的回答不全面,如洋河大曲定位情况并未提及。

图片

3、讯飞星火

图片

对于产品线的梳理不够全面,仅提到了洋河蓝色经典、洋河大曲。最后提到的“洋河绝世风华”产品,洋河官网并未查到、印象中也没有该款产品。

问题回答上,并未提及各产品线的市场定位,回答有所欠缺。

图片

4、文心一言

图片

首先从问题回答上看,都有提及产品线、特点、定位。但给出的产品线不够全面,仅提及了蓝色经典、洋河大曲、洋河特曲。

错误点也挺多,下图可见AI把洋河大曲、洋河特曲描述为“定位于中端市场”;还出现了“洋河清香系列”,洋河不是浓香型吗?百度也没看到有“洋河清香系列”。

图片图片

5、通义千问

图片

对产品线的梳理也是不够全面,缺乏了“红酒、贵酒、梨花村”系列,仅写了“其他特色产品线”,并未过多展开。

图片

6、小结

图片

图片

情境分析04

国产AI大模型哪家强?

图片

问题:为分众传媒在面对新媒体竞争和市场多元化趋势时,提出战略建议,并分析预期的市场反应。

腾讯元宝:除了大家都提到的数字化、AI技术投入,还提到加大海外市场的拓展力度。其他的建议及预期市场反应回答得中规中矩,个人感觉这题回答得没有通义千问、讯飞星火、Kimi全面、准确。

图片

腾讯元宝

图片

文心一言

讯飞星火相比于通义千问的回答,要多出3条“个性化和定制化服务、关注用户体验、合作与联盟”,其余4点建议均有所共同点。

图片

讯飞星火

Kimi给出的建议有6条,回答的相关度也比较紧密。相比于讯飞、通义,还提到了“海外市场、品牌合作”。回答的表现也有不错的参考建议。

图片

Kimi

图片

通义千问

小结:

图片

观点论证05

国产AI大模型哪家强?

图片

问题:在讨论腾讯在游戏产业的竞争地位时,有人认为“腾讯的游戏业务过于依赖中国市场”,请提供数据和案例支持或反驳这一观点。

腾讯元宝观点为“反驳”,提供的数据是23年国际市场游戏收入情况,用3款游戏表现和Supercell的游戏进行的案例印证观点。

图片

腾讯元宝

Kimi的观点是“反驳”,提供的数据是23年国际市场游戏收入情况。从“国际市场产品表现、全国市场布局、海外市场增长策略、海外市场品牌建设”等角度,印证观点。Kimi相比于腾讯元宝的阐述要详细不少。

图片

Kimi

文心一言用到的是24年一季报的数据。相较于Kimi和元宝,文心一言在观点论证时,分别提出“支持、反驳观点的数据和案例”的阐述,最终通过归纳结论得出“反驳”的观点。

不足之处:如下图提到“根据参考文章1/2/3”,但我并未找到所参考的文章链接在哪里。

图片

文心一言

讯飞星火持“反驳”观点,引用了腾讯23年国内外市场游戏收入、热门游戏数据,在数据引用上表现较为出色。

在案例支持上阐述较为全面,不仅提及了国际市场情况、全球化战略布局;还提到了国内市场热门游戏、新游戏推出表现。但案例着重于描述国内市场情况,表现没有Kimi好。

图片

讯飞星火

通义千问持“反驳”观点。回答的亮点:提到了“国际市场布局与收购”,并给出了相应的持股数据。足之处,海外游戏收入的数据未能抓取,对于腾讯财报的数据引用几乎为0。

图片

通义千问

小结:

图片

内容生成能力06

国产AI大模型哪家强?

图片

问题:请写一份500字以内的古井贡酒2023年报分析,要有具体的数据支撑且涵盖以下内容:1、营收和利润概览;2、白酒业务情况(要注明产品占比);3、近5年销售费用情况。

图片

Kimi

Kimi:回答该问题时,Kimi显示:“无法访问实时的数据库或外部数据源,因此无法提供古井贡酒2023年的具体营收、利润和销售费用等数据。不过,我可以提供一个基于假设数据的分析报告模板,您可以根据实际数据进行填充和调整。”

如上图所示,具体数据都是用xx进行代替。

图片

腾讯元宝

腾讯元宝:*引用的数据都是错的*:1)在营收和利润概览上,元宝用的是2022年报数据。正确数据见下图:

图片

2)在产品占比中,根据个人统计,年份原浆占白酒营收79%,古井贡酒占10%,“黄鹤楼及其他”占11%(注:23年不再单独展示黄鹤楼数据)。

但元宝描述为:年份原浆系列占比达到70%左右;古井贡酒系列和黄鹤楼系列分别占比约20%和5%。偏差较大。

图片

3)错误3:“2023年,公司销售费用约为36亿元,同比增长20%左右”。如下图报告所示,费用为54亿元。

图片

出乎意料的是,文心一言数据准确度很高。营收利润、白酒营收占比、年份原浆的数据都是正确的。但23年销售费用是错误的。

图片

文心一言

“讯飞星火”和“通义千问”的数据错误有点多:营收利润数据、产品营收占比、销售费用数据,全都是错的

图片

讯飞星火

图片

通义千问

小结:

图片

总结07

国产AI大模型哪家强?

图片

各大模型在各个方面都有一定的优势和不足,根据前面的5大能力评测,得出总分如下:Kimi分数37;腾讯元宝36;讯飞星火35;通义千问34;文心一言33。

图片

1、Kimi

图片

优点:

1)语言理解能力较强,能够准确理解中文语意。

2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。

3)情境分析能力较强,能够给出相关度较高的建议。

提升空间:

1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,由于无法访问实时数据库,只能提供基于假设数据的分析报告模板。

2、腾讯元宝

优点:1)语言理解能力较强,能够准确理解中文语意。2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。

提升空间:1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,引用的数据错误较多。2)在情境分析方面,给出的建议及预期市场反应相对较弱。

3、讯飞星火

优点:1)语言理解能力较好,能够理解中文语意。2)情景分析能力强,给出的建议和预期市场反应相对较全面。

提升空间:1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。2)内容生成能力需要加强,例如在古井贡酒2023年报分析中,数据错误较多。

4、通义千问

优点: 1)观点论证能力具有独特优势,尤其是在国际市场布局与收购方面的讨论;2)语言理解能力较好;

提升空间:

1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。

2)数据准确度还需加强,例如在古井贡酒2023年报分析中,错误较多。

3)在某些情况下,对于问题的回答不够全面。

5、文心一言

优点:1)语言理解能力较好,能够理解中文语意。2)内容生成能力较强,例如在古井贡酒2023年报分析中,数据准确度较高。

提升空间:

1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。

2)观点论证能力需要加强,例如在讨论腾讯游戏情况时,给出的数据和案例支持不够充分。

6、综上

由于本次横评的问题样本数量有限,得出的评分和结论可能无法完全覆盖所有场景和用户需求。在实际使用过程中,每个人对AI的体验和需求可能会有所不同,因此上述评分仅供参考。在选择适合自己的AI时,可以考虑以下几个方面:

1)个人需求:首先要明确自己使用AI大模型的主要目的,是为了获取信息、解决问题、提高工作效率还是娱乐休闲。不同的需求可能导致对AI大模型的不同偏好。

2)使用场景:考虑自己在何种场景下使用AI大模型,如在线聊天、写作辅助、数据分析等。不同场景可能需要不同类型的AI大模型。

3)交互方式:根据自己的使用习惯,选择适合自己的交互方式,如文本输入、语音输入等。

4)模型特点:了解各个AI大模型的特点,如语言理解能力、知识丰富性、情境分析能力、观点论证能力和内容生成能力等,选择在这些方面表现较好的模型。

5)用户体验:关注AI大模型的用户体验,如响应速度、界面设计、易用性等。良好的用户体验可以提高使用效率和满意度。

希望大家能够在实际使用过程中,根据自己的需求和感受,选择最适合自己的AI大模型。同时,我们也期待各大AI大模型在未来不断优化和完善,为用户提供更加优质的服务。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

相关文章:

国产AI大模型哪家强?从投资者角度简单横评5款大模型!

前言01 国产AI大模型哪家强? 我平时主要使用“腾讯元宝、Kimi”这2款AI大模型,对于其他国产知名AI大模型的表现,我同样充满好奇。 本次从个人投资者的角度,结合非控股子公司的问题,来测试各AI大模型的实力。本次测试…...

uc/OS-III多任务程序

目录 一、基于STM32CubeMX建立工程二、获取uC/OS-III源码三、代码移植1.复制uC/OS-III文件到工程文件夹2.工程组件和头文件路径的添加打开工程,添加一下六个组添加文件到分组添加头文件路径 3.文件内容的修改启动文件app_cfg.hincludes.hbsp.c和bsp.hlib_cfg.happ.c…...

6月13日在线研讨会 | 多产品多流程多团队的ALM选择方案

随着汽车产业步入“软件定义汽车”时代,传统汽车产业的硬件中心模式逐渐被软件与服务的核心地位所取代,这是一场对汽车设计、制造及运营的全方位重塑。在这一转型过程中,如何高效管理汽车的整个生命周期成为了一项全新挑战。在此背景下&#…...

Maven使用${revision}实现多模块版本统一管理及注意事项

在 Maven 中,确实可以利用 ${revision} 来实现多模块项目的版本统一管理,尤其是在使用一些高级特性如 Maven Release Plugin 或者是在 CI/CD 流程中动态设置版本时。${revision} 是一个特殊的变量,它允许你在构建时动态地使用或设定项目的版本…...

vue2 bug求助!!!(未解决,大概是浏览器缓存的问题或者是路由的问题)

我的vue2项目出现了一个超级恶心的bug 过程: 1 操作流程:页面a点击a标签->到页面b->页面b用户退出刷新页面->点击浏览器的返回按钮返回上一页 2 结果:返回页面后页面没有刷新导致用户名还显示着,页面没有发生任何变化&a…...

C++的“引用”是条寄生虫

在C中,引用(reference)是一个已存在变量的别名(alias)。比如鲁讯原名周树人,前者就是后者的别名。 一、引用的用法 定义引用时需要用到&,用法如下: int ival 9527; int &am…...

人体感应提醒 大声公+微波模块

文章目录 模块简介接线程序示例 模块简介 微波感应开关模块 RCWL-0516是一款采用多普勒雷达技术,专门检测物体移动的微波感应模块。采用 2.7G 微波信号检测,该模块具有灵敏度高,感应距离远,可靠性强,感应角度大&#…...

正确的功能可将热晶体管风速计线性化

处理传感器电路输出信号的电路或计算公式必须生成传感器响应的反函数。例如,如果传感器响应是对数函数,则线性化部分的响应必须是指数的。 这项工作首先获取传感器响应的 46 个离散点(参见参考论文中的图 4)。刚开始时&#xff0…...

小程序集arcgis地图显示自定义坐标的功能实现记录!(学习笔记)

最近再做一个新能源回收项目,项目中有个根据回收点坐标数据显示区域内回收点位置,点击图标直接导航到该位置,及分布的需求,研究了一下,实现效果如下,实现起来很简单,代码及效果 回收点位置及分…...

谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类

5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。 今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。 研究成果已登Nature。 论文地址:https://www.nature.com/articles/s41586-023-06291-2 这项研究…...

java-字符串相关类的底层原理

在 Java 中,字符串处理是编程中的一个常见任务。Java 提供了多种字符串相关的类,如 String, StringBuilder, StringBuffer 和 CharSequence 等,以满足不同的需求。这些类的底层原理基于 Java 内部的数据结构和算法。在本教程中,我…...

C++模板编程—学习C++类库的编程基础

课程总目录 文章目录 一、详解函数模板二、类模板三、类模板实践&#xff1a;实现向量容器vector四、理解容器空间配置器allocator的重要性 一、详解函数模板 模板的意义&#xff1a;对类型也可以进行参数化了 // 也可以用template<class T>&#xff0c;但class容易和类…...

[每周一更]-(第99期):MySQL的索引为什么用B+树?

文章目录 B树与B树的基本概念B树&#xff08;Balanced Tree&#xff09;B树&#xff08;B-Plus Tree&#xff09;对比 为什么MySQL选择B树1. **磁盘I/O效率**2. **更稳定的查询性能**3. **更高的空间利用率**4. **并发控制** 其他树结构的比较参考 索引是一种 数据结构&#x…...

详解MySQL的MVCC机制

多版本并发控制&#xff08;MVCC&#xff0c;Multi-Version Concurrency Control&#xff09;是MySQL InnoDB存储引擎用于实现事务隔离和提高并发性能的一种机制。MVCC通过在同一数据的多个版本之间进行管理&#xff0c;允许读写操作并发进行&#xff0c;从而避免了传统锁机制带…...

docker部署skywalking

skywalking版本下载 1&#xff1a;拉取skywalking的oap镜像(可以选择自己的版本&#xff0c;最好与ui&#xff0c;agent版本一致) docker pull apache/skywalking-oap-server:9.5.02&#xff1a;启动oap docker run -d -p 11800:11800 -p 12800:12800 --name sw_oap apache/…...

Mac 使用Docker安装Elasticsearch、Kibana 、ik分词器、head

安装ElasticSearch 通过docker安装es docker pull elasticsearch:7.8.1 在本地创建elasticsearch.yml文件 mkdir /Users/ky/Documents/learn/es/elasticsearch.yml 编辑yml文件内容 http: host: 0.0.0.0 xpack.security.enabled: false xpack.security.enrollment.enabled: t…...

【Webpack4打包机制原理解析】

webpack是一个打包模块化 JavaScript 的工具&#xff0c;在 webpack里一切文件皆模块&#xff0c;通过 Loader 转换文件&#xff0c;通过 Plugin 注入钩子&#xff0c;最后输出由多个模块组合成的文件。webpack专注于构建模块化项目。 # 简单版打包模型步骤 我们先从简单的入手…...

如何提高接口响应速度

在非大数据&#xff08;几万以上记录&#xff09;的情况下&#xff0c;影响接口响应速度的因素中最大的是查询数据库的次数&#xff0c;其次才是数组遍历和简单数据处理&#xff08;如根据已有字段增加新的属性&#xff0c;或计算值&#xff09;。 一般一次数据库查询需要50毫秒…...

项目敏感配置信息加固

概述 引入jasypt做密码等敏感配置信息的加固 项目集成依赖 pom.xml引入jasypt-spring-boot-starter依赖 <dependency><groupId>com.github.ulisesbocchio</groupId><artifactId>jasypt-spring-boot-starter</artifactId><version>3.0.…...

HCIA-AI课程大纲

该阶段详细介绍各个机器学习范式方法&#xff0c;涵盖有监督、无监督、半监督、强化学习&#xff0c;以及深度学习算法基础&#xff0c;共计 72 课时。 第一节&#xff1a;华为云 ModelArts 云服务开发环境搭建 - &#xff08;2 课时&#xff09; - 华为云 ModelArts 云服务简…...

深入剖析AI大模型:大模型时代的 Prompt 工程全解析

今天聊的内容&#xff0c;我认为是AI开发里面非常重要的内容。它在AI开发里无处不在&#xff0c;当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"&#xff0c;或者让翻译模型 "将这段合同翻译成商务日语" 时&#xff0c;输入的这句话就是 Prompt。…...

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址&#xff1a;pdf 英文是纯手打的&#xff01;论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误&#xff0c;若有发现欢迎评论指正&#xff01;文章偏向于笔记&#xff0c;谨慎食用 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

汇编常见指令

汇编常见指令 一、数据传送指令 指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX&#xff08;不访问内存&#xff09;XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中&#xff0c;UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

【论文阅读28】-CNN-BiLSTM-Attention-(2024)

本文把滑坡位移序列拆开、筛优质因子&#xff0c;再用 CNN-BiLSTM-Attention 来动态预测每个子序列&#xff0c;最后重构出总位移&#xff0c;预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵&#xff08;S…...

A2A JS SDK 完整教程:快速入门指南

目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库&#xff…...

纯 Java 项目(非 SpringBoot)集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目&#xff08;非 SpringBoot&#xff09;集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

Python+ZeroMQ实战:智能车辆状态监控与模拟模式自动切换

目录 关键点 技术实现1 技术实现2 摘要&#xff1a; 本文将介绍如何利用Python和ZeroMQ消息队列构建一个智能车辆状态监控系统。系统能够根据时间策略自动切换驾驶模式&#xff08;自动驾驶、人工驾驶、远程驾驶、主动安全&#xff09;&#xff0c;并通过实时消息推送更新车…...

认识CMake并使用CMake构建自己的第一个项目

1.CMake的作用和优势 跨平台支持&#xff1a;CMake支持多种操作系统和编译器&#xff0c;使用同一份构建配置可以在不同的环境中使用 简化配置&#xff1a;通过CMakeLists.txt文件&#xff0c;用户可以定义项目结构、依赖项、编译选项等&#xff0c;无需手动编写复杂的构建脚本…...

用神经网络读懂你的“心情”:揭秘情绪识别系统背后的AI魔法

用神经网络读懂你的“心情”:揭秘情绪识别系统背后的AI魔法 大家好,我是Echo_Wish。最近刷短视频、看直播,有没有发现,越来越多的应用都开始“懂你”了——它们能感知你的情绪,推荐更合适的内容,甚至帮客服识别用户情绪,提升服务体验。这背后,神经网络在悄悄发力,撑起…...