当前位置: 首页 > news >正文

斯坦福报告解读3:图解有趣的评估基准(上)

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika等人员和组织合著,旨在追踪、整理、提炼并可视化与人工智能(AI)相关各类数据,该报告已被大多数媒体及机构公认为最权威、最具信誉人工智能数据与洞察来源之一。

2024年版《人工智能指数报告》是迄今为止最为详尽的一份报告,包含了前所未有的大量原创数据,新增了对AI训练成本的估算、对负责任AI领域详尽分析,以及全新章节专门探讨人工智能对科学与医学的影响,充分体现了人工智能在我们生活各个领域日益凸显的重要性。

技术性能处于第二章节主要是回顾下现在的人工智能技术走了多远,从总体视角总结当前AI技术发展以及AI模型评估基准现状,再回到各个模态深入分析,以便于观察各个模型在不同课题面前的性能表现以及评估基准。

评估基准概览

2023年有很多被废弃的指标也有很多新增的指标。整体而言一些新的具有挑战性的基准出现了,例如用于编程的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa以及用于基于代理的行为的AgentBench以及用于幻觉评估的HaluEval。

自然语言能力评估基准

自然语言处理 (NLP) 使计算机能够理解、解释、生成和转换文本。目前最先进的模型已能够生成流畅连贯的散文,并表现出高水平的语言理解能力。这个部分围绕着“理解力”,“语言生成”,“幻觉和真实性”的一些相关基准来观测AI技术现状。

HELM是斯坦福推出,下图为各项子任务中得分较高的大模型

MMLU是多任务的语言理解,目前已经达到人类水准。MMLU 基准Gemini Ultra 以 90.0% 的最高分排名第一,率先超过了 MMLU 的人类基线 89.8%。

幻觉与真实性旨在LLM容易受到事实不准确和内容幻觉的影响,从而产生看似现实但虚假的信息。报告中TruthfulQA评估基准观察指出,较多大模型容易出现欠缺真实性的情况,但 2024年初发布的 GPT-4(RLHF)在 TruthfulQA基准测试中取得了迄今为止的最高成绩,得分为 0.6,比2021年GPT-2模型高出近三倍。

编码能力评估基准

HumanEval评估基准是用于评估对当前AI生成代码能力,由OpenAI研究人员于 2021年推出,由 164 个具有挑战性的手写编程问题组成。当前GPT-4模型变体 (AgentCoder) 在这个指标方面处于领先地位,得分为 96.3%。

另外一种基于软件工程问题数据集的SWE-bench基准,对AI编码能力有着更严格的测试,例如,要求系统协调多个功能之间的更改,与各种执行环境交互,并执行复杂的推理。Claude 2在这个指标上表现最好,但是也仅仅解决了 4.8% 的问题。

视觉与图像生成评估基准

AIGC相关模态,分别从“图像生成”、“指令遵从”、“图像编辑“、“图片元素分割”、“二维转三维”的方面来评估当前AI的水平。

在图像生成方面,Midjourney模型从2022年至2024年几个迭代版本对“一幅哈利·波特的超写实图像”的指令而生成的图像。

当前图像生成技术已经十分先进,生成的图与真是的图像时常无法区分。

HEIM,旨在全面评估图像生成器对实际部署至关重要的 12 个关键方面,例如图像-文本对齐、图像质量和美学。虽然没有一个模型在所有标准中都表现出色。但是在个别标准中还是有佼佼者的。比如,OpenAI的DALL-E 2对于评估生成的图像与输入文本的匹配程度得分最高。Stable Diffusion 的Dreamlike Photoreal在图像质量(衡量图像是否与真实照片相似)、美学(评估视觉吸引力)和原创性(衡量新颖图像生成和避免侵犯版权的指标)方面得分最高。

报告还提到了3D建模的图像技术,其中字节跳动和加州大学圣地亚哥分校的研究人员开发MVDream十分亮眼。

在指令遵循方面,VisIT-Bench评估基准用于观察模型基于文本指令生成图像的能力。VisIT-Bench,由592个具有挑战性的视觉语言指令组成,涵盖大约70个指令类别,例如情节分析、艺术知识和位置理解。截至2024年 1月,表现最好的是GPT-4Turbo的视觉变体,Elo得分为1,349。

在文本引导图片编辑改方面,报告指出其尚未有成熟的准确度评定方式,只是浅谈了EditVal评估基准。EditVal,包括超过 13 种编辑类型,例如添加对象或更改其位置,涵盖 19 个对象类。该基准测试用于评估八种领先的文本引导图像编辑方法,包括 SINE 和 Null-text。

下图为ControlNet和NeRF2NeRF

视频生成基准

旨在用文本或图片生成视频。报告采用了UCF101评估基准进行观察,今年的顶级模型W.A.L.T-XL取得了FVD16得分为36。值得注意的是,因为该模态有着其难题,例如大部分模型智能创建短小、低分辨率的视频,或者是生成的视频过于复杂而且训练数据集不理想导致模型表现不好等。这些问题报告介绍了“Align Your Latents”和“Emu Video”这些正在尝试克服这些问题的技术。

相关文章:

斯坦福报告解读3:图解有趣的评估基准(上)

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika等人员和组织合著,旨在追踪、整理、提炼并可视化与人工智能(AI)相关各类数据,该报告已被大多数媒体及机构…...

C语言---扫雷游戏的实现

1.扫雷游戏的分析和设计 需要创建3个文件夹 test.c----扫雷游戏的测试 game.c----扫雷游戏的实现 game.h----扫雷游戏的实现 雷的信息使用二维数组存放 • 使⽤控制台实现经典的扫雷游戏 • 游戏可以通过菜单实现继续玩或者退出游戏 • 扫雷的棋盘是9*9的格⼦ • 默认…...

《征服数据结构》块状链表

摘要: 1,块状链表的介绍 2,块状链表的代码实现(Java和C) 1,块状链表的介绍 前面我们讲过数组和链表,数组具有 O(1)的查询时间,O(N)的删除,O(N)的插入,而链表具…...

leetCode.86. 分隔链表

leetCode.86. 分隔链表 题目思路&#xff1a; 代码 class Solution { public:ListNode* partition(ListNode* head, int x) {auto lh new ListNode(-1), rh new ListNode(-1);auto lt lh, rt rh;for(auto p head; p; p p->next ) {if(p->val < x) {lt lt->…...

Java进阶学习笔记5——Static应用知识:单例设计模式

设计模式&#xff1a; 架构师会使用到设计模式&#xff0c;开发框架&#xff0c;就需要掌握很多设计模式。 在Java基础阶段学习设计模式&#xff0c;将来面试笔试的时候&#xff0c;笔试题目会经常靠到设计模式。 将来会用到设计模式。框架代码中会用到设计模式。 什么是设计…...

Vue 前端加框 给div加红色框框 js实现

实现方式&#xff1a;用getElementsByClassName、createElement、appendChild实现在原有div上添加一个新的div&#xff0c;从而达到框选效果 <template><div><el-button click"addIten">添加</el-button><el-button click"deleteIt…...

Percona Toolkit 神器全攻略(实用类)

Percona Toolkit 神器全攻略&#xff08;实用类&#xff09; Percona Toolkit 神器全攻略系列共八篇&#xff0c;前文回顾&#xff1a; 前文回顾Percona Toolkit 神器全攻略 全文约定&#xff1a;$为命令提示符、greatsql>为GreatSQL数据库提示符。在后续阅读中&#xff0c;…...

ARM GIC 和NVIC的区别

ARM GIC&#xff08;Generic Interrupt Controller&#xff09;和NVIC&#xff08;Nested Vectored Interrupt Controller&#xff09;是两种不同的中断控制器&#xff0c;它们在ARM架构中扮演着重要的角色&#xff0c;但各自有不同的设计和应用场景。 ARM GIC&#xff1a; G…...

CSS文本粒子动画特效之爱心粒子文字特效-Canvas

1. 效果图 2.完整代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><style>body,html {margin: 0;paddin…...

小熊家务帮day5 客户管理模块1 (小程序认证,手机验证码认证等)

客户管理模块 1.认证模块1.1 认证方式介绍1.1.1 小程序认证1.1.2 手机验证码登录1.1.3 账号密码认证 1.2 小程序认证1.2.1 小程序申请1.2.2 创建客户后端工程jzo2o-customer1.2.3 开发部署前端1.2.4 小程序认证流程1.2.4.1 customer小程序认证接口设计Controller层Service层调用…...

Blender 学习笔记(一)快捷键记录

Blender 的快捷键映射非常强大&#xff0c;如果学会将会快速提高工作效率&#xff0c;本文抄自 Blender 4.1 Manual&#xff0c;基于 Blender 4.1&#xff0c;因为自己使用 Windows&#xff0c;所以只记录 Windows 相关快捷键。 全局快捷键 键位作用ctrl0打开文件ctrls保存文…...

ubuntu linux (20.04) 源码编译cryptopp库 - apt版本过旧

下载最新版 https://www.cryptopp.com/#download 编译安装&#xff1a; ​#下载Cryptopp源码 #git clone https://gitee.com/PaddleGitee/cryptopp.git#进入文件夹 cd cryptopp #编译&#xff0c;多cpu处理 make -j8 #安装&#xff0c;默认路径&#xff1a;/usr/local sudo m…...

机器学习-3-特征工程的重要性及常用特征选择方法

参考特征重要性:理解机器学习模型预测中的关键因素 参考[数据分析]特征选择的方法 1 特征重要性 特征重要性帮助我们理解哪些特征或变量对模型预测的影响最大。 特征重要性是数据科学中一个至关重要的概念,尤其是在建立预测性任务的模型时。想象你正在尝试预测明天是否会下…...

QGis3.34.5工具软件保存样式,软件无反应问题

在使用QGis软件保存SLD样式的时候&#xff0c;每次保存样式&#xff0c;软件都进入无反应状态&#xff0c;导致无法生成样式文件 百度中多次查询问题点&#xff0c;终未能在在3.34.5这个版本上解决问题。 考虑到可能是软件本身问题&#xff0c;于是删除了3.34.5这个版本&#x…...

JavaScript(ES6)入门

ES6 1、介绍 ECMAScript 6&#xff08;简称ES6&#xff09;是于2015年6月正式发布的JavaScript 语言的标准&#xff0c;正式名为ECMAScript 2015&#xff08;ES2015&#xff09;。它的目标是使得JavaScript语言可以用来编写复杂的大型应用程序&#xff0c;成为企业级开发语言。…...

深入分析 Android Activity (十)

文章目录 深入分析 Android Activity (十)1. Activity 的资源管理1.1 使用资源 ID 访问资源1.2 Drawable 资源1.3 使用 TypedArray 管理资源1.4 使用资源配置 2. Activity 的数据存储2.1 SharedPreferences2.2 文件存储2.3 SQLite 数据库2.4 ContentProvider 3. Activity 的性能…...

考试“挂了“用日语怎么说,柯桥商务日语培训

1、もえる 热衷于……&#xff0c;燃烧 除了“燃烧”&#xff0c;还有“热衷于……”的意思&#xff0c;如“家が燃える&#xff08;房子着火了&#xff09;”&#xff0c;“勉強に燃える&#xff08;热衷于学习&#xff09;”。 &#xff21;&#xff1a;今&#xff08;いま&…...

【机器学习300问】103、简单的经典卷积神经网络结构设计成什么样?以LeNet-5为例说明。

一个简单的经典CNN网络结构由&#xff1a;输入层、卷积层、池化层、全连接层和输出层&#xff0c;这五种神经网络层结构组成。它最最经典的实例是LeNet-5&#xff0c;它最早被设计用于手写数字识别任务&#xff0c;包含两个卷积层、两个池化层、几个全连接层&#xff0c;以及最…...

【代码随想录算法训练营第37期 第二十一天 | LeetCode530.二叉搜索树的最小绝对差、501.二叉搜索树中的众数、236. 二叉树的最近公共祖先】

代码随想录算法训练营第37期 第二十一天 | LeetCode530.二叉搜索树的最小绝对差、501.二叉搜索树中的众数、236. 二叉树的最近公共祖先 一、530.二叉搜索树的最小绝对差 解题代码C&#xff1a; /*** Definition for a binary tree node.* struct TreeNode {* int val;* …...

2023 年网络等级保护考试题库及答案

一、单项选择题 1.在等保 1.0 的根本要求中&#xff0c;网络设备防护的内容归属于网络安全&#xff0c;在等保 2.0 中将其归属到〔〕。 A 安全通信网络 B 安全区域边界 C 安全计算环境 D 安全治理中心 答案&#xff1a;c 2.应成立指导和治理网络安全工作的委员会或领导小组&…...

3大核心技术深度解析:cursor-free-vip如何高效破解Cursor AI编辑器限制

3大核心技术深度解析&#xff1a;cursor-free-vip如何高效破解Cursor AI编辑器限制 【免费下载链接】cursor-free-vip [Support 0.45]&#xff08;Multi Language 多语言&#xff09;自动注册 Cursor Ai &#xff0c;自动重置机器ID &#xff0c; 免费升级使用Pro 功能: Youve …...

如何在Inkscape中快速实现免费高效的光学设计与光线追踪?

如何在Inkscape中快速实现免费高效的光学设计与光线追踪&#xff1f; 【免费下载链接】inkscape-raytracing An extension for Inkscape that makes it easier to draw optical diagrams. 项目地址: https://gitcode.com/gh_mirrors/in/inkscape-raytracing 你是否曾为…...

对比直接使用官方api体验taotoken在api密钥管理与审计上的便利

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直接使用官方 API 体验 Taotoken 在 API 密钥管理与审计上的便利 效果展示类&#xff0c;分享一个从直接使用多个模型厂商 API…...

大模型求职避坑指南:收藏这份三层准备路径,轻松拿下高薪Offer!

本文针对大模型求职者&#xff0c;揭示了常见误区并提供了清晰的三层准备路径&#xff1a;基础能力、核心竞争力、差异化优势。文章强调刷题和背概念只是入门&#xff0c;真正重要的是项目经历&#xff0c;要能深入回答五个关键问题&#xff1a;项目背景、技术选型、难点解决、…...

Fluent模拟火箭发动机喷管?试试用分子动理论定义气体属性,避开数据缺失的坑

火箭发动机喷管仿真中的分子动理论实战&#xff1a;突破高温燃气物性数据困境 当你在Fluent中打开火箭发动机喷管的仿真项目时&#xff0c;面对H2/CO/H2O混合燃气在3000K温度梯度下的物性参数定义&#xff0c;是否曾为找不到可靠数据而抓狂&#xff1f;传统方法需要逐个温度点…...

2025届最火的十大降重复率平台实际效果

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 知网所具备的降AI技术&#xff0c;目的在于使论文里人工智能生成部分的内容重复率得以降低&…...

别再手动改文献了!手把手教你定制Mendeley的GB/T 7714-2005引用格式(附常见问题修复)

深度定制Mendeley文献引用格式&#xff1a;GB/T 7714-2005实战指南 科研写作中&#xff0c;文献引用格式的规范性直接影响论文的专业程度。许多研究者在使用Mendeley内置的GB/T 7714-2005格式时&#xff0c;常遇到作者名全大写、et al.显示异常等问题。本文将提供一套完整的解…...

IL-4/IL-4R信号通路及其靶向治疗研究进展

摘要白介素-4&#xff08;interleukin-4, IL-4&#xff09;是一种多效细胞因子&#xff0c;通过特异性结合细胞表面的IL-4受体&#xff08;IL-4 receptor, IL-4R&#xff09;发挥生物学效应。IL-4/IL-4R信号通路在特应性皮炎、哮喘及恶性肿瘤等疾病的病理过程中发挥重要作用。近…...

用YOLOv8和MMSegmentation实战:从血细胞检测到癌细胞分割(附完整代码)

医学影像实战&#xff1a;基于YOLOv8与MMSegmentation的细胞检测与分割全流程 在医疗影像分析领域&#xff0c;深度学习技术正逐步改变传统人工判读的低效模式。本文将带您完成两个典型医学影像任务的完整实现&#xff1a;使用YOLOv8进行血细胞检测分类&#xff0c;以及通过MMS…...

NotebookLM信息冗余顽疾破解指南(92%用户忽略的3层语义去重机制)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;NotebookLM信息去重的核心挑战与认知重构 NotebookLM 作为 Google 推出的基于用户文档构建的 AI 助手&#xff0c;其核心能力依赖于对上传资料的语义理解与上下文关联。然而&#xff0c;当用户批量导入…...