当前位置: 首页 > news >正文

AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:今日AI大模型领域的资讯涵盖了多模态新基准的提出、从容大模型在多模态评测中的卓越表现、谷歌开源的Gemma 2模型、字节大模型团队的Depth Anything V2模型被苹果选中、科大讯飞发布的星火大模型V4.0的重大突破、尤洋团队实现的AI实时生成视频、OpenAI的CriticGPT新模型、LeCun和谢赛宁提出的视觉多模态模型Cambrian-1,以及智源大会上关于视觉大模型的探讨。这些报道共同展现了AI大模型在模拟人类推理、多模态能力、效率与经济性、集成应用等方面的快速发展,同时也指出了模型在复杂推理、视觉表征等方面的挑战与机遇。各大科技企业和研究团队通过不断创新,推动AI大模型向更高效、更强大、更贴近人类需求的方向发展。

标题: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点


摘要: 本文作者张天宇聚焦于多模态、GFlowNet、多智能体强化学习等,已在多个机器学习顶会发表论文。文章探讨实现通用人工智能AGI的关键在于模拟人类的思考和推理过程,引入视觉字幕恢复(VCR)任务来评估视觉语言模型的推理能力。VCR任务要求模型填补被遮挡的文字,而当前大多数模型在此任务上表现不佳,尤其在困难模式下。这表明模型在模拟人类复杂推理过程方面仍有很长的路要走。
网址: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点 | 机器之心
 
标题: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
 


摘要: 云从科技的从容大模型在OpenCompass多模态评测中取得重大进展,平均得分65.5,跻身全球前三。在国内市场,该模型排名第一。从容大模型在6个数据集上表现优异,尤其在OCRBench测试集上获得全球最高分。这一成就归功于云从科技自研的高效多模态处理架构和先进的计算技术,及其在视觉、语言领域的深厚积累。此前,从容大模型已在视觉、跨模态领域多次刷新世界纪录。此次表现不仅证明了云从科技的技术实力,也为全球科技企业在AI竞争中树立了典范。
网址: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三 | 机器之心
 
标题: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
 


摘要: 谷歌推出Gemma 2,性能翻倍,可与更大模型竞争。Gemma 2提供9B和27B参数版本,推理性能和效率优于第一代,且成本降低。其27B模型性能卓越,9B模型也超越同类。Gemma 2易于集成,兼容多框架,可通过Google Cloud轻松部署。还有新的Gemma Cookbook和上下文缓存功能助力开发者。模型基于仅解码器transformer架构,交替使用局部和全局注意力,采用logit软封顶。谷歌开放Gemma 2,旨在普及AI工具。
网址: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济! | 机器之心
 
标题: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型
 


摘要: 苹果公司近日在HuggingFace上发布了20个新Core ML模型和4个数据集,其中包括字节大模型团队的单目深度估计模型Depth Anything V2。Core ML是苹果的机器学习框架,可集成模型到iOS、MacOS等设备,高效运行复杂的AI任务,增强用户隐私,减少延迟。Depth Anything V2在细节处理上更精细,鲁棒性更强,速度提升显著。该模型可应用于多个领域,如自动驾驶等。新发布的Core ML模型涵盖多个领域,开发者可使用coremltools转换模型格式,优化设备性能,减少内存占用和功耗。
网址: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型 | 机器之心
 
标题: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
 


摘要: 科大讯飞发布讯飞星火大模型V4.0,该模型在医疗、教育等领域有重大突破,整体性能超越GPT-4 Turbo,成为国内领先的大模型。V4.0在文本生成、语言理解等七大核心能力上全面升级,并在多个国际测试中排名第一。此外,星火大模型还加强了复杂指令跟随和长文本处理能力,并推出新功能——长文本内容溯源,提高了答案准确率。在多模态方面,星火大模型V4.0的图文识别能力持续升级,超越了OpenAI的最新旗舰模型。语音能力也是科大讯飞的绝对优势,V4.0增加了对37种方言的识别,实现了74种语言免切-自由交流。同时,讯飞还展示了超复杂场景语音转写的能力。在医疗领域,讯飞推出了医疗大模型「讯飞晓医」,可以为普通用户提供病历、体检报告解读等服务。在教育领域,讯飞发布了星火智能批阅机和升级后的AI学习机,提高了教育效率。此外,讯飞还推出了「个人空间」,打造懂你的AI助手。
网址: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一 | 机器之心
 
标题: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
摘要: AI实时生成视频的新纪元已经到来!尤洋团队推出了首个基于DiT的实时视频生成方法——Pyramid Attention Broadcast(PAB)。该方法通过减少冗余注意力计算,实现了高达21.6FPS和10.6倍加速,同时保持了视频生成模型的质量。PAB作为一种免训练方法,可为将来任何基于DiT的视频生成模型提供实时功能。这一创新引来了网友和专业人士的惊叹与好评。团队通过比较不同时间步骤的注意力差异,提出用PAB减少不必要的注意力计算,从而节省计算量。相关研究已公开,该团队由尤洋教授领衔,成员包括赵轩磊、王锴和金小龙。
网址: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元 | 量子位
 
标题: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
 


摘要: OpenAI发布了新模型CriticGPT,该模型基于GPT-4训练,旨在改进下一代GPT训练。CriticGPT在代码挑错方面表现出色,能找到75%以上的Bug,远超人类的25%,且其评论更受人类训练师青睐。该模型还能泛化到代码之外的任务,如RLHF训练中的AI输出挑错,并已进入OpenAI内部训练流程。CriticGPT的成功意味着AI在挑错能力上有望突破人类上限,实现自我改进。该研究由前超级对齐团队负责人Jan Leike带队,虽已解散,但成果仍具重要意义。同时,OpenAI还发布了相关论文,展示了其研究诚意。
网址: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限 | 量子位
 
标题: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
 


摘要: 近日,由LeCun和谢赛宁等大佬共同提出了全新的SOTA MLLM——Cambrian-1,该模型以视觉为中心设计多模态模型,并全面开源了相关权重、代码、数据集及微调评估方法。Cambrian-1围绕五个关键方面构建,包括视觉表示、连接器设计、指令微调数据、指令微调策略和实践以及基准测试,旨在弥补多模态学习中视觉研究的不足,打破语言依赖的瓶颈。模型采用MLLM指令微调作为评估协议,强调视觉问答在解决现实世界感知任务中的重要性。研究团队通过谷歌TPU训练,展示了该模型在视觉表征能力上的优势,并呼吁学界业界共同推进以视觉为中心的多模态学习研究。此外,项目还得到了Jeff Dean和Demis Hassabis等业界大佬的支持。
网址: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V - 智源社区
 
标题: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾
 


摘要: 算法起源于计算机视觉领域,后逐渐迁移至语音、NLP等领域。近年来,随着Transformer的出现,NLP成为新算法发源地,再逐渐应用于视觉领域。今年,计算机视觉似乎重回第一赛道。在智源大会的「视觉大模型」专题论坛上,多位专家探讨了视觉大模型的最新研究成果和实践经验。其中,潞晨科技的申琛惠介绍了Open Sora高效低成本视频生成模型,旨在通过低成本开源方案引入社区,采用基于主流的DiT框架和类似Sora的过程生成视频。生数科技的鲍凡则展示了高保真4D重构模型Vidu4D,该模型采用全球首个Diffusion Transformer融合架构,支持多模态生成式建模和4D表示提取,具有作为世界模拟器的潜力。这些研究展示了视频生成模型在帧真实性和3D一致性方面的优势,以及通过大模型探索世界模型的两条道路。
网址: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾 - 智源社区
 

相关文章:

AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫LLM自动生成,一文览尽每日AI大模型要点资讯!目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!《AI大模型日报》今日要点&#xf…...

【随笔】提高代码学习水平(以更高的视角看事物)

最近,我感觉到自己的代码水平似乎卡在了一个瓶颈。似乎只想着数仓,Hive,Spark技术优化,但只要稍微离开这几个点,我就感到无所适从。我开始反思,或许,我应该总结一下自己的学习方法。 1.站的高&…...

游戏AI的创造思路-技术基础-深度学习(5)

继续深度学习技术的探讨,填坑不断,头秃不断~~~~~ 目录 3.5. 自编码器(AE) 3.5.1. 定义 3.5.2. 形成过程 3.5.3. 运行原理 3.5.3.1.运行原理及基本框架 3.5.3.2. 示例代码 3.5.4. 优缺点 3.5.5. 存在的问题和解决方法 3.5…...

基于SpringBoot养老院管理系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…...

餐饮点餐的简单MySQL集合

ER图 模型图(没有进行排序,混乱) DDL和DML /* Navicat MySQL Data TransferSource Server : Mylink Source Server Version : 50726 Source Host : localhost:3306 Source Database : schooldbTarget Server Type …...

STM32驱动-ads1112

汇总一系列AD/DA的驱动程序 ads1112.c #include "ads1112.h" #include "common.h"void AD5726_Init(void) {GPIO_InitTypeDef GPIO_InitStructure;RCC_APB2PeriphClockCmd( RCC_APB2Periph_GPIOA | RCC_APB2Periph_GPIOC, ENABLE );//PORTA、D时钟使能 G…...

数据结构与算法高频面试题

初级面试题及详细解答 当涉及到数据结构与算法的初级面试题时,通常涉及基本的数据结构操作、算法复杂度分析和基本算法的应用。 1. 什么是数组?数组和链表有什么区别? 解答: 数组:是一种线性数据结构,用…...

uni-app的showModal提示框,进行删除的二次确认,可自定义确定或取消操作

实现效果: 此处为删除的二次确认示例,点击删除按钮时出现该提示,该提示写在js script中。 实现方式: 通过uni.showModal进行提示,success为确认状态下的操作自定义,此处调用后端接口进行了删除操作&#…...

5款提高工作效率的免费工具推荐

SimpleTex SimpleTex是一款用于创建和编辑LaTeX公式的简单工具。它能够识别图片中的复杂公式并将其转换为可编辑的数据格式。该软件提供了一个直观的界面,用户可以在编辑LaTeX代码的同时实时预览公式的效果,无需额外的编译步骤。此外,SimpleT…...

区块链的技术架构:节点、网络和数据结构

区块链技术听起来很高大上,但其实它的核心架构并不难理解。今天我们就用一些简单的例子和有趣的比喻,来聊聊区块链的技术架构:节点、网络和数据结构。 节点:区块链的“细胞” 想象一下,区块链就像是一个大型的组织&a…...

pdfmake不能设置表格边框颜色?

找到pdfmake>build>pdfmake.js中: 找到定义的“TableProcessor.prototype.drawVerticalLine”和“TableProcessor.prototype.drawHorizontalLine”两个方法: 重新定义borderColor: var borderColor this.tableNode.table.borderColor||"#…...

laravel 使用RabbitMQ作为消息中间件

先搞定环境,安装amqp扩展 确保已安装rabbitmq-c-dev。 比如 可以使用apk add rabbmit-c-dev安装 cd ~ wget http://pecl.php.net/get/amqp-1.10.2.tgz tar -zxf amqp-1.10.2.tgz cd amqp-1.10.2 phpize ./configure make && make install cd ~ rm -rf am…...

web项目打包成可以离线跑的exe软件

目录 引言打开PyCharm安装依赖创建 Web 应用运行应用程序打包成可执行文件结语注意事项 引言 在开发桌面应用程序时,我们经常需要将网页集成到应用程序中。Python 提供了多种方法来实现这一目标,其中 pywebview 是一个轻量级的库,它允许我们…...

BFS:队列+树的宽搜

一、二叉树的层序遍历 . - 力扣&#xff08;LeetCode&#xff09; 该题的层序遍历和以往不同的是需要一层一层去遍历&#xff0c;每一次while循环都要知道在队列中节点的个数&#xff0c;然后用一个for循环将该层节点走完了再走下一层 class Solution { public:vector<vec…...

MySQL高级-SQL优化- count 优化 - 尽量使用count(*)

文章目录 1、count 优化2、count的几种用法3、count(*)4、count(id)5、count(profession)6、count(null)7、 count(1) 1、count 优化 MyISAM引擎把一个表的总行数存在了磁盘上&#xff0c;因此执行count&#xff08;*&#xff09;的时候会直接返回这个数&#xff0c;效率很高&a…...

python Flask methods

在 Flask 中&#xff0c;app.route() 装饰器用于定义 URL 路由和与之关联的视图函数。当你想指定某个 URL 可以接受哪些 HTTP 方法时&#xff0c;你可以使用 methods 参数。methods 是一个列表&#xff0c;它可以包含任何有效的 HTTP 方法。 Falsk文章中的描述&#xff1a; 链…...

three.js场景三元素

three.js是一个基于WebGL的轻量级、易于使用的3D库。它极大地简化了WebGL的复杂细节&#xff0c;降低了学习成本&#xff0c;同时提高了性能。 three.js的三大核心元素&#xff1a; 场景&#xff08;Scene&#xff09; 场景是一个三维空间&#xff0c;是所有物品的容器。可以将…...

Spring AOP(面向切面编程)详解

Spring AOP&#xff08;面向切面编程&#xff09;详解 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 什么是Spring AOP&#xff1f; Spring AOP&#xff08…...

Kafka第一篇——内部组件概念架构启动服务器zookeeper选举以及底层原理

目录 引入 ——为什么分布式系统需要用第三方软件&#xff1f; JMS 对比 组件 架构推演——备份实现安全可靠 &#xff0c; Zookeeper controller的选举 controller和broker底层通信原理 BROKER内部组件 ​编辑 topic创建 引入 ——为什么分布式系统需要用第三方软件&#…...

14、顺时针打印矩阵

题目&#xff1a; 顺时针打印矩阵 描述&#xff1a; 输入一个矩阵&#xff0c;按照从外向里以顺时针的顺序依次打印出每一个数字&#xff0c; 例如&#xff0c; 如果输入如下矩阵&#xff1a; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字&#xff1a;1,2,3,4,8,1…...

KubeSphere 容器平台高可用:环境搭建与可视化操作指南

Linux_k8s篇 欢迎来到Linux的世界&#xff0c;看笔记好好学多敲多打&#xff0c;每个人都是大神&#xff01; 题目&#xff1a;KubeSphere 容器平台高可用&#xff1a;环境搭建与可视化操作指南 版本号: 1.0,0 作者: 老王要学习 日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)

✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义&#xff08;Task Definition&…...

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?

&#x1f9e0; 智能合约中的数据是如何在区块链中保持一致的&#xff1f; 为什么所有区块链节点都能得出相同结果&#xff1f;合约调用这么复杂&#xff0c;状态真能保持一致吗&#xff1f;本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里&#xf…...

日语学习-日语知识点小记-构建基础-JLPT-N4阶段(33):にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段(33):にする 1、前言(1)情况说明(2)工程师的信仰2、知识点(1) にする1,接续:名词+にする2,接续:疑问词+にする3,(A)は(B)にする。(2)復習:(1)复习句子(2)ために & ように(3)そう(4)にする3、…...

2021-03-15 iview一些问题

1.iview 在使用tree组件时&#xff0c;发现没有set类的方法&#xff0c;只有get&#xff0c;那么要改变tree值&#xff0c;只能遍历treeData&#xff0c;递归修改treeData的checked&#xff0c;发现无法更改&#xff0c;原因在于check模式下&#xff0c;子元素的勾选状态跟父节…...

数据库分批入库

今天在工作中&#xff0c;遇到一个问题&#xff0c;就是分批查询的时候&#xff0c;由于批次过大导致出现了一些问题&#xff0c;一下是问题描述和解决方案&#xff1a; 示例&#xff1a; // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

重启Eureka集群中的节点,对已经注册的服务有什么影响

先看答案&#xff0c;如果正确地操作&#xff0c;重启Eureka集群中的节点&#xff0c;对已经注册的服务影响非常小&#xff0c;甚至可以做到无感知。 但如果操作不当&#xff0c;可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

JVM 内存结构 详解

内存结构 运行时数据区&#xff1a; Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器&#xff1a; ​ 线程私有&#xff0c;程序控制流的指示器&#xff0c;分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 ​ 每个线程都有一个程序计数…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

QT3D学习笔记——圆台、圆锥

类名作用Qt3DWindow3D渲染窗口容器QEntity场景中的实体&#xff08;对象或容器&#xff09;QCamera控制观察视角QPointLight点光源QConeMesh圆锥几何网格QTransform控制实体的位置/旋转/缩放QPhongMaterialPhong光照材质&#xff08;定义颜色、反光等&#xff09;QFirstPersonC…...