当前位置: 首页 > news >正文

AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:今日AI大模型领域的资讯涵盖了多模态新基准的提出、从容大模型在多模态评测中的卓越表现、谷歌开源的Gemma 2模型、字节大模型团队的Depth Anything V2模型被苹果选中、科大讯飞发布的星火大模型V4.0的重大突破、尤洋团队实现的AI实时生成视频、OpenAI的CriticGPT新模型、LeCun和谢赛宁提出的视觉多模态模型Cambrian-1,以及智源大会上关于视觉大模型的探讨。这些报道共同展现了AI大模型在模拟人类推理、多模态能力、效率与经济性、集成应用等方面的快速发展,同时也指出了模型在复杂推理、视觉表征等方面的挑战与机遇。各大科技企业和研究团队通过不断创新,推动AI大模型向更高效、更强大、更贴近人类需求的方向发展。

标题: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点


摘要: 本文作者张天宇聚焦于多模态、GFlowNet、多智能体强化学习等,已在多个机器学习顶会发表论文。文章探讨实现通用人工智能AGI的关键在于模拟人类的思考和推理过程,引入视觉字幕恢复(VCR)任务来评估视觉语言模型的推理能力。VCR任务要求模型填补被遮挡的文字,而当前大多数模型在此任务上表现不佳,尤其在困难模式下。这表明模型在模拟人类复杂推理过程方面仍有很长的路要走。
网址: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点 | 机器之心
 
标题: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
 


摘要: 云从科技的从容大模型在OpenCompass多模态评测中取得重大进展,平均得分65.5,跻身全球前三。在国内市场,该模型排名第一。从容大模型在6个数据集上表现优异,尤其在OCRBench测试集上获得全球最高分。这一成就归功于云从科技自研的高效多模态处理架构和先进的计算技术,及其在视觉、语言领域的深厚积累。此前,从容大模型已在视觉、跨模态领域多次刷新世界纪录。此次表现不仅证明了云从科技的技术实力,也为全球科技企业在AI竞争中树立了典范。
网址: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三 | 机器之心
 
标题: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
 


摘要: 谷歌推出Gemma 2,性能翻倍,可与更大模型竞争。Gemma 2提供9B和27B参数版本,推理性能和效率优于第一代,且成本降低。其27B模型性能卓越,9B模型也超越同类。Gemma 2易于集成,兼容多框架,可通过Google Cloud轻松部署。还有新的Gemma Cookbook和上下文缓存功能助力开发者。模型基于仅解码器transformer架构,交替使用局部和全局注意力,采用logit软封顶。谷歌开放Gemma 2,旨在普及AI工具。
网址: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济! | 机器之心
 
标题: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型
 


摘要: 苹果公司近日在HuggingFace上发布了20个新Core ML模型和4个数据集,其中包括字节大模型团队的单目深度估计模型Depth Anything V2。Core ML是苹果的机器学习框架,可集成模型到iOS、MacOS等设备,高效运行复杂的AI任务,增强用户隐私,减少延迟。Depth Anything V2在细节处理上更精细,鲁棒性更强,速度提升显著。该模型可应用于多个领域,如自动驾驶等。新发布的Core ML模型涵盖多个领域,开发者可使用coremltools转换模型格式,优化设备性能,减少内存占用和功耗。
网址: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型 | 机器之心
 
标题: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
 


摘要: 科大讯飞发布讯飞星火大模型V4.0,该模型在医疗、教育等领域有重大突破,整体性能超越GPT-4 Turbo,成为国内领先的大模型。V4.0在文本生成、语言理解等七大核心能力上全面升级,并在多个国际测试中排名第一。此外,星火大模型还加强了复杂指令跟随和长文本处理能力,并推出新功能——长文本内容溯源,提高了答案准确率。在多模态方面,星火大模型V4.0的图文识别能力持续升级,超越了OpenAI的最新旗舰模型。语音能力也是科大讯飞的绝对优势,V4.0增加了对37种方言的识别,实现了74种语言免切-自由交流。同时,讯飞还展示了超复杂场景语音转写的能力。在医疗领域,讯飞推出了医疗大模型「讯飞晓医」,可以为普通用户提供病历、体检报告解读等服务。在教育领域,讯飞发布了星火智能批阅机和升级后的AI学习机,提高了教育效率。此外,讯飞还推出了「个人空间」,打造懂你的AI助手。
网址: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一 | 机器之心
 
标题: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
摘要: AI实时生成视频的新纪元已经到来!尤洋团队推出了首个基于DiT的实时视频生成方法——Pyramid Attention Broadcast(PAB)。该方法通过减少冗余注意力计算,实现了高达21.6FPS和10.6倍加速,同时保持了视频生成模型的质量。PAB作为一种免训练方法,可为将来任何基于DiT的视频生成模型提供实时功能。这一创新引来了网友和专业人士的惊叹与好评。团队通过比较不同时间步骤的注意力差异,提出用PAB减少不必要的注意力计算,从而节省计算量。相关研究已公开,该团队由尤洋教授领衔,成员包括赵轩磊、王锴和金小龙。
网址: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元 | 量子位
 
标题: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
 


摘要: OpenAI发布了新模型CriticGPT,该模型基于GPT-4训练,旨在改进下一代GPT训练。CriticGPT在代码挑错方面表现出色,能找到75%以上的Bug,远超人类的25%,且其评论更受人类训练师青睐。该模型还能泛化到代码之外的任务,如RLHF训练中的AI输出挑错,并已进入OpenAI内部训练流程。CriticGPT的成功意味着AI在挑错能力上有望突破人类上限,实现自我改进。该研究由前超级对齐团队负责人Jan Leike带队,虽已解散,但成果仍具重要意义。同时,OpenAI还发布了相关论文,展示了其研究诚意。
网址: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限 | 量子位
 
标题: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
 


摘要: 近日,由LeCun和谢赛宁等大佬共同提出了全新的SOTA MLLM——Cambrian-1,该模型以视觉为中心设计多模态模型,并全面开源了相关权重、代码、数据集及微调评估方法。Cambrian-1围绕五个关键方面构建,包括视觉表示、连接器设计、指令微调数据、指令微调策略和实践以及基准测试,旨在弥补多模态学习中视觉研究的不足,打破语言依赖的瓶颈。模型采用MLLM指令微调作为评估协议,强调视觉问答在解决现实世界感知任务中的重要性。研究团队通过谷歌TPU训练,展示了该模型在视觉表征能力上的优势,并呼吁学界业界共同推进以视觉为中心的多模态学习研究。此外,项目还得到了Jeff Dean和Demis Hassabis等业界大佬的支持。
网址: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V - 智源社区
 
标题: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾
 


摘要: 算法起源于计算机视觉领域,后逐渐迁移至语音、NLP等领域。近年来,随着Transformer的出现,NLP成为新算法发源地,再逐渐应用于视觉领域。今年,计算机视觉似乎重回第一赛道。在智源大会的「视觉大模型」专题论坛上,多位专家探讨了视觉大模型的最新研究成果和实践经验。其中,潞晨科技的申琛惠介绍了Open Sora高效低成本视频生成模型,旨在通过低成本开源方案引入社区,采用基于主流的DiT框架和类似Sora的过程生成视频。生数科技的鲍凡则展示了高保真4D重构模型Vidu4D,该模型采用全球首个Diffusion Transformer融合架构,支持多模态生成式建模和4D表示提取,具有作为世界模拟器的潜力。这些研究展示了视频生成模型在帧真实性和3D一致性方面的优势,以及通过大模型探索世界模型的两条道路。
网址: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾 - 智源社区
 

相关文章:

AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫LLM自动生成,一文览尽每日AI大模型要点资讯!目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!《AI大模型日报》今日要点&#xf…...

【随笔】提高代码学习水平(以更高的视角看事物)

最近,我感觉到自己的代码水平似乎卡在了一个瓶颈。似乎只想着数仓,Hive,Spark技术优化,但只要稍微离开这几个点,我就感到无所适从。我开始反思,或许,我应该总结一下自己的学习方法。 1.站的高&…...

游戏AI的创造思路-技术基础-深度学习(5)

继续深度学习技术的探讨,填坑不断,头秃不断~~~~~ 目录 3.5. 自编码器(AE) 3.5.1. 定义 3.5.2. 形成过程 3.5.3. 运行原理 3.5.3.1.运行原理及基本框架 3.5.3.2. 示例代码 3.5.4. 优缺点 3.5.5. 存在的问题和解决方法 3.5…...

基于SpringBoot养老院管理系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…...

餐饮点餐的简单MySQL集合

ER图 模型图(没有进行排序,混乱) DDL和DML /* Navicat MySQL Data TransferSource Server : Mylink Source Server Version : 50726 Source Host : localhost:3306 Source Database : schooldbTarget Server Type …...

STM32驱动-ads1112

汇总一系列AD/DA的驱动程序 ads1112.c #include "ads1112.h" #include "common.h"void AD5726_Init(void) {GPIO_InitTypeDef GPIO_InitStructure;RCC_APB2PeriphClockCmd( RCC_APB2Periph_GPIOA | RCC_APB2Periph_GPIOC, ENABLE );//PORTA、D时钟使能 G…...

数据结构与算法高频面试题

初级面试题及详细解答 当涉及到数据结构与算法的初级面试题时,通常涉及基本的数据结构操作、算法复杂度分析和基本算法的应用。 1. 什么是数组?数组和链表有什么区别? 解答: 数组:是一种线性数据结构,用…...

uni-app的showModal提示框,进行删除的二次确认,可自定义确定或取消操作

实现效果: 此处为删除的二次确认示例,点击删除按钮时出现该提示,该提示写在js script中。 实现方式: 通过uni.showModal进行提示,success为确认状态下的操作自定义,此处调用后端接口进行了删除操作&#…...

5款提高工作效率的免费工具推荐

SimpleTex SimpleTex是一款用于创建和编辑LaTeX公式的简单工具。它能够识别图片中的复杂公式并将其转换为可编辑的数据格式。该软件提供了一个直观的界面,用户可以在编辑LaTeX代码的同时实时预览公式的效果,无需额外的编译步骤。此外,SimpleT…...

区块链的技术架构:节点、网络和数据结构

区块链技术听起来很高大上,但其实它的核心架构并不难理解。今天我们就用一些简单的例子和有趣的比喻,来聊聊区块链的技术架构:节点、网络和数据结构。 节点:区块链的“细胞” 想象一下,区块链就像是一个大型的组织&a…...

pdfmake不能设置表格边框颜色?

找到pdfmake>build>pdfmake.js中: 找到定义的“TableProcessor.prototype.drawVerticalLine”和“TableProcessor.prototype.drawHorizontalLine”两个方法: 重新定义borderColor: var borderColor this.tableNode.table.borderColor||"#…...

laravel 使用RabbitMQ作为消息中间件

先搞定环境,安装amqp扩展 确保已安装rabbitmq-c-dev。 比如 可以使用apk add rabbmit-c-dev安装 cd ~ wget http://pecl.php.net/get/amqp-1.10.2.tgz tar -zxf amqp-1.10.2.tgz cd amqp-1.10.2 phpize ./configure make && make install cd ~ rm -rf am…...

web项目打包成可以离线跑的exe软件

目录 引言打开PyCharm安装依赖创建 Web 应用运行应用程序打包成可执行文件结语注意事项 引言 在开发桌面应用程序时,我们经常需要将网页集成到应用程序中。Python 提供了多种方法来实现这一目标,其中 pywebview 是一个轻量级的库,它允许我们…...

BFS:队列+树的宽搜

一、二叉树的层序遍历 . - 力扣&#xff08;LeetCode&#xff09; 该题的层序遍历和以往不同的是需要一层一层去遍历&#xff0c;每一次while循环都要知道在队列中节点的个数&#xff0c;然后用一个for循环将该层节点走完了再走下一层 class Solution { public:vector<vec…...

MySQL高级-SQL优化- count 优化 - 尽量使用count(*)

文章目录 1、count 优化2、count的几种用法3、count(*)4、count(id)5、count(profession)6、count(null)7、 count(1) 1、count 优化 MyISAM引擎把一个表的总行数存在了磁盘上&#xff0c;因此执行count&#xff08;*&#xff09;的时候会直接返回这个数&#xff0c;效率很高&a…...

python Flask methods

在 Flask 中&#xff0c;app.route() 装饰器用于定义 URL 路由和与之关联的视图函数。当你想指定某个 URL 可以接受哪些 HTTP 方法时&#xff0c;你可以使用 methods 参数。methods 是一个列表&#xff0c;它可以包含任何有效的 HTTP 方法。 Falsk文章中的描述&#xff1a; 链…...

three.js场景三元素

three.js是一个基于WebGL的轻量级、易于使用的3D库。它极大地简化了WebGL的复杂细节&#xff0c;降低了学习成本&#xff0c;同时提高了性能。 three.js的三大核心元素&#xff1a; 场景&#xff08;Scene&#xff09; 场景是一个三维空间&#xff0c;是所有物品的容器。可以将…...

Spring AOP(面向切面编程)详解

Spring AOP&#xff08;面向切面编程&#xff09;详解 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 什么是Spring AOP&#xff1f; Spring AOP&#xff08…...

Kafka第一篇——内部组件概念架构启动服务器zookeeper选举以及底层原理

目录 引入 ——为什么分布式系统需要用第三方软件&#xff1f; JMS 对比 组件 架构推演——备份实现安全可靠 &#xff0c; Zookeeper controller的选举 controller和broker底层通信原理 BROKER内部组件 ​编辑 topic创建 引入 ——为什么分布式系统需要用第三方软件&#…...

14、顺时针打印矩阵

题目&#xff1a; 顺时针打印矩阵 描述&#xff1a; 输入一个矩阵&#xff0c;按照从外向里以顺时针的顺序依次打印出每一个数字&#xff0c; 例如&#xff0c; 如果输入如下矩阵&#xff1a; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字&#xff1a;1,2,3,4,8,1…...

ComfyUI-Impact-Pack完整安装指南:解决AI图像增强插件功能缺失问题

ComfyUI-Impact-Pack完整安装指南&#xff1a;解决AI图像增强插件功能缺失问题 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地…...

从零到一:用MMDetection在Ubuntu 20.04上搭建Faster R-CNN模型(含完整配置与避坑指南)

从零到一&#xff1a;Ubuntu 20.04下MMDetection与Faster R-CNN实战全解析 当目标检测技术遇上PyTorch生态&#xff0c;MMDetection框架正在成为工业界和学术界的新宠。本文将带您完成从裸机到完整训练Faster R-CNN模型的实战旅程&#xff0c;特别针对Ubuntu 20.04系统和NVIDIA…...

BaiduPCS-Go深度解析:从原理到实践的性能调优进阶指南

BaiduPCS-Go深度解析&#xff1a;从原理到实践的性能调优进阶指南 【免费下载链接】BaiduPCS-Go iikira/BaiduPCS-Go原版基础上集成了分享链接/秒传链接转存功能 项目地址: https://gitcode.com/GitHub_Trending/ba/BaiduPCS-Go BaiduPCS-Go作为一款功能强大的命令行百度…...

上古卷轴5天际整合包下载最新全热门MOD整合(画质+人物+功能+场景全美化)下载分享

一、整合包基础概况 新手向懒人专属整合资源&#xff0c;适配电脑Windows系统。整合包集成多款热门优质MOD&#xff0c;无需玩家单独下载模组&#xff0c;整合包整体兼容性强&#xff0c;适配主流家用电脑&#xff0c;官方提前做好模组适配优化&#xff0c;规避多数模组冲突问…...

Qt 委托模式实战:QItemDelegate 赋能 QTableView 单元格交互控件

1. 为什么需要委托模式 在Qt开发中&#xff0c;表格视图(QTableView)是最常用的数据展示控件之一。但很多开发者都遇到过这样的困扰&#xff1a;当我们需要在表格单元格中嵌入交互控件时&#xff0c;直接调用setIndexWidget方法会导致控件始终显示&#xff0c;不仅影响界面美观…...

芯片测试中的扫描压缩技术解析与应用

1. 扫描压缩技术概述在当今纳米级芯片设计中&#xff0c;扫描压缩技术已成为降低测试成本、保证测试质量的必备手段。随着芯片复杂度呈指数级增长&#xff0c;传统扫描测试方法面临两大核心挑战&#xff1a;测试数据量&#xff08;Test Data Volume&#xff09;爆炸式增长导致测…...

003、LVGL与其他GUI库对比

LVGL与其他GUI库对比:从一次内存泄漏调试说起 去年做一款智能家居中控屏,选了某款轻量级GUI库,跑了两周发现系统每隔几小时就卡死一次。用FreeRTOS的任务栈监控一看,某个绘图任务栈溢出——查了三天,发现是字体缓存没释放,每次切换界面都偷偷吃掉几百字节。后来换成LVGL…...

半导体IP产业变革:从EDA历史看IP组装业务的未来

1. 项目概述&#xff1a;从EDA的剧本看IP产业的未来 在半导体行业摸爬滚打了十几年&#xff0c;我见过太多关于“IP核”和“EDA工具”的讨论&#xff0c;但很少有人能像Arteris的CEO Charlie Janac那样&#xff0c;把这两者的关系与未来看得如此透彻。他有一句话让我印象极深&a…...

别再傻傻分不清了!MIPI DPHY和CPHY到底怎么选?从带宽、成本和PCB布线给你讲透

MIPI DPHY与CPHY工程选型实战指南&#xff1a;从理论到PCB布局的完整决策框架 在移动设备硬件设计中&#xff0c;MIPI接口的选择往往成为影响项目成败的关键决策点。当面对新一代图像传感器规格书上的DPHY/CPHY双模支持标识时&#xff0c;资深工程师的眉头总会不自觉地皱起——…...

K8s日志太乱?试试用Docker插件把容器日志直通Grafana Loki(保姆级教程)

K8s日志太乱&#xff1f;试试用Docker插件把容器日志直通Grafana Loki&#xff08;保姆级教程&#xff09; 在容器化应用的日常运维中&#xff0c;日志管理往往是最容易被忽视却又最令人头疼的环节。想象一下这样的场景&#xff1a;你的开发环境运行着十几个Docker容器&#xf…...