当前位置: 首页 > news >正文

Vidu 全球首发「主体参照」新功能,一键同步角色特征;GPT-4o 实时音频项目负责人离职创业丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、Reflection 70B AI 模型「塌房」:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

在这里插入图片描述

根据科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。(@IT 之家)

2、Vidu 全球首发 AI 视频生成「主体参照」新功能,一键同步角色特征

7 月份正式上线的国产视频大模型 Vidu,于昨日(9 月 11 日)的生树科技媒体开放日上发布了「主体参照」(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。

Vidu 主体参照功能是 Vidu AI 全球首发的参考一致性新功能,能够实现用户上传单一主体的图片,如真人、2D 或 3D 角色,在生成的视频中保持这些主体角色的一致性。Vidu 主体参照功能不仅支持对角色的面容、半身、全身特征进行精确控制,还涵盖了多种角色类型和画风,包括写实风格和各种艺术风格。

目前该功能面向用户免费开放,注册即可体验!体验地址:www.vidu.studio(@Founder Park)

3、GPT-4o 实时音频项目负责人离职创业,曾在 OpenAI 最早提出构建「Her」

在这里插入图片描述

今年 5 月份,OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频,以一种非常自然的形式和人类语音对话,延迟低到与人类在对话中的响应时间相似。而且,它允许用户随时打断,并能感知和回应用户的情绪。因此,该模型发布后,很多人说科幻电影《Her》中的场景照进了现实。

此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前,他是 OpenAI 音频 AGI 研究负责人,也是 OpenAI 最早提出 Her 愿景的人。他在领英的个人简介中写道,他是「专注于多模态和音频 AGI 的人工智能研究员,在 OpenAI 领导了『Her』的研究(GPT4-o 和 GPT-5),这是首个原生集成音频的 GPT 模型。」
关于离职后的创业方向,Conneau 还没有透露详细信息。但在被问及「AGI 时间表」时,他回答说自己更想追求「通用情感智能(General Emotional Intelligence,AGEI)」。(@机器之心)

4、小模型越级挑战 14 倍参数大模型,谷歌开启 Test-Time 端新的 Scaling Law

谷歌 DeepMind 的最新研究引发了广泛讨论,甚至有人猜测这可能是 OpenAI 即将发布的新模型「草莓」所采用的方法。研究的核心是通过根据 prompt 的难度,在推理阶段动态分配计算资源,从而优化大模型的推理效率。该方法在某些情况下比简单扩展模型参数更为经济有效。具体而言,研究团队探讨了如何在一定计算预算内,使用不同的计算策略解决问题,并评估这些策略的有效性。

他们研究了两种主要的测试时计算扩展机制:一是使用过程密集验证器奖励模型(PRM)来指导搜索算法,动态调整计算策略,以减少不必要的计算;二是根据 prompt 自适应地修订模型的响应,通过逐步修改先前生成的答案来提高精度。研究发现,不同计算策略的效果依赖于 prompt 的难度,他们提出了「计算最优」的扩展策略,能够以更少的计算资源超越传统的 best-of-N 方法。

研究还比较了增加预训练与测试时计算的效果,结论显示,简单和中等难度问题上,测试时计算更有效,而对于更复杂的问题,增加预训练的计算量可能更为有效。这项研究表明,尽管测试时的计算优化无法完全替代大规模预训练,但在某些场景中有显著优势。

有网友将此研究与 OpenAI「草莓」模型联系起来,猜测草莓模型可能使用类似的计算优化策略,通过在回答前「思考」来优化推理过程。这一猜测引发了广泛讨论和推测。( @LLM Space)

5、Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小

法国 AI 初创公司 Mistral 于昨日(9 月 11 日)发布 Pixtral 12B,这是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。

Pixtral 12B 模型拥有 120 亿参数,大小约为 24GB,参数大致对应于模型的解题能力,拥有更多参数的模型通常比参数较少的模型表现更优。Pixtral 12B 模型基于文本模型 Nemo 12B 构建,能够回答关于任意数量、任意尺寸图像的问题。

与 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模态模型类似,Pixtral 12B 理论上应能执行诸如为图像添加描述和统计照片中物体数量等任务。用户可以下载、微调 Pixtral 12B 模型,并能依据 Apache 2.0 许可证使用。

Mistral 开发者关系负责人 Sophia Yang 在 X 平台的一篇帖子中表示,Pixtral 12B 很快将在 Mistral 的聊天机器人和 API 服务平台 Le Chat 及 Le Plateforme 上开放测试。(@IT 之家)

02有态度的观点

1、百度李彦宏:未来大模型之间的差距将拉大

百度 CEO 李彦宏的一次内部讲话内容曝光,谈到了业界对于大模型的认识误区,涵盖大模型竞争、开源模型效率、智能体趋势等。

李彦宏认为,未来大模型之间的差距可能会越来越大,模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级;需要能几年、十几年如一日地投入,需要不断满足用户需求,关注大模型成本的降低和效率的提升。大模型应用落地也将经历从辅助工具、到智能体、再到 Al Worker 的三个阶段。

李彦宏指出,模型之间的差距是多维度的,一个维度是「能力」方面:理解能力、生成能力、逻辑推理能力、记忆能力等;另一个维度是「成本」方面:想具备这个能力或者想回答这些问题,付出的成本是多少。(@爱范儿)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述

素材来源官方媒体/网络新闻

相关文章:

Vidu 全球首发「主体参照」新功能,一键同步角色特征;GPT-4o 实时音频项目负责人离职创业丨 RTE 开发者日报

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…...

电子地图的主要功能与应用

电子地图,即数字地图,是利用计算机技术,以数字方式存储和查阅的地图。它不仅继承了传统纸质地图的基本功能,还通过现代科技手段实现了诸多创新应用。以下是电子地图的主要功能与应用: 一、主要功能 快速存取与显示&…...

基于Java+SpringBoot+Vue+MySQL的西安旅游管理系统网站

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于SpringBootVue的西安旅游管理系统网站【附源码文档】、…...

简单介绍 NVIDIA推出的图形处理单元(GPU)架构“安培架构“

概念 "安培架构"(Ampere Architecture)是 NVIDIA 推出的一款图形处理单元(GPU)架构,它是继图灵架构之后的下一代产品。安培架构最初在2020年发布,以其高性能和高效率而闻名,广泛应用…...

Qiskit:量子计算的Python工具包

Qiskit是由IBM开发的开源量子计算软件开发工具包,它提供了一套完整的工具,用于量子电路的设计、模拟、优化和执行。Qiskit支持量子算法的开发,并且可以与IBM的量子计算机硬件进行交互。 Qiskit的主要特点 量子电路设计:Qiskit允…...

Python——贪吃蛇

以下是一个简单的贪吃蛇游戏的Python代码示例: import pygame import time import random# 初始化 Pygame pygame.init()# 定义颜色 BLACK (0, 0, 0) WHITE (255, 255, 255) RED (255, 0, 0) GREEN (0, 255, 0) BLUE (0, 0, 255)# 设置屏幕尺寸 screen_width …...

WPF 依赖属性与附加属性(面试长问)

在WPF中,**依赖属性(Dependency Property)和附加属性(Attached Property)**是WPF依赖属性系统的重要组成部分。它们虽然都基于依赖属性系统,但用途、定义方式和使用场景有显著差异。以下是两者的详细解释及…...

Python 中的各括号用法

括号的使用 在Python中,括号和中括号有不同的用途: 圆括号 (): 函数调用:当你调用一个函数时,需要使用圆括号,即使没有参数。print("Hello, World!") # 调用print函数表达式分组:在…...

业务流程建模(BPM)的重要性及其应用

什么是业务流程建模(BPM)? 业务流程建模(BPM)是对企业内各项业务流程进行图形化描述的一种方法。它旨在通过可视化的方式帮助企业理解和分析现有的业务流程,从而发现潜在的问题并进行改进。BPM通常采用流程…...

isxdigit函数讲解 <ctype.h>头文件函数

目录 1.头文件 2.isxdigit函数使用 方源一把抓住VS2022&#xff0c;顷刻 炼化&#xff01; 1.头文件 以上函数都需要包括头文件<ctype.h> &#xff0c;其中包括 isxdigit 函数 #include<ctype.h> 2.isxdigit函数使用 isxdigit 函数是判断字符是否为十六进制数…...

Linux中安装NextCloud

切换为 root 账号 Ubutu 系统默认登录的用户为非 root 权限用户&#xff0c;为了能正常安装 nextCloud&#xff0c;需要切换为 root 账号。执行如下命令即可&#xff1a; sudo su 更新及安装基础包 请依次运行如下命令&#xff0c;有遇到询问的Is this ok [y/d/N]的时候直接键…...

【编程基础知识】什么是数据库事务

事务&#xff08;Transaction&#xff09;是数据库管理系统中的一个基本概念&#xff0c;用于确保数据库操作的原子性&#xff08;Atomicity&#xff09;、一致性&#xff08;Consistency&#xff09;、隔离性&#xff08;Isolation&#xff09;和持久性&#xff08;Durability…...

移植案例与原理 - XTS子系统之应用兼容性测试用例开发

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 startup子系统之syspara_lite系统属性部件 &#xff08;1&#xff09; startup子系统之syspara_lite系统属性部件 &#xff08;2&#xff09; startup子系…...

关于linux里的df命令以及inode、数据块-stat链接数以及关于awk文本处理命令中内置函数sub、gsub、sprintf

一、关于linux里的df命令以及inode、数据块-stat链接数 Linux中df命令用于显示目前在Linux系统上的文件系统的磁盘使用情况统计&#xff0c;平常这个命令也用得很多&#xff0c;但一般就是使用df -h查看各个分区的空间使用情况&#xff0c;除此外也可以使用df查看当前linux系统…...

如何本地搭建Whisper语音识别模型

要在本地搭建Whisper语音识别模型&#xff0c;您需要以下几个步骤&#xff1a; 步骤一&#xff1a;系统准备 操作系统: 建议使用Ubuntu 20.04或以上版本&#xff0c;确保系统足够稳定和兼容。硬件配置: 最好有一个强大的GPU&#xff0c;因为语音识别涉及大量的计算工作。推荐…...

微信小程序仿微信聊天界面

界面结构: 消息列表: 使用 scroll-view 实现滚动&#xff0c;每条消息使用 view 组件包裹&#xff0c;根据消息类型 (文本、图片、文件) 显示不同内容。输入框区域: 包含输入框 (textarea)、发送按钮 (button) 和上传文件按钮 (view 组件模拟)。头像: 使用 image 组件展示。 …...

文件用电脑生成的在线技巧,能够轻松将多种类型文件转二维码

现在为了能够更加快捷将文件分享给其他人查看&#xff0c;很多人会通过制作二维码的方式来存储文件&#xff0c;这样可以减少文件对内存的占用&#xff0c;而且用户扫码获取内容也更加的方便快捷。二维码能够随时更新内容&#xff0c;可以长期通过一个二维码来提供个不同的内容…...

QT实现TCP/UDP通信

服务器端&#xff1a; 客户端&#xff1a; 服务器&#xff1a; widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QTcpServer> #include <QTcpSocket> #include <QList> #include <QMessageBox> #include <QDebug&…...

流程自动化变革:看低代码开发如何赋能企业创新转型

在数字化转型的浪潮中&#xff0c;企业面临着前所未有的挑战和机遇。为了保持竞争力&#xff0c;企业必须快速适应市场变化&#xff0c;创新业务模式&#xff0c;并提高运营效率。流程自动化成为企业转型的关键&#xff0c;而低代码开发平台如JNPF&#xff0c;正成为推动这一变…...

可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!

郑重声明&#xff1a;本解读已获得论文作者的原创解读授权 文章链接&#xff1a;https://arxiv.org/pdf/2408.16768 在线demo: https://huggingface.co/spaces/ZiyuG/SAM2Point code链接&#xff1a;https://github.com/ZiyuGuo99/SAM2Point 亮点直击 无投影 3D 分割&#xff1…...

Rabbitmq中得RPC调用代码详解

文章目录 1.RPC客户端2.RabbitMQ连接信息实体类3.XML工具类 本文档只是为了留档方便以后工作运维&#xff0c;或者给同事分享文档内容比较简陋命令也不是特别全&#xff0c;不适合小白观看&#xff0c;如有不懂可以私信&#xff0c;上班期间都是在得 直接上代码了 1.RPC客户端 …...

ISAC: Toward Dual-Functional Wireless Networks for 6G and Beyond【论文阅读笔记】

此系列是本人阅读论文过程中的简单笔记&#xff0c;比较随意且具有严重的偏向性&#xff08;偏向自己研究方向和感兴趣的&#xff09;&#xff0c;随缘分享&#xff0c;共同进步~ Integrated Sensing and Communications: Toward Dual-Functional Wireless Networks for 6G and…...

split 分割字符串方法解析,substring 截取字符串方法解析;二者的作用和区别?使用时需要注意什么?附代码和运行图

目录 一. 摘要 二. split 方法 2.1 String[] split(String regix) 2.2 String[] split(String regix&#xff0c;int limit) 2.3.1 当 int < 0时&#xff0c;会按照最大数量切割字符串 2.3.2 当 int 0时&#xff0c;此时就和第一个方法一样了&#xff0c;等于没有传入…...

HTTP 协议的基本格式

HTTP协议("超文本传输协议")&#xff0c;是一个被广泛使用应用层协议&#xff0c;自1991年正式发布HTTP协议以来&#xff0c;HTTP协议就一直在更新&#xff0c;目前已经更新到3.0版本&#xff0c;但是目前主流的依旧是1.1版本&#xff0c;但依旧是一个最主流使用的应…...

STM32-HAL库开发快速入门

注:本文主要记录一下STM32CubeMX软件的使用流程,记录内容以STM32外设&#xff08;中断、I2C、USART、SPI等配置&#xff09;在STM32CubeMX中的设置为主&#xff0c;对驱动代码编写不做记录&#xff0c;所以阅读本文最好有标准库开发经验。除第2节外&#xff0c;使用的都是韦东山…...

vue3-print打印eletable某一行的数据

主页面的表格 <template><el-table :data"list"><el-table-column label"操作" align"center"><template #default"scope"><el-buttonlinktype"primary"click"handleType(scope.row)"…...

【Vue】pnpm创建Vue3+Vite项目

初始化项目 &#xff08;1&#xff09;cmd切换到指定工作目录&#xff0c;运行pnpm create vue命令&#xff0c;输入项目名称后按需安装组件 &#xff08;2&#xff09;使用vs code打开所创建的项目目录&#xff0c;Ctrl~快捷键打开终端&#xff0c;输入pnpm install下载项目…...

springboot配置多数据源

springboot配置多数据源 学习新技术&#xff0c;争做新青年&#xff0c;欢迎围观&#xff0c;河南老乡在上海请&#xff0c;加&#xff0c;微&#xff0c;andyfau2022&#xff0c; ----获取数据源&#xff1a;null&#xff0c;数据源为null时默认使用主数据源的。 1-yml文件…...

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题&#xff1a;墙体两侧特征混淆误匹配&#xff0c;导致建图和定位偏差&#xff0c;表现为过门跳变、外月台走歪等 解决思路&#xff1a;预期的根治方案IGICP需要较长时间完成上线&#xff0c;先使用切分地图的工程化方案&#xff0c;即墙体两侧切…...

ChatGPT+Simple Mind Map生成思维导图:快速提升学习效率

一、告别杂乱笔记&#xff0c;一键生成清晰思维导图&#xff01; 最近开始学习网络安全&#xff0c;一头扎进了各种协议、漏洞、防御机制的海洋中。信息量巨大&#xff0c;知识点零散&#xff0c;让我很快便陷入了“知识焦虑”——笔记越记越多&#xff0c;却越来越混乱&#…...