当前位置: 首页 > news >正文

Kyutai 开源对话模型 Moshi;李飞飞空间智能公司已筹集超过 2.3 亿美元丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、Kyutai 发布开源对话式 AI 助手 Moshi

法国人工智能实验室 Kyutai 发布了两个版本的人工智能助手 Moshi,能够与用户进行自然对话。在 7 月推出 AI 助手 Moshi 之后,Kyutai 现已按照承诺发布了开源模型。该版本包括几个组件:技术报告、Moshi 及其 Mimi 编解码器的权重以及 PyTorch、Rust 和 MLX 中的流式推理代码。

据报告称,Moshi 由三个主要组件组成:Helium,一个 7B 语言模型;Mimi,一个神经音频编解码器;以及一个新的多流架构。该系统可以对具有重叠和中断的实时对话进行建模。Kyutai Labs 提供了两个带有人工生成声音的 Moshi 模型。更多详细信息可在发表的论文和 GitHub 存储库中找到。

在演示中,Kyutai 首席执行官 Patrick Perez 解释说,Moshi 是由一个八人团队在短短六个月内开发的。Moshi 的与众不同之处在于它能够实时说话和聆听。Kyutai 声称 Moshi 的理论延迟仅为 160 毫秒,而实际上,延迟在 200 到 240 毫秒之间。

Moshi 的架构基于一种新方法,Kyutai 称之为「音频语言模型」。该模型不会像往常一样将语音转换为文本,而是对音频数据进行大量压缩并将其视为伪词。这使得它可以直接处理音频数据并预测语音,使其成为一个原生多模态模型,类似于 GPT-4o。

Kyutai 使用了各种数据源进行训练,包括人体运动数据和 YouTube 视频。首先,训练了一个名为 Helium 的纯文本模型。然后,使用文本和音频数据进行联合训练。使用合成对话对对话进行微调。

由于底层语言模型只有 70 亿个参数,因此它在对话中表现出小型模型的常见局限性。尽管如此,语言能力和速度令人印象深刻,并暗示了当这项技术采用更强大、更大的模块时,其潜力巨大。

为了让 Moshi 拥有一致的声音,Kyutai 与一位名叫 Alice 的配音演员合作。她录制了各种风格的独白和对话,然后用于训练语音合成系统。(@大模型 Daily)

2、快手可灵 AI 发布 1.5 模型:新增「运动笔刷」,支持生成 1080p 视频

在这里插入图片描述

快手可灵 AI 今日面向全球发布可灵 1.5 模型,新增「运动笔刷」功能。据介绍,「运动笔刷」功能为图片中的元素(人或物体等)指定运动轨迹,还支持额外指定静止区域,提升画面可控性。

同时,可灵 AI 的视频画质有所提升,支持生成 1080p 视频,同时构图更美观、动作更合理、文本相关性提升。

快手高级副总裁盖坤 9 月 13 日在投资者日上披露,截至目前,已有超过 260 万人使用过快手的视频生成大模型可灵 AI,并累计生成超 2700 万个视频。产品发布以来,可灵 AI 已进行了 9 次迭代和升级,近期,可灵 AI 正在内测全新的 1.5 版本基础模型。

今年 8 月 23 日,快手可灵 AI 推出会员订阅计划,其中连续包月首月最低价 19 元、次月 58 元,可生成约 66 个视频或 3300 张图片,还可享受高表现视频生成、视频延长、大师运镜等多项会员专属功能。

据快手官方介绍,可灵大模型为快手 AI 团队自研,采用 Sora 相似的技术路线,结合多项自研技术创新、效果对标 Sora。快手可灵目前包括 AI 图片、AI 视频等功能,支持文字生成图片 / 视频,还能调节各项参数,免费用户使用会消耗「灵感值」,每日消耗完后便需付费使用。(@IT 之家)

3、AI 先驱李飞飞创业聚焦空间智能,要对整个世界建模

人工智能领域的知名华裔科学家李飞飞成立了 AI 公司「World Labs」,专注于空间智能技术的研究。李飞飞曾领导 ImageNet 项目,对深度学习算法发展有重要影响。World Labs 旨在开发能够理解 3D 世界并与之交互的 AI 模型,以支持创作、设计、学习、AR/VR 和机器人等领域的应用。公司已筹集超过 2.3 亿美元资金,预计 2025 年推出首款产品。李飞飞将这一创业视为自己职业生涯的延续和扩展。(@腾讯科技)

4、SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器

在这里插入图片描述

RISC-V 设计企业 SiFive 昨日宣布推出 Intelligence XM 系列 AI 数据流处理器。这一系列属于 SiFive 的 Intelligence 智能处理器 IP 核家族,该家族还包括 X390 等产品。

SiFive 表示 Intelligence XM 系列搭载同时具有扩展性和高效能的 AI 计算引擎,并延续了 SiFive IP 产品在计算密集型应用中优秀的每瓦性能表现。

SiFive Intelligence XM 系列的基本单元是 XM 集群,每个 XM 集群包含矩阵引擎和 4 个与之深度融合的 X-Core,而每个 X-Core 能提供 2 个矢量单元和 1 个标量单元。XM 集群支持新的矩阵指令,该指令由标量单元获取,源数据来自矢量寄存器,目的地为各个矩阵累加器。

SiFive 宣称 1 个 XM 集群每 GHz 频率可提供 16 TOPS INT8 算力或 8 TFLOPS BF16 算力,单 XM 集群持续带宽为 1TB/s。XM 集群拥有 2 种内存连接方式,一是直接通过高带宽接口访问存储模型数据的高速 SRAM,二是通过 CHI 接口访问 DDR、HBM 内存。

SiFive Intelligence XM 系列 AI 数据流处理器可通过 CHI 协议实现多 XM 集群扩展,其支持 RISC-V、x86 或 Arm 主机 CPU,也可无需主机 CPU 运行。(@IT 之家)

5、ReflectionAnyLLM

在这里插入图片描述

ReflectionAnyLLM 是一个轻量级的概念验证项目,旨在展示如何与任何支持 OpenAI 兼容 API 的大语言模型(LLM)进行基本的链式推理交互。该项目可以与本地或远程的 LLM 进行接口,允许用户在不同的提供商之间进行最小设置的切换。(@机器之心 SOTA 模型)

二、有态度的观点

1、Sam Altman 最新访谈:o1 相当于推理模型的 GPT-2

最近的 T-Mobile Capital Markets Day 活动上,OpenAI CEO Sam Altman 现身现场。他谈到了 o1 和 AI 的发展路径,以及 OpenAI 为何总能遥遥领先。

Altman 认为,o1 是第一个真正能够执行高级推理的系统,正处于推理模型的 GPT-2 阶段,未来几年发展到 GPT-4 的水平。o1 将带来新的模型使用方式,和 GPT 系列模型非常不同,它不仅仅是聊天界面。就像 ChatGPT 让 GPT-3.5 人尽皆知,o1 还需要时间磨合。o1 的出现,实现了 AI 发展阶段的跨越,带来了更加陡峭的进步曲线。OpenAI 的成功,是因为保持信念和专注,他们始终相信深度学习。Sam Altman 看好 AI 在医疗、教育、科学方面的进展,相信 AI 的发展能够带来真正可持续的经济增长与生活质量的改善。(@ APPSO)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述
素材来源官方媒体/网络新闻

相关文章:

Kyutai 开源对话模型 Moshi;李飞飞空间智能公司已筹集超过 2.3 亿美元丨 RTE 开发者日报

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、…...

Go语言的io输入输出流

Go语言的输入输出流不如其他语言那么直观,由于是通过实现接口方法的隐式继承所以比较抽象,今天具体介绍一下go语言的输入输出流。 go语言输入输出在io库中,使用Reader接口,如下: type Reader interface {Read(p []by…...

表单里面input的type属性值有哪些?

在HTML的表单&#xff08;<form>&#xff09;中&#xff0c;<input>元素是一个常用的元素&#xff0c;用于收集用户输入。每个<input>元素都包含一个type属性&#xff0c;用于定义输入字段的类型。以下是<input>元素中常见的type属性值&#xff1a; 1…...

【Redis】之Geo

概述 Geo就是Geolocation的简写形式&#xff0c;代表地理坐标。在Redis中&#xff0c;构造了能够存储地址坐标信息的一种数据结构&#xff0c;帮助我们根据经纬度来检索数据。 命令行操作方法 GEOADD 可以用来添加一个或者多个地理坐标。 GEODIST 返回一个key中两个成员之…...

常用的k8s容器网络模式有哪些?

常用的k8s容器网络模式包括Bridge模式、Host模式、Overlay模式、Flannel模式、CNI&#xff08;ContainerNetworkInterface&#xff09;模式。K8s的容器网络模式多种多样&#xff0c;每种模式都有其特点和适用场景。Bridge模式适用于简单的容器通信场景&#xff1b;Host模式适用…...

4位整数的数位和

输入一个4位数的整数&#xff0c;求其各数位上的数字之和。 输入格式: 输入在一行中给出1个4位的正整数n。 输出格式: 在一行中输出n的各数位上的数字之和。 输入样例: 1234输出样例: 10 代码如下&#xff1a; #include<stdio.h> int main() {int n;int a,b,c,d;scanf(&…...

XHTML学习

XHTML学习 1.XHTML 简介2.XHTML - 元素标准3.XHTML - 属性标准 1.XHTML 简介 XHTML是一个严格遵循 XML语法规则的 HTML 标准。它是 HTML4 的一种重构版本&#xff0c;结合了 HTML 的灵活性和 XML 的严格性&#xff0c;如今XHTML已经得到了所有主流浏览器的支持 与 HTML 相比最…...

KTH7823——16 位高精度低延时霍尔磁编码器可编程 ABZ 和 PWM 输出模式角度传感器

KTH7823 是一款高精度绝对角度霍尔传感器芯片&#xff0c;最高 16 位分辨率绝对角度输出&#xff0c;可 实现在轴向和离轴场合下的无接触式磁场角度测量。不论转速范围在 0-120000rpm 之间&#xff0c; KTH7823 都能快速准确地输出角度信息&#xff0c;适用于需要精准角…...

JDBC笔记

文章目录 准备MySQL数据的建立和建表 idea 建工程和模块设置属性配置文件编写JDBC代码URL的设置JDBC 代码配置文件 准备MySQL 数据的建立和建表 idea 建工程和模块 设置属性配置文件 编写JDBC代码 URL的设置 JDBC 代码 package com.yanyu;import java.sql.*; import java.util…...

小众语言ruby在苹果中的初步应用

前言 感觉Ruby在苹果系统中充当一种脚本语言来使用。 1、直接输入ruby没有反应 2、可显示结果的命令 ruby -e "puts Goodbye, cruel world!" 效果如下图&#xff1a; 说明苹果系统中ruby已经安装完毕&#xff0c;或者就是自带的。 3、编辑运行第一个ruby程序 输入…...

Nature: 一种基于宏基因组序列空间生成无参考的蛋白质家族的计算方法

通过全局宏基因组学揭示功能性暗物质 Unraveling the functional dark matter through global metagenomics Article, 2023-10-11 Nature [IF: 64.8] DOI: https://doi.org/10.1038/s41586-023-06583-7 原文链接&#xff1a;https://www.nature.com/articles/s41586-023-06…...

play-with-docker使用指南

Play-with-Docker(PWD)是一个在线平台,提供免费的 Docker 实验环境。它允许用户在浏览器中创建和管理 Docker 容器,适合学习和实验。国内访问需要借助于魔法工具,否则可能无法访问哦。 网站地址:https://labs.play-with-docker.com/ 一、登录play-with-docker 点击页面上…...

常见中间件漏洞靶场(tomcat)

1.CVE-2017-12615 开启环境 查看端口 查看IP 在哥斯拉里生成一个木马 访问页面修改文件后缀和文件内容 放包拿去连接 2.后台弱⼝令部署war包 打开环境 将前边的1.jsp压缩成1.zip然后改名为1.war 访问页面进行上传 在拿去连接 3.CVE-2020-1938 打开环境 访问一下 来到kali …...

一文读懂SpringCLoud

一、前言 只有光头才能变强 认识我的朋友可能都知道我这阵子去实习啦&#xff0c;去的公司说是用SpringCloud(但我觉得使用的力度并不大啊~~)… 所以&#xff0c;这篇主要来讲讲SpringCloud的一些基础的知识。(我就是现学现卖了&#xff0c;主要当做我学习SpringCloud的笔记吧&…...

tcpdump使用方法

一、centos上可以采用下面的命令进行安装。 yum install tcpdump 二、实例&#xff1a; 1、监视指定网络接口的数据包 即监听指定网卡的数据包&#xff0c;若不指定网卡&#xff0c;默认tcpdump只会监视第一个网络接口。如监听 eth0网卡&#xff0c;如下&#xff1a; tcpd…...

密码字典txt python密码字典代码

由于生成的密码数量非常庞大&#xff0c;这个过程可能需要非常长的时间来完成&#xff0c;并且会占用大量的磁盘空间。 链接&#xff1a; 密码字典下载地址610.4M 提取码: w8bi...

ubuntu安装emqx

目录 1.预先下载好emqx压缩包 2.使用tar命令解压 3.进入bin目录 5.放开访问端口18083 6.从通过ip地址访问emqx后台 7.默认用户名密码为admin/public 8.登录后台 9.资源包绑定在此博文可自取 1.预先下载好emqx压缩包 2.使用tar命令解压 sudo tar -xzvf emqx-5.0.8-el8-…...

F28335 时钟及控制系统

1 F28335 系统时钟来源 1.1 振荡器OSC与锁相环PLL 时钟信号对于DSP来说是非常重要的,它为DSP工作提供一个稳定的机器周期从而使系统能够正常运行。时钟系统犹如人的心脏,一旦有问题整个系统就崩溃。DSP 属于数字信号处理器, 它正常工作也必须为其提供时钟信号。那么这个时钟…...

数据结构和算法之线性结构

原文出处:数据结构和算法之线性结构 关注码农爱刷题&#xff0c;看更多技术文章&#xff01;&#xff01;&#xff01; 线性结构是一种逻辑结构&#xff0c;是我们编程开发工作应用最广泛的数据结构之一。线性结构是包含n个相同性质数据元素的有限序列。它的基本特征是&…...

3. 轴指令(omron 机器自动化控制器)——>MC_MoveAbsolute

机器自动化控制器——第三章 轴指令 4 MC_MoveAbsolute变量▶输入变量▶输入输出变量▶输入输出变量 功能说明▶指令详情▶时序图▶重启运动指令▶多重启动运动指令▶异常 示例程序1▶参数设定▶动作示例▶梯形图▶结构文本(ST) 示例程序2▶参数设定▶动作示例▶梯形图▶结构文…...

基于算法竞赛的c++编程(28)结构体的进阶应用

结构体的嵌套与复杂数据组织 在C中&#xff0c;结构体可以嵌套使用&#xff0c;形成更复杂的数据结构。例如&#xff0c;可以通过嵌套结构体描述多层级数据关系&#xff1a; struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

python/java环境配置

环境变量放一起 python&#xff1a; 1.首先下载Python Python下载地址&#xff1a;Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个&#xff0c;然后自定义&#xff0c;全选 可以把前4个选上 3.环境配置 1&#xff09;搜高级系统设置 2…...

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架&#xff0c;支持"一次开发&#xff0c;多端部署"&#xff0c;可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务&#xff0c;为旅游应用带来&#xf…...

srs linux

下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935&#xff0c;SRS管理页面端口是8080&#xff0c;可…...

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)

笔记整理&#xff1a;刘治强&#xff0c;浙江大学硕士生&#xff0c;研究方向为知识图谱表示学习&#xff0c;大语言模型 论文链接&#xff1a;http://arxiv.org/abs/2407.16127 发表会议&#xff1a;ISWC 2024 1. 动机 传统的知识图谱补全&#xff08;KGC&#xff09;模型通过…...

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路 在Android中&#xff0c;可以通过监听键盘的显示和隐藏事件&#xff0c;动态调整弹窗的位置。关键点在于获取键盘高度&#xff0c;并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

均衡后的SNRSINR

本文主要摘自参考文献中的前两篇&#xff0c;相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程&#xff0c;其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt​ 根发送天线&#xff0c; n r n_r nr​ 根接收天线的 MIMO 系…...

重启Eureka集群中的节点,对已经注册的服务有什么影响

先看答案&#xff0c;如果正确地操作&#xff0c;重启Eureka集群中的节点&#xff0c;对已经注册的服务影响非常小&#xff0c;甚至可以做到无感知。 但如果操作不当&#xff0c;可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...