当前位置: 首页 > news >正文

Fish Agent:多语言 Voice-to-Voice 开源语音模型;Runway 推出摄像机运镜功能丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、AI 热潮推动!Python 超越 JavaScript,成 GitHub 最受欢迎编程语言

在这里插入图片描述

在最新的开发者平台 GitHub 的报告中,Python 已经成功超越 JavaScript,成为使用最广泛的编程语言。这一变化主要源于当前持续火热的生成式人工智能(AI)热潮。

Python 在机器学习、数据科学和科学计算领域的日益重要性,推动了其在开源社区的崛起。GitHub 指出,Python 的流行与越来越多的 STEM(科学、技术、工程和数学)开发者加入开源社区密切相关。

尽管有人担心人工智能驱动的编码可能导致开源项目中的代码质量下降,GitHub 却表示没有看到 AI 导致低质量贡献的迹象。实际上,生成式 AI 项目的贡献在 2024 年增长了 59%,而 AI 项目的总数几乎翻了一番,增长率达到了 98%。

虽然美国的开发者在 AI 贡献方面仍然处于领先地位,但来自印度、德国、日本和新加坡的开发者在整体活动方面表现出更高的活跃度。

与此同时,GitHub 观察到开发者越来越多地将 AI 模型集成到他们的工具链中,并且在向更小、更高效的模型转变,这些模型能够在本地运行,并嵌入到移动应用中。2024 年增长最快的开源 AI 项目是 「ollama/ollama」,这是一款用于在本地计算机上运行语言模型的工具。

除了对小型开源模型的关注,GitHub 还指出,开发者对图像生成和 AI 代理进行过程自动化表现出强烈的兴趣,他们正在开发更多针对特定用途的 AI 工具,例如用于学术研究的工具。在比较最受欢迎的开源 AI 项目时,虽然一些顶级项目保持稳定,但像 ollama 和 ComfyUI 这样的新项目在 2024 年日益重要。

在其 2024 年宇宙大会上,GitHub 宣布了新的语言模型集成,包括 Anthropic 的 Claude3.5Sonnet、Google 的 Gemini1.5Pro,以及 OpenAI 的 o1-preview 和 o1-mini 模型。作为微软旗下的 GitHub 正在与其合作伙伴 OpenAI 在开发者工具市场展开竞争,这一扩展标志着战略的转变。其他编程工具如 Cursor 也通过利用 Anthropic 的 Sonnet 模型获得了越来越多的开发者青睐。(@AIbase 基地)

2、Claude 3.5 Sonnet 模型增加 PDF 文件处理功能 可分析文档图像、图表和表格

近日,人工智能公司 Anthropic 宣布,在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件处理的功能,目前该功能已进入公共测试阶段。用户现在可以使用该模型分析 PDF 文档中的文本和视觉元素,包括图像、图表和表格等,适用于金融报告、法律文件以及文档翻译等多种场景。

Claude 3.5 Sonnet 的 PDF 处理过程分为三个步骤。首先,系统会从文档中提取文本内容。接着,每一页文档会被转换为图像,以便进行更深入的分析。这样一来,用户不仅可以获取文本信息,还能够洞悉 PDF 文件中的视觉信息。

值得一提的是,Claude 的 PDF 功能还可以与其他功能结合使用,比如提取特定信息并将其用作工具输入。需要注意的是,上传的文件必须小于 32MB,且页面数量不得超过 100 页。该系统目前不支持加密或密码保护的文档。(@AIbase 基地)

3、迪士尼成立新 AI 部门,探索人工智能、混合现实等新型技术的潜力

据路透社报道,华特迪士尼正在组建一个新的小组,以协调公司对人工智能和混合现实等新兴技术的使用,这家媒体巨头正积极探索 AI 等技术在电影、电视和主题公园等业务中的潜力。

根据路透社获取的电子邮件,新成立的「技术赋能办公室」(Office of Technology Enablement)将由杰米・沃里斯(Jamie Voris)领导,他是迪士尼电影制片厂的首席技术官,此前主导了迪士尼为苹果 Vision Pro 混合现实设备开发应用的工作。

迪士尼娱乐联合主席艾伦・伯格曼(Alan Bergman)在邮件中写道:「人工智能和 XR(扩展现实)技术发展迅速,将对未来的消费者体验、创意项目以及我们的业务产生深远影响。因此,迪士尼必须抓住这一激动人心的机遇,同时审慎管理其中的潜在风险。」

此前报道,迪士尼集团去年成立了一个特别工作组,致力于研究人工智能以及如何将其应用于整个集团,尽管好莱坞的编剧和演员们正努力抵制这项技术的入侵。

迪士尼去年就寻求在内部开发人工智能应用程序,并与初创公司建立合作伙伴关系。(@IT 之家)

4、苹果收购图像编辑应用 Pixelmator

iOS 和 macOS 平台的图像编辑应用 Pixelmator 发布公告,宣布团队将加入苹果公司。

公告显示,Pixelmator 已经签署了一份被苹果收购的协议,目前正在等待监管部门的批准。就目前而言,Pixelmator Pro 以及 iOS 版本的 Pixelmator 应用不会有任何重大变化,但 Pixelmator 预告接下来会有「令人兴奋」的更新。

预计在收购后,Pixelmator 会和 Final Cut 和 Logic Pro 等专业应用一样,保留独立的应用形式,并进行单独售卖,而不会像天气应用 Dark Sky 般在苹果收购后被关闭,相关技术整合入苹果自带天气应用。

Pixelmator 在 iOS 平台上售价 68 元,而进阶版的 Pixelmator Pro 在 Mac App Store 上售价 328 元,这款应用的定位类似 Adobe 的 Photoshop,不过更强调易用性和高性能(@APPSO)

5、告别随机生成!Runway 推出高级摄像机控制 像导演一样掌控镜头

知名 AI 视频生成平台 Runway 近日宣布推出全新功能——高级摄像机控制。该功能允许用户像操控真实摄影机一样,精准控制虚拟场景中的镜头移动,为 AI 视频创作带来前所未有的灵活性和掌控力。

用户可以自定义镜头移动的方向和力度,实现水平移动、环绕拍摄、位置探索、循环拍摄、快速缩放和慢速滑动等多种效果。结合速度变化的循环拍摄功能尤其适合生成吸睛的视觉循环或过渡,极大拓展了创作潜力。快速缩放则可以像电影镜头一样深入场景,而慢速滑动则能让镜头平稳地滑过场景,突出细节或营造悬念。

Runway 表示,此次更新旨在改变用户对数码相机工作的看法,实现无缝过渡和增强场景构图。高级摄像机控制功能现已在 Runway 平台上线,用户可以通过 Gen-3Alpha Turbo 模型体验。

这意味着,用户在使用文本提示、图像或视频生成新视频时,不再局限于随机生成的结果。通过高级摄像机控制,用户可以精确控制场景和主题的呈现方式,将观众带入一个栩栩如生、看似 3D 的世界,就像置身于真实的电影场景之中(@AIbase 基地)

6、Fish Agent:多语言 Voice-to-Voice 开源语音模型

Fish Agent V0.1 3B 是 FishAudio 的一个突破性的 Voice-to-Voice 模型, 最大特点是不需要传统的语义编码器/解码器(如 Whisper 和 CosyVoice)。

基于 Qwen-2.5-3B-Instruct 模型继续预训练, 使用了 2000 亿语音和文本 tokens。

模型能力:

主要功能:语音到语音转换、文字到语音合成

能准确捕捉和生成环境音频信息

支持 8 种语言的音频处理

官方 GitHub 介绍的特性:

零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。

多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。

高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。

快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。

WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。

GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。

易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。

模型地址:https://huggingface.co/fishaudio/fish-agent-v0.1-3b(@Mengshao@X&Fish Agent GitHub)

02有态度的观点

1、知乎 CEO:人是 AI 的目的

腾讯科技《潜望》栏目与知乎 CEO 周源进行了访谈,双方谈到了内容平台的创新和 AI 技术带来的影响。

在 AI 和社区的关系问题上,周源认为「人是 AI 的目的」,AI 是服务于人、赋能于人的。周源表示,AI 技术的升级是一种新的生产力,但是没有诞生新的媒介,要将新生产力的新产出写到现有媒介上,会带来机会和挑战。

周源称,知乎是人和人进行交流的平台,人和人的互动和人和 AI 的互动,是两种不同范式,它都可以成立。但把两者混为一谈,会产生很多混乱。

周源也认为把 AI 放在社区,让它跟真人交流或扮演一个用户的方式也是走不通的,因为人和人的交流需要信赖,用户必须得知道你是什么样的人。(@ APPSO)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

相关文章:

Fish Agent:多语言 Voice-to-Voice 开源语音模型;Runway 推出摄像机运镜功能丨 RTE 开发者日报

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思…...

locust压测工具环境搭建(Linux、Mac)

目录 使用anaconda搭建locust环境 1、anaconda安装python环境(推荐) 2、从conda安装locust 使用python虚拟环境搭建locust环境 1、直接安装python环境 2、从python环境安装locust 从依赖文件中安装locust环境 1、从anaconda安装locust 2、从pyt…...

欠定方程有多个真正解,超定方程可能无解所以有最小二乘解

Ax b x A\b ,但不是b/A,会报错矩阵维度不对应两个未知数,三个方程也可以是最小二乘解,因为无解满足三个方程,比如下面 A [0, 1; 1, 1;3,6]; % 一个接近奇异的矩阵 b [1; 2;3]; x A\b; % 求解线性方程组 % warning(off, MATLAB:…...

LeetCode27:移除元素

原题地址:. - 力扣(LeetCode) 题目描述 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。 假设 nums 中不等于 val 的元素数量为 k…...

JAVA 插入 JSON 对象到 PostgreSQL

博主主页:【南鸢1.0】 本文专栏:JAVA 目录 ​编辑 简介 所用: 1、 确保 PostgreSQL 数据库支持 JSON: 2、添加 PostgreSQL JDBC 驱动 3、安装和运行 PostgreSQL 4、建立数据库的连接 简介 在现代软件开发中,由于 JSON 数据…...

视图,物化视图,普通表区别简介

普通视图与物化视图的主要区别: 数据存储方式: 普通视图:不存储数据,仅包含查询定义。查询时,Oracle会根据视图的定义转换为相应的SQL语句去查询底层数据。物化视图:实际存储数据,类似于物理表。…...

C++ | Leetcode C++题解之第530题二叉搜索树的最小绝对差

题目: 题解: class Solution { public:void dfs(TreeNode* root, int& pre, int& ans) {if (root nullptr) {return;}dfs(root->left, pre, ans);if (pre -1) {pre root->val;} else {ans min(ans, root->val - pre);pre root-&g…...

使用Node.js构建实时聊天应用

使用Node.js构建实时聊天应用 Node.js简介 安装Node.js 使用npm安装依赖 创建基本的Web服务器 设置静态文件夹 创建聊天客户端 连接WebSocket 发送消息 接收消息 处理消息 实现私聊功能 实现群聊功能 用户身份验证 存储聊天记录 使用WebSocket进行文件传输 使用WebSocket进行屏…...

STM32F103C8T6学习笔记1--新建工程模板

1、简介 STM32是一系列由STMicroelectronics(瑞士意法半导体)公司设计和生产的32位微控制器产品线。这些微控制器基于ARM Cortex-M内核,并具有高性能、低功耗和多种外设接口的特点。STM32处理器被广泛应用于各种嵌入式系统领域,包…...

RK3568平台开发系列讲解(内存篇)Linux 内存优化

🚀返回专栏总目录 文章目录 一、如何正确采集 Linux 内存可用空间二、系统内存优化参考步骤2.1、优化 Linux Kernel module 所占用的内存空间2.3、将 Wi-Fi built-in kernel2.4、优化 Linux 文件系统所占用的内存空间2.5、上层优化2.6、客户定制优化2.6.1、对具体客户的具体产…...

企业数字化转型实施中的挑战与解决方案:架构引领的战略路径

在企业推动数字化转型的过程中,通常会面临复杂的挑战。随着技术的不断演进和业务环境的变化,企业架构(Enterprise Architecture, EA)成为帮助企业应对这些挑战的关键工具。通过提供一个全面的战略蓝图,EA使企业能够在保…...

《数字图像处理基础》学习05-数字图像的灰度直方图

目录 一,数字图像的数值描述 1,二值图像 2,灰度图像 3,彩色图像 二,数字图像的灰度直方图 一,数字图像的数值描述 在之前的学习中,我知道了图像都是二维信息&…...

【漏洞复现】某平台-QRcodeBuildAction-LoginSSO-delay-mssql-sql注入漏洞

《Java代码审计》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484219&idx1&sn73564e316a4c9794019f15dd6b3ba9f6&chksmc0e47a67f793f371e9f6a4fbc06e7929cb1480b7320fae34c32563307df3a28aca49d1a4addd&scene21#wechat_redirect 《Web安全》h…...

Centos安装ZooKeeper教程(单机版)

本章教程介绍,如何在Centos7中,安装ZooKeeper 3.9.3版本。 一、什么是ZooKeeper ? Apache ZooKeeper 是一个分布式协调服务,用于大型分布式系统中的管理和协调。它为分布式应用提供了一个高性能的通信框架,简化了开发人员在构建复杂分布式系统的任务。ZooKeeper 能够解决一…...

A011-基于SpringBoot的视频点播系统设计与实现

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装视频点播系统软件来发挥其高效地信息处理的作用&#xff0c…...

云原生+AI核心技术&最佳实践

以下内容是我在陕西理工大学2023级人工智能专业和网络专业的演讲内容,分享给大家。 各位老师、同学们,大家好啊!能在这里跟大家一起聊聊咱们计算机专业那些事儿,我真的觉得超级兴奋! 首先,自我介绍一下&am…...

【Android】Service

文章目录 1.service2.startService3.bindService4.区别 1.service 在Android开发中,Service 是一个可以在后台长时间运行的组件,用于执行耗时操作或执行那些不需要与用户界面直接交互的任务。Service 不依赖于用户界面,即使用户切换到其他应…...

2-142【软件无线电原理与应用作业】基于matlab的圆形阵列的波束形成进行仿真

【软件无线电原理与应用作业】基于matlab的圆形阵列的波束形成进行仿真,具有14页文档。假设发射信号载频为1GHz,圆形阵列半径为0.8米,在圆周上均匀布置30个阵元。1.画出指向0度的方向图。2.如果目标在0度,有一不相干的干扰信号在3…...

在目录中按扩展名分类文件(python学习)(11.1)

# -*- coding:utf-8 -*- # FileName :SortBySuffix.py # Time :2024/11/1 15:13 # Author :liyiwei# Python脚本按扩展名在目录中对文件进行排序 import os from shutil import movedef sort_files(directory_path):# 遍历指定目录下的所有文件和文件夹for filename i…...

【网络安全 | 漏洞挖掘】逻辑漏洞+无限制爆破实现业务瘫痪

未经许可,不得转载。 文章目录 前言正文前言 目标:target.com,是一个为设计团队服务的工作平台。 该程序允许用户创建账户并组建团队,指定的领导者担任管理员。团队类型包括: 1、免费团队:限于一个项目,最多三份文件。 2、学生团队:项目和文件无限制,学生可免费获…...

【WRF工具】MPAS(多尺度预测模型)-输出WRF初始和横向边界条件

【WRF工具】MPAS(多尺度预测模型)-输出WRF初始和横向边界条件 MPAS概述模型概述主要特点 使用MPAS输出WRF初始和横向边界条件参考 从WPS的v3.9版本开始,metgrid.exe程序能够从 跨尺度预测模型(The Model for Prediction Across Sc…...

分数阶傅里叶变换与信息熵怎么用于信号处理?

天马行空的理解与思考方式:分数阶傅里叶变换与信息熵怎么用于信号处理? ChiX-Y 快速学习,快速尝试,快速失败 已关注 35 人赞同了该文章 这篇文章希望能写的有趣,同时有质量,学习就是要多维度多角度&…...

web3.0 开发实践

优质博文:IT-BLOG-CN 一、简介 Web3.0也称为去中心化网络,是对互联网未来演进的一种概念性描述。它代表着对现有互联网的下一代版本的设想和期望。Web3.0的目标是通过整合区块链技术、分布式系统和加密技术等新兴技术,构建一个更加去中心化…...

【华为HCIP实战课程三十】中间到中间系统协议IS-IS路由渗透及TAG标识详解,网络工程师

一、路由泄露 1、默认情况Level 1不会学到Level2的明细路由,L2可以学到L1的明细路由 2、FIB数据转发,路由负载,通过随机数据中的五元组hash,hash值决定数据走哪条链路 R1设备ping和telnet通过抓包查看走的都是S1/0/0接口 抓包进行过滤;ip.a…...

大模型论文精华-20241104

工具而不是对等:框架如何影响人们对 Teams 中 AI 代理的看法 研究问题 随着人工智能技术的发展及其在团队环境中日益广泛的应用,人们对于如何理解和评价AI代理的态度和看法变得尤为重要。该研究关注于探讨不同框架下人们对AI代理的感知差异&#xff0c…...

mac ssh 连接 linux 服务器

生成 SSH 密钥对 打开终端: 你可以通过 Spotlight 搜索 “Terminal” 打开终端。 生成密钥对: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 手动复制公钥(可选) 如果 ssh-copy-id 命令不可用&#xff0…...

逻辑卷建立

逻辑卷 lvm逻辑卷即为:logical volume manager逻辑管理卷,是linux系统下管理硬盘分区的一种机制,lvm适合于管理大型存储文件,用户可以动态的对磁盘进行扩容 作用 lvm:linux系统的一个重要的存储技术 不同的硬盘的不…...

算法深度剖析:前缀和

文章目录 前言一、一维前缀和模板二、二维前缀和模板三、寻找数组的中心下标四、除自身以外数组的乘积五、和为 K 的子数组六、和可被 K 整除的子数组七、连续数组八、矩阵区域和 前言 本章将深度剖析前缀和,以及总结前缀和模板。 前缀和是一种在算法和数据处理中…...

【双目视觉标定】——1原理与实践

0 前言 双目视觉定位是目前机器(机器人)等领域中使用得非常广泛的视觉定位技术,双目视觉是模拟人的视觉系统利用两个不同位置的摄像头的视差来确定物体的位置。由于有需要采集两个摄像头的图像共同参与计算,所以双目相机装配要求…...

Java学习笔记(十二)

Mysql explain Extra MySQL的EXPLAIN语句是优化数据库查询的重要手段,其中的Extra列包含了不适合在其他列中显示但十分重要的额外信息。以下是对Extra列的详细介绍及举例: 一、Using filesort 解释:表示MySQL会对数据使用一个外部的索引排序…...