Fish Agent:多语言 Voice-to-Voice 开源语音模型;Runway 推出摄像机运镜功能丨 RTE 开发者日报

开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、AI 热潮推动!Python 超越 JavaScript,成 GitHub 最受欢迎编程语言

在最新的开发者平台 GitHub 的报告中,Python 已经成功超越 JavaScript,成为使用最广泛的编程语言。这一变化主要源于当前持续火热的生成式人工智能(AI)热潮。
Python 在机器学习、数据科学和科学计算领域的日益重要性,推动了其在开源社区的崛起。GitHub 指出,Python 的流行与越来越多的 STEM(科学、技术、工程和数学)开发者加入开源社区密切相关。
尽管有人担心人工智能驱动的编码可能导致开源项目中的代码质量下降,GitHub 却表示没有看到 AI 导致低质量贡献的迹象。实际上,生成式 AI 项目的贡献在 2024 年增长了 59%,而 AI 项目的总数几乎翻了一番,增长率达到了 98%。
虽然美国的开发者在 AI 贡献方面仍然处于领先地位,但来自印度、德国、日本和新加坡的开发者在整体活动方面表现出更高的活跃度。
与此同时,GitHub 观察到开发者越来越多地将 AI 模型集成到他们的工具链中,并且在向更小、更高效的模型转变,这些模型能够在本地运行,并嵌入到移动应用中。2024 年增长最快的开源 AI 项目是 「ollama/ollama」,这是一款用于在本地计算机上运行语言模型的工具。
除了对小型开源模型的关注,GitHub 还指出,开发者对图像生成和 AI 代理进行过程自动化表现出强烈的兴趣,他们正在开发更多针对特定用途的 AI 工具,例如用于学术研究的工具。在比较最受欢迎的开源 AI 项目时,虽然一些顶级项目保持稳定,但像 ollama 和 ComfyUI 这样的新项目在 2024 年日益重要。
在其 2024 年宇宙大会上,GitHub 宣布了新的语言模型集成,包括 Anthropic 的 Claude3.5Sonnet、Google 的 Gemini1.5Pro,以及 OpenAI 的 o1-preview 和 o1-mini 模型。作为微软旗下的 GitHub 正在与其合作伙伴 OpenAI 在开发者工具市场展开竞争,这一扩展标志着战略的转变。其他编程工具如 Cursor 也通过利用 Anthropic 的 Sonnet 模型获得了越来越多的开发者青睐。(@AIbase 基地)
2、Claude 3.5 Sonnet 模型增加 PDF 文件处理功能 可分析文档图像、图表和表格
近日,人工智能公司 Anthropic 宣布,在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件处理的功能,目前该功能已进入公共测试阶段。用户现在可以使用该模型分析 PDF 文档中的文本和视觉元素,包括图像、图表和表格等,适用于金融报告、法律文件以及文档翻译等多种场景。
Claude 3.5 Sonnet 的 PDF 处理过程分为三个步骤。首先,系统会从文档中提取文本内容。接着,每一页文档会被转换为图像,以便进行更深入的分析。这样一来,用户不仅可以获取文本信息,还能够洞悉 PDF 文件中的视觉信息。
值得一提的是,Claude 的 PDF 功能还可以与其他功能结合使用,比如提取特定信息并将其用作工具输入。需要注意的是,上传的文件必须小于 32MB,且页面数量不得超过 100 页。该系统目前不支持加密或密码保护的文档。(@AIbase 基地)
3、迪士尼成立新 AI 部门,探索人工智能、混合现实等新型技术的潜力
据路透社报道,华特迪士尼正在组建一个新的小组,以协调公司对人工智能和混合现实等新兴技术的使用,这家媒体巨头正积极探索 AI 等技术在电影、电视和主题公园等业务中的潜力。
根据路透社获取的电子邮件,新成立的「技术赋能办公室」(Office of Technology Enablement)将由杰米・沃里斯(Jamie Voris)领导,他是迪士尼电影制片厂的首席技术官,此前主导了迪士尼为苹果 Vision Pro 混合现实设备开发应用的工作。
迪士尼娱乐联合主席艾伦・伯格曼(Alan Bergman)在邮件中写道:「人工智能和 XR(扩展现实)技术发展迅速,将对未来的消费者体验、创意项目以及我们的业务产生深远影响。因此,迪士尼必须抓住这一激动人心的机遇,同时审慎管理其中的潜在风险。」
此前报道,迪士尼集团去年成立了一个特别工作组,致力于研究人工智能以及如何将其应用于整个集团,尽管好莱坞的编剧和演员们正努力抵制这项技术的入侵。
迪士尼去年就寻求在内部开发人工智能应用程序,并与初创公司建立合作伙伴关系。(@IT 之家)
4、苹果收购图像编辑应用 Pixelmator
iOS 和 macOS 平台的图像编辑应用 Pixelmator 发布公告,宣布团队将加入苹果公司。
公告显示,Pixelmator 已经签署了一份被苹果收购的协议,目前正在等待监管部门的批准。就目前而言,Pixelmator Pro 以及 iOS 版本的 Pixelmator 应用不会有任何重大变化,但 Pixelmator 预告接下来会有「令人兴奋」的更新。
预计在收购后,Pixelmator 会和 Final Cut 和 Logic Pro 等专业应用一样,保留独立的应用形式,并进行单独售卖,而不会像天气应用 Dark Sky 般在苹果收购后被关闭,相关技术整合入苹果自带天气应用。
Pixelmator 在 iOS 平台上售价 68 元,而进阶版的 Pixelmator Pro 在 Mac App Store 上售价 328 元,这款应用的定位类似 Adobe 的 Photoshop,不过更强调易用性和高性能(@APPSO)
5、告别随机生成!Runway 推出高级摄像机控制 像导演一样掌控镜头
知名 AI 视频生成平台 Runway 近日宣布推出全新功能——高级摄像机控制。该功能允许用户像操控真实摄影机一样,精准控制虚拟场景中的镜头移动,为 AI 视频创作带来前所未有的灵活性和掌控力。
用户可以自定义镜头移动的方向和力度,实现水平移动、环绕拍摄、位置探索、循环拍摄、快速缩放和慢速滑动等多种效果。结合速度变化的循环拍摄功能尤其适合生成吸睛的视觉循环或过渡,极大拓展了创作潜力。快速缩放则可以像电影镜头一样深入场景,而慢速滑动则能让镜头平稳地滑过场景,突出细节或营造悬念。
Runway 表示,此次更新旨在改变用户对数码相机工作的看法,实现无缝过渡和增强场景构图。高级摄像机控制功能现已在 Runway 平台上线,用户可以通过 Gen-3Alpha Turbo 模型体验。
这意味着,用户在使用文本提示、图像或视频生成新视频时,不再局限于随机生成的结果。通过高级摄像机控制,用户可以精确控制场景和主题的呈现方式,将观众带入一个栩栩如生、看似 3D 的世界,就像置身于真实的电影场景之中(@AIbase 基地)
6、Fish Agent:多语言 Voice-to-Voice 开源语音模型
Fish Agent V0.1 3B 是 FishAudio 的一个突破性的 Voice-to-Voice 模型, 最大特点是不需要传统的语义编码器/解码器(如 Whisper 和 CosyVoice)。
基于 Qwen-2.5-3B-Instruct 模型继续预训练, 使用了 2000 亿语音和文本 tokens。
模型能力:
主要功能:语音到语音转换、文字到语音合成
能准确捕捉和生成环境音频信息
支持 8 种语言的音频处理
官方 GitHub 介绍的特性:
零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。
多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。
模型地址:https://huggingface.co/fishaudio/fish-agent-v0.1-3b(@Mengshao@X&Fish Agent GitHub)
02有态度的观点
1、知乎 CEO:人是 AI 的目的
腾讯科技《潜望》栏目与知乎 CEO 周源进行了访谈,双方谈到了内容平台的创新和 AI 技术带来的影响。
在 AI 和社区的关系问题上,周源认为「人是 AI 的目的」,AI 是服务于人、赋能于人的。周源表示,AI 技术的升级是一种新的生产力,但是没有诞生新的媒介,要将新生产力的新产出写到现有媒介上,会带来机会和挑战。
周源称,知乎是人和人进行交流的平台,人和人的互动和人和 AI 的互动,是两种不同范式,它都可以成立。但把两者混为一谈,会产生很多混乱。
周源也认为把 AI 放在社区,让它跟真人交流或扮演一个用户的方式也是走不通的,因为人和人的交流需要信赖,用户必须得知道你是什么样的人。(@ APPSO)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻
相关文章:
Fish Agent:多语言 Voice-to-Voice 开源语音模型;Runway 推出摄像机运镜功能丨 RTE 开发者日报
开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思…...
locust压测工具环境搭建(Linux、Mac)
目录 使用anaconda搭建locust环境 1、anaconda安装python环境(推荐) 2、从conda安装locust 使用python虚拟环境搭建locust环境 1、直接安装python环境 2、从python环境安装locust 从依赖文件中安装locust环境 1、从anaconda安装locust 2、从pyt…...
欠定方程有多个真正解,超定方程可能无解所以有最小二乘解
Ax b x A\b ,但不是b/A,会报错矩阵维度不对应两个未知数,三个方程也可以是最小二乘解,因为无解满足三个方程,比如下面 A [0, 1; 1, 1;3,6]; % 一个接近奇异的矩阵 b [1; 2;3]; x A\b; % 求解线性方程组 % warning(off, MATLAB:…...
LeetCode27:移除元素
原题地址:. - 力扣(LeetCode) 题目描述 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。 假设 nums 中不等于 val 的元素数量为 k…...
JAVA 插入 JSON 对象到 PostgreSQL
博主主页:【南鸢1.0】 本文专栏:JAVA 目录 编辑 简介 所用: 1、 确保 PostgreSQL 数据库支持 JSON: 2、添加 PostgreSQL JDBC 驱动 3、安装和运行 PostgreSQL 4、建立数据库的连接 简介 在现代软件开发中,由于 JSON 数据…...
视图,物化视图,普通表区别简介
普通视图与物化视图的主要区别: 数据存储方式: 普通视图:不存储数据,仅包含查询定义。查询时,Oracle会根据视图的定义转换为相应的SQL语句去查询底层数据。物化视图:实际存储数据,类似于物理表。…...
C++ | Leetcode C++题解之第530题二叉搜索树的最小绝对差
题目: 题解: class Solution { public:void dfs(TreeNode* root, int& pre, int& ans) {if (root nullptr) {return;}dfs(root->left, pre, ans);if (pre -1) {pre root->val;} else {ans min(ans, root->val - pre);pre root-&g…...
使用Node.js构建实时聊天应用
使用Node.js构建实时聊天应用 Node.js简介 安装Node.js 使用npm安装依赖 创建基本的Web服务器 设置静态文件夹 创建聊天客户端 连接WebSocket 发送消息 接收消息 处理消息 实现私聊功能 实现群聊功能 用户身份验证 存储聊天记录 使用WebSocket进行文件传输 使用WebSocket进行屏…...
STM32F103C8T6学习笔记1--新建工程模板
1、简介 STM32是一系列由STMicroelectronics(瑞士意法半导体)公司设计和生产的32位微控制器产品线。这些微控制器基于ARM Cortex-M内核,并具有高性能、低功耗和多种外设接口的特点。STM32处理器被广泛应用于各种嵌入式系统领域,包…...
RK3568平台开发系列讲解(内存篇)Linux 内存优化
🚀返回专栏总目录 文章目录 一、如何正确采集 Linux 内存可用空间二、系统内存优化参考步骤2.1、优化 Linux Kernel module 所占用的内存空间2.3、将 Wi-Fi built-in kernel2.4、优化 Linux 文件系统所占用的内存空间2.5、上层优化2.6、客户定制优化2.6.1、对具体客户的具体产…...
企业数字化转型实施中的挑战与解决方案:架构引领的战略路径
在企业推动数字化转型的过程中,通常会面临复杂的挑战。随着技术的不断演进和业务环境的变化,企业架构(Enterprise Architecture, EA)成为帮助企业应对这些挑战的关键工具。通过提供一个全面的战略蓝图,EA使企业能够在保…...
《数字图像处理基础》学习05-数字图像的灰度直方图
目录 一,数字图像的数值描述 1,二值图像 2,灰度图像 3,彩色图像 二,数字图像的灰度直方图 一,数字图像的数值描述 在之前的学习中,我知道了图像都是二维信息&…...
【漏洞复现】某平台-QRcodeBuildAction-LoginSSO-delay-mssql-sql注入漏洞
《Java代码审计》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484219&idx1&sn73564e316a4c9794019f15dd6b3ba9f6&chksmc0e47a67f793f371e9f6a4fbc06e7929cb1480b7320fae34c32563307df3a28aca49d1a4addd&scene21#wechat_redirect 《Web安全》h…...
Centos安装ZooKeeper教程(单机版)
本章教程介绍,如何在Centos7中,安装ZooKeeper 3.9.3版本。 一、什么是ZooKeeper ? Apache ZooKeeper 是一个分布式协调服务,用于大型分布式系统中的管理和协调。它为分布式应用提供了一个高性能的通信框架,简化了开发人员在构建复杂分布式系统的任务。ZooKeeper 能够解决一…...
A011-基于SpringBoot的视频点播系统设计与实现
摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装视频点播系统软件来发挥其高效地信息处理的作用,…...
云原生+AI核心技术&最佳实践
以下内容是我在陕西理工大学2023级人工智能专业和网络专业的演讲内容,分享给大家。 各位老师、同学们,大家好啊!能在这里跟大家一起聊聊咱们计算机专业那些事儿,我真的觉得超级兴奋! 首先,自我介绍一下&am…...
【Android】Service
文章目录 1.service2.startService3.bindService4.区别 1.service 在Android开发中,Service 是一个可以在后台长时间运行的组件,用于执行耗时操作或执行那些不需要与用户界面直接交互的任务。Service 不依赖于用户界面,即使用户切换到其他应…...
2-142【软件无线电原理与应用作业】基于matlab的圆形阵列的波束形成进行仿真
【软件无线电原理与应用作业】基于matlab的圆形阵列的波束形成进行仿真,具有14页文档。假设发射信号载频为1GHz,圆形阵列半径为0.8米,在圆周上均匀布置30个阵元。1.画出指向0度的方向图。2.如果目标在0度,有一不相干的干扰信号在3…...
在目录中按扩展名分类文件(python学习)(11.1)
# -*- coding:utf-8 -*- # FileName :SortBySuffix.py # Time :2024/11/1 15:13 # Author :liyiwei# Python脚本按扩展名在目录中对文件进行排序 import os from shutil import movedef sort_files(directory_path):# 遍历指定目录下的所有文件和文件夹for filename i…...
【网络安全 | 漏洞挖掘】逻辑漏洞+无限制爆破实现业务瘫痪
未经许可,不得转载。 文章目录 前言正文前言 目标:target.com,是一个为设计团队服务的工作平台。 该程序允许用户创建账户并组建团队,指定的领导者担任管理员。团队类型包括: 1、免费团队:限于一个项目,最多三份文件。 2、学生团队:项目和文件无限制,学生可免费获…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...
大型活动交通拥堵治理的视觉算法应用
大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动(如演唱会、马拉松赛事、高考中考等)期间,城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例,暖城商圈曾因观众集中离场导致周边…...
Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)
引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...
CMake控制VS2022项目文件分组
我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...
是否存在路径(FIFOBB算法)
题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...
DeepSeek 技术赋能无人农场协同作业:用 AI 重构农田管理 “神经网”
目录 一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析 三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍 四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度 五、实际案例大…...
学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...
HarmonyOS运动开发:如何用mpchart绘制运动配速图表
##鸿蒙核心技术##运动开发##Sensor Service Kit(传感器服务)# 前言 在运动类应用中,运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据,如配速、距离、卡路里消耗等,用户可以更清晰…...
Mysql中select查询语句的执行过程
目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析(Parser) 2.4、执行sql 1. 预处理(Preprocessor) 2. 查询优化器(Optimizer) 3. 执行器…...
使用LangGraph和LangSmith构建多智能体人工智能系统
现在,通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战,比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...
