新 Chrome 插件可检测 AI 伪造声音;Canary Speech 推出用于临床对话的语音分析技术丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、新 Chrome 插件可有效检测 AI 生成的声音
为了应对即将到来的 2024 年美国总统选举,电话筛选和欺诈检测公司 Hiya 推出了一款免费的 Chrome 插件——Hiya Deepfake Voice Detector,该插件能够可靠地检测出 AI 生成的声音。这款插件通过分析视频或音频流中的声音,给出一个真实性评分,帮助用户判断声音是否为真实的或伪造的。
Hiya 表示,第三方测试者验证了该插件的准确性超过 99%,即使是对未训练过的 AI 生成声音也能有效检测。此外,Hiya 声称该插件能够识别新合成模型生成的声音,即使这些模型刚刚发布。在插件正式上线前,Engadget 进行了测试,发现其表现良好。例如,当播放一段疑似使用 AI 配音的关于布鲁斯音乐家 Howlin’ Wolf 的 YouTube 视频时,插件给出了 1/100 的真实性评分,确认该视频为深度伪造。
Hiya 总裁 Kush Parikh 在一份新闻稿中批评了社交媒体公司在防止深度伪造内容传播方面的不足:「显然,社交媒体网站有责任提醒用户他们消费的内容有很大可能是 AI 深度伪造。目前,这一责任落在了个人身上,要求他们保持警惕并使用像我们的 Deepfake Voice Detector 这样的工具来检查可疑内容。这是一个很高的要求,因此我们很高兴能够提供一种解决方案,帮助用户夺回一些主动权。」
该插件只需几秒钟即可完成声音检测,并采用信用系统来防止服务器过载。用户每天将获得 20 个信用点,这可能不足以覆盖社交媒体上大量存在的操纵性 AI 内容。尽管如此,这款插件仍为用户提供了一个有效的工具,帮助他们在信息泛滥的时代辨别真伪。(@龙剑秀南)
2、Canary Speech 推出用于临床对话的 Canary Ambient 真实语音分析技术
Canary Speech 是语音生物标记技术领域的领先企业,该公司宣布推出专为医疗保健和联络中心设计的 API 优先解决方案 Canary Ambient,该解决方案可在临床对话中提供实时语音分析,公司称这是 「同类产品中的首创」。
Canary Ambient 是一款临床决策支持软件,能够深入了解患者与医生的对话,跟踪语言模式,并对认知和行为健康状况进行实时评估。
凭借其先进的语音处理能力,Canary Ambient 可提供不显眼且有影响力的见解,帮助组织识别潜在的高危人群,使其受益于进一步评估,改善整体沟通,提高患者护理效率–所有这一切都在后台监听时完成。
Canary Speech 首席技术官 Nate Blaylock 表示:「Canary Speech 的临床环境监听技术可实现无缝声乐生物标记分析,捕捉临床医生与患者之间的自然互动,无需额外提示。」这项技术有助于临床医生识别可能受益于额外筛查的患者。
Canary Speech 首席执行官 Henry O’Connell 表示:「我们很高兴能够提供 Canary Ambient,这将使更多机构能够将声乐生物标记分析无缝集成到现有工作流程中,从而改善患者护理和客户服务。
Canary Ambient 的主要功能包括
- 实时流音频处理:捕捉临床环境和联络中心的实时音频,在对话过程中实时计算并提供声乐生物标记结果。
- 先进的日记化技术:采用 「最先进 」的日记化技术,将声音分成不同的通道,为相关双方提供清晰准确的建议。
- 角色识别:自动识别和区分参与者,无论是临床医生和患者,还是代理和客户,从而在整个对话过程中进行准确跟踪。
- 语音生物标记分析:借助 Canary Speech 的专有算法,Canary Ambient 可分析语音中的健康症状,如焦虑、抑郁、MCI
和阿尔茨海默氏症。 - 可定制的分析:可灵活地将生物标记和脆弱性分析重点放在一个或两个参与者身上,从而为不同的使用案例提供有针对性的见解。
- 与现有系统无缝集成:与医疗保健系统、人工智能工具和联络中心平台轻松集成,实现持续的数据流和实时反馈。
- 即时反馈和见解:为临床医生和客户服务人员提供实时分析,通过即时的声音数据洞察,帮助他们做出明智的决策。
- 安全、合规的数据处理:确保所有音频数据符合 HIPAA、HITRUST 等隐私和安全标准以及呼叫中心的相关规定,保护敏感信息的安全。(@
med-tech innovation news)
3、智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
智源研究院于昨日(10 月 22 日)发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。
据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。
Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。(@ IT 之家)
4、马斯克的 xAI 正式发布 API,开发者可将 Grok 集成到其他应用
埃隆・马斯克的人工智能公司 xAI 正式发布了其应用程序编程接口(API),允许开发者将 Grok 集成到其他应用程序中。
马斯克在周一宣布了这一消息,并同时在 xAI 网站上发布了该接口的链接。此前,马斯克曾在 8 月份确认将为 Grok 提供 API 的计划,并在 3 月份开源了该软件的权重。
要查看和使用 API,用户必须登录他们的 xAI 账户,并在个人资料设置中选择「Request Access」来申请访问 PromptIDE 和 API。目前,API 只有一个模型,名为「grok-beta」,其价格为每百万输入 token 为 5 美元,每百万输出 token 为 15 美元。
API 还允许用户执行函数调用,以便 Grok 可以与数据库、搜索引擎和其他外部软件工具集成。
马斯克和 xAI 于去年 11 月推出了 Grok,这是该公司的第一个产品,并在今年 4 月推出了 Grok 1.5V 视觉处理模型。
今年 5 月,一份文件显示,xAI 在 B 轮融资中筹集了 60 亿美元,此前马斯克在 1 月否认了有关该公司计划筹集资金的报道。马斯克还在 7 月谈到了特斯拉可能投资 xAI,但他同时指出,这样的投资需要获得股东的批准。(@ IT 之家)
5、Meta 重启面部识别技术,打击「假名人」诈骗
据路透社报道,当地时间 22 日,在因隐私和监管压力于三年前关闭 Facebook 的面部识别功能后,Meta 目前宣布正在重新测试该服务,以打击「名人诱饵」诈骗。
Meta 表示,将在试验中招募约 50000 名公众人物,自动将他们的 Facebook 头像与疑似诈骗广告中的图像进行比较。如果图像一致且 Meta 判断该广告是诈骗,将会阻止这些广告。参与的名人将会收到通知,并且如果不愿参与,可以选择退出。
该试验计划从 12 月开始在全球范围内推出,部分未获得监管批准的地区如英国、欧盟、韩国以及美国得克萨斯州和伊利诺伊州将不包括在内。
Meta 内容政策副总裁 Monika Bickert 表示:「我们的目标是尽可能多地为这些公众人物提供保护。他们可以选择退出,但我们希望提供这样一种保护,并使参与变得简单。」(@ IT 之家)
02有态度的观点
1、小鹏自动驾驶负责人:端到端很容易方向错了
10 月 21 日,晚点 LatePost 发布了与小鹏自动驾驶负责人李力耘的访谈内容。
在访谈中,李力耘提到,端到端其实很容易走错方向。他表示,小鹏和华为的方向大致一致的,是正确的。然而有的厂商会有一些混淆,把一些小模型通过规则的连接看成是端到端,或者直接做一个车上的端到端模型,其实这些都会有问题。
例如,借助规则堆砌小模型来做端到端,会导致厂商仍然需要大量优秀的规则工程师;如果是在车上部署一个端到端模型,短期内可能见效很快,但是它长期的能力会受限于模型本身的大小。
随后,李力耘也在微博转发了该篇访谈内容,并表示「小鹏更着重长远的发展,目前选择的路线与 Open AI 是一致的,我们认为,未来的自动驾驶竞争在云端,小鹏已经开始布局云端大模型。在云端实现强化训练后蒸馏到车上,极大提高了端到端的上限。不久后小鹏端到端表现将会有极大的提升,欢迎各位持续关注小鹏的 AI 智驾。」(@ APPSO)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
相关文章:

新 Chrome 插件可检测 AI 伪造声音;Canary Speech 推出用于临床对话的语音分析技术丨 RTE 开发者日报
开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…...

1. 路由定义
1. 通过配置文件形式 配置方式与laravel的配置方式相似 <?php use Hyperf\HttpServer\Router\Router;Router::get(/hello-hyperf, function () {return Hello Hyperf.; });// 设置一个 GET 请求的路由,绑定访问地址 /get 到 App\Controller\IndexController 的 …...

我们可以用微服务创建状态机吗?
大家好,我是锋哥。今天分享关于【我们可以用微服务创建状态机吗?】面试题?希望对大家有帮助; 我们可以用微服务创建状态机吗? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 是的,微服务架构可…...

邦芒贴士:职场新人需远离的7种坏习惯
咱们每一个人都会有这样那样的毛病,而试用期就是试毛病的大小。对于职场新人来说,第一份工作很容易暴露这样那样的职业毛病。职业习惯直接决定了我们以后的职业发展,职业能力。对于职场新人来说,在试用期内,一些职场坏…...

面向医院的统一支付平台产品经验分享
我们面向医院的统一支付平台其实应该属于四方平台的范畴,依托于微信、支付宝等第三方支付平台和银联、银行等渠道生存。 二、医院常见系统说明: 先普及一下医院的系统情况: HIS(医院信息系统Hospital Information System):医院内的核心系统,为医院所属各部门提供病人诊…...

http作业
配置nginx服务通过ip访问多网站 1、前提配置 2、安装nginx服务 3、配置多IP 在linux主机上查看ip地址 4、定义nginx文件 5、在主机创建文件,重启nginx服务 6、测试...

AlDente Pro for Mac电脑 充电限制保护工具 安装教程【简单,轻松上手】
Mac分享吧 文章目录 AlDente Pro for Mac 充电限制保护工具 安装完成,软件打开效果一、AlDente Pro for Mac 充电限制保护工具 Mac电脑版——v1.28.41️⃣:下载软件2️⃣:安装软件,将安装包从左侧拖入右侧文件夹中,等…...

C语言数据结构之算法复杂度
目录 一、数据结构是什么 二、算法是什么 三、算法的效率 3.1 复杂度的概念 四、时间复杂度 4.1 大O渐进表示法 4.2 算法题分析 五、空间复杂度 5.1 复杂度对比 5.2 算法题题分析 正文开始 一、数据结构是什么 每个计算机专业的同学在大学都会接触到一门计算机必修课《数…...

HDU RSA
翻译成中文后: 思路:由题易得,d * e y * f ( n ) 1 ,且gcd ( e , f ( n ) ) 1,所以用扩展欧几里得求出 d ,但要保证 d 是非负的,最有用快速幂求出每个字符即可。 #include<bits/stdc.h> using namespace std;…...

数据仓库建设 : 主题域简介
在数据仓库建设中,主题域是数据模型的一个重要概念,它帮助构建逻辑清晰、层次分明的数据结构。主题域的设计基于企业的业务结构,将业务中的关键部分提炼出来,划分为若干个主题域。每个主题域对应一个特定的业务领域,便…...

开源表单生成器OpnForm
什么是 OpnForm ? OpnForm 是一个开源的表单构建工具,旨在简化创建自定义表单的过程,特别适合无编码知识的用户。它通过人工智能优化表单创建流程,支持多种用途,如联系人表单、调查表等。OpnForm 提供了一个直观的拖放…...

Zookeeper面试整理-Zookeeper的基础概念
Zookeeper的基础概念是理解其作为分布式协调服务的核心要素。以下是一些关键的基础概念: 1. Zookeeper是什么? Zookeeper 是一个开源的分布式协调服务,用于分布式应用中的配置管理、命名服务、分布式锁、集群管理等任务。它提供了一组简单的原语,帮助开发人员构建健壮的分布…...

验证archive_command配置是否正确
要验证 archive_command 配置是否正确,你可以按照以下步骤进行: 检查配置文件: 确保 postgresql.conf(或你的 PostgreSQL 实例使用的任何自定义配置文件)中的 archive_command 已经设置为你想要的命令。 重启 …...

2024.10.19小米笔试题解
第一题数独计数 考虑dfs遍历所有情况 n = int(input())def check(grid, x, y, v):dx = [1, 0, -1, 0]dy = [0, 1, 0, -1]for i in range(4):nx, ny = x + dx[i], y + dy[i]if 0 <= nx < 3 and 0 <= ny < 3:if grid[nx][ny] == 0:continueif abs(grid[nx][ny] - v…...

SQL-SERVER导入excel表格
首先先找到数据源,如上图。我们用的是excel表格。 这里你需要选择excel版本,反正你随便选,应该没什么问题的。 再导入数据 我们需要导入最后那个,也就是OLE DB Provider for SQL SERVER 只有这个才能导入到当前的数据库中 接下来…...

Vue学习笔记(三、v-cloak、v-text、v-html指令)
一、 v-cloak v-cloak 是 Vue.js 提供的一个特殊指令,用于在 Vue 实例准备完毕并开始进行 DOM 编译之前隐藏未编译的模板。它通常用于防止页面闪烁或者展示未编译的 Vue 模板语法。 你可以简单地在 HTML 元素上添加 v-cloak 指令,然后在确保 Vue…...

Java | Leetcode Java题解之第496题下一个更大元素I
题目: 题解: class Solution {public int[] nextGreaterElement(int[] nums1, int[] nums2) {Map<Integer, Integer> map new HashMap<Integer, Integer>();Deque<Integer> stack new ArrayDeque<Integer>();for (int i num…...

【ArcGIS微课1000例】0125:ArcGIS矢量化无法自动完成面解决方案
文章目录 一、坐标系统问题二、正确使用自动完成面工具一、坐标系统问题 1. 数据库坐标系 arcgis矢量化的过程中,无法自动完成面,可能是因为图层要素没有坐标系造成的。双击数据库打开数据库属性,可以查看当前数据框的坐标系。 2. 图层坐标系 双击图层,打开图层属性,切…...

slam技术支持下的果园作物估产论文汇总
文章目录 2019ROLS : Robust Object-level SLAM for grape counting(CVPR) 2021PATHoBot: A Robot for Glasshouse Crop Phenotyping and Intervention 2023ORB-Livox: A real-time dynamic system for fruit detection and localization(Com…...

政安晨【零基础玩转各类开源AI项目】基于本地Ubuntu (Linux ) 系统应用Gradio-Lite:无服务器 Gradio 完全在浏览器中运行
目录 简介 什么是@gradio/lite? 入门 1.导入 JS 和 CSS 2. 创建标签 3. 在标签内编写你的 Gradio 应用程序 更多示例:添加其他文件和要求 多个文件 其他要求 SharedWorker 模式 代码和演示playground 1.无服务器部署 2.低延迟 3. 隐私和安全 限制 尝试一下!…...

Spring 中的 @AUtowire 和 @Resource 用法和原理,以及避坑
🌟 Why:了解 Autowire 和 Resource 的高级用法和原理对于开发大型企业级应用至关重要。这些注解不仅帮助我们实现组件之间的松耦合,还能提高代码的可维护性和可测试性。掌握它们的高级用法可以让我们更灵活地处理复杂的依赖关系。 …...

速盾:cdn能加速游戏吗?
CDN(内容分发网络)是一种通过分布在全球不同地区的服务器来缓存和传输网络内容的技术。它的主要目的是提高内容的传输速度和用户体验。虽然CDN主要用于加速网站的访问和内容传输,但它也可以应用于游戏加速。 在传统的在线游戏中,…...

速盾:高防服务器防火墙的特性是什么?
高防服务器防火墙是一种专业的网络安全设备,用于保护服务器免受各种网络攻击的侵害。它具有许多特性,以确保服务器的安全性和可靠性。 第一个特性是入侵检测系统(IDS)。高防服务器防火墙可以监视服务器上的网络流量,并…...

初识git · 远程操作
目录 前言: 理解分布式版本控制系统 远程仓库 仓库操作 克隆仓库 推送和抓取 特殊文件 取别名 标签管理 前言: 在基本操作,分支管理这几个部分,我们都会在本地仓库操作了,但是目前还没有办法将自己的代码远程…...

深度学习:卷积神经网络(CNN)详解
卷积神经网络(CNN)详解 卷积神经网络(Convolutional Neural Network, CNN)是一种专为处理具有网格结构数据(如图像)的深度学习模型。CNN通过引入卷积层、池化层等独特的操作,能够有效提取局部特…...

软件测试学习笔记丨Pycharm实用技巧
本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/23459 PyCharm 应该是大多数 python 开发者的首选 IDE,每天我们都在上面敲着熟悉的代码,写出一个又一个奇妙的功能。它是帮助用户在使用 Python 语言开发时提高其效率的…...

Vue学习笔记(二、Vue.js的引入与对象创建)
一、引入vue 1.通过cdn引入: <script src"https://cdn.jsdelivr.net/npm/vue2/dist/vue.js"></script> 2.本地引入: <script src"./lib/vue.js"></script> 二、创建Vue对象 代码参考如下: …...

从0-1搭建金融智能助理保姆级教程:拆箱即用的微信公众号后端+AI Agents智能体框架
大模型LLM 应用AI Agents框架,为我们提供了非常便利的自动化执行任务的能力。微信公众号(订阅号) 是非常适合落地各种AI Agents的场景,我们可以利用微信公众号提供的文本、图像、语音的输入,在自己服务器上部署一套API框架,把自己…...

Yolov10训练的餐盘菜品目标检测软件(包含源码及数据集)
本文摘要 摘要:本文主要使用YOLOV10深度学习框架自训练了一个“餐盘菜品目标检测模型”,基于此模型使用PYQT5实现了一款界面软件用于功能演示。让您可以更好的了解和学习,该软件支持图片、视频以及摄像头进行目标检测,本系统所涉…...

Active Directory(活动目录)密码审核工具
什么是Active Directory密码审核 Active Directory密码审核涉及监控用户密码的状态及其身份验证尝试,以便 IT 管理员收到有关弱 Active Directory密码或任何异常身份验证行为的通知。 Active Directory密码审核可帮助管理员评估用户密码的强度并采取必要措施来加强…...