当前位置: 首页 > news >正文

音视频技术开发周刊 | 295

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

196da72417633c8aaff8451e21976b5f.png

微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临

三位OpenAI掌舵人亲自撰文:我们应该如何治理超级智能?

OpenAI 的三位联合创始人——CEO Sam Altman、总裁 Greg Brockman、首席科学家 Ilya Sutskever 共同撰文探讨了如何治理超级智能(superintelligence)的问题。他们认为,现在是开始思考超级智能治理的好时机了--未来的人工智能系统甚至比AGI的能力还要大。 

InstructPix2Pix: 用于图像编辑的动态扩散模型

本文提出了一种协作扩散模型,无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。这个方法在图像质量和条件一致性方面表现出优越性。

FreestyleNet:自由式布局到图像生成

本文提出了一个基于diffusion model的框架,即FreestyleNet,其可以从给定的布局(layout)生成包含丰富语义的图像。

天琴实验室发布三项开源大模型加速版本

天琴实验室MUSELight大模型推理加速引擎已在HuggingFace公开发布三个lyra系列模型的加速版本,具体可关注HuggingFace主页:TMElyralab。

22ddc5f0ccc0e10ac44a239efdc6b796.png

生成式 AI 与版权法

当下的主要问题集中在使用版权作品作为训练数据是否侵犯版权,以及人工智能程序的输出是否侵犯使用图像的衍生作品。

生成式AI,可以设计芯片了

百闻不如一试,目前PaLM 2已经在谷歌的Bard平台上线开放公测,因此作者也尝试使用Bard去体会了一把PaLM 2生成Verilog代码的能力。

AIGC新玩法:任意模态输入、任意模态输出

使用AI技术,帮助听力障碍者更好地生活

英特尔宣布了帮助听力损失者的新技术,其中包括一种可以实时转录语音的AI系统。系统内置于名为 SoundWatch 的应用程序中,该应用程序使用机器学习算法来检测和识别声音,它还可以为火警或门铃等重要噪音提供警报。此外,英特尔还开发了一款新的无线耳塞原型,可以帮助用户在嘈杂的环境中更好地听到对话。这些新技术有可能大大改善听力损失者的生活质量。

https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823

b4b50952f14eea080734b215ae1f5132.png

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

3dca0f09378a51dfcd10964c2a66e867.png

电脑屏幕上的奇怪波纹究竟是什么? 

连续可变码率的非对称增益深度图像压缩

本文提出了一个连续码率可调的深度学习图像编码框架,即非对称增益变分自动编码器(AG-VAE)。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率,其额外的运算量可以忽略不计。然后,通过使用指数插值的方式,在不影响性能的情况下实现连续可变适应。

43a733d97a81c2e1bc7390267c13c5d7.png

用于联合视频和图像视觉变换器的稀疏视频管

介绍了一种新的视频分析方法,称为Sparse Video Tubes (SVT),可用于联合视频和语音处理任务。该方法使用深度学习模型来自动检测人类行为,并在视频中提取出相应的运动物体轨迹。使用此技术,可以更准确地识别和跟踪人类行为。而且,这种技术对于机器学习算法的计算量要求较低,能够处理更大规模的视频数据集。

https://ai.googleblog.com/2023/05/sparse-video-tubes-for-joint-video-and.html

媒体传输协议的演进与未来

LiveVideoStackCon 2022北京站邀请到快手传输算法负责人周超,结合快手在媒体传输上的优化与实践,基于快手KTP、KLP、LAS等协议和标准,为我们介绍了媒体传输协议的演进与面临的挑战;还分享了最新的媒体传输标准CMTP,探索未来更多可能。

海量视频处理的应对和算法实践

LiveVideoStackCon 2022 北京站邀请到沐曦AI解决方案总监——虞新阳,为大家梳理视频处理的需求及介绍沐曦应对视频处理场景的GPU产品等。

08041dd909aebab3c4426129352904d7.png

车载音响系统主观音效的客观量化

本文提出了一个连续码率可调的深度学习图像编码框架,即非对称增益变分自动编码器(AG-VAE)。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率,其额外的运算量可以忽略不计。然后,通过使用指数插值的方式,在不影响性能的情况下实现连续可变适应。

神经编码技术可以提高音频数据恢复效率

本文介绍了一项使用神经编码技术来提高音频数据恢复效率的研究。与传统的音频编码器相比,DARE 编码器产生的编码语音数据更加稀疏和冗余,这使得丢失的音频数据包可以更有效地恢复。通过实验,研究人员发现,DARE编码器和基于神经网络的解码器组合能够在不损失音频质量的情况下,显著提高音频数据恢复的效率。这项研究对音频数据传输和存储方面有着重要的应用价值,可以帮助提高音频数据的可靠性和安全性。

https://www.amazon.science/blog/neural-encoding-enables-more-efficient-recovery-of-lost-audio-packets

4e640344eb3cdf68670b013e0ee214dd.png

NVIDIA 视频编解码器 SDK 加速了新的视频创建和流媒体功能

介绍了NVIDIA Video Codec SDK的最新功能,该SDK是一组用于视频编解码的API,其中包括实时视频编码、快速GPU加速转码以及基于AI的视频增强。此外,该SDK还支持使用CUDA进行硬件加速的视频渲染和处理,可以帮助开发人员提高视频编辑和流媒体应用程序的性能和效率。

https://developer.nvidia.com/blog/new-video-creation-and-streaming-features-accelerated-by-the-nvidia-video-codec-sdk/

ffplay 播放器源代码分析

ffplay 是 FFMpeg 自带的播放器,使用了 ffmpeg 解码库和用于视频渲染显示的 sdl 库,也是业界播放器最初参考的设计标准。本文对 ffplay 源码进行分析,试图用更基础而系统的方法,来尝试解开播放器的音视频同步,以及播放/暂停、快进/后退的控制原理。

音视频编解码--多媒体格式系列开篇

183208b2afe538efea37f21ae812ad03.png

DeepRS:用于实时视频通信的基于深度学习的网络自适应 FEC 

---提出了一种新的 FEC 算法 DeepRS,它利用深度神经网络预测网络丢包,动态调整冗余率,显着提高 FEC 方案的效率。DeepRS应用 RS 编码算法对视频块进行编码,并提出了一种基于长短期记忆(LSTM)网络的丢包预测方法。在总冗余率固定的情况下,DeepRS 的恢复率比对比算法高 70%,并且 DeepRS 可以在任何网络动态下实现自适应 FEC 冗余。

a1c21bdfc13d80805c7660e01f8c2f00.png

ChatGPT浪潮下,看中国大语言模型产业发展

本篇报告将着重分析“ChatGPT的成功之路”、“中国类ChatGPT产业发展趋势”、“ChatGPT应用场景与生态建设”、“ChatGPT浪潮下的‘危’与‘机’”四个问题。

85ca831a51244bc18c874dc6a4e31a66.png

Microsoft Mesh:改变人们在现代工作场所的互动方式 

微软推出新技术 Microsoft Mesh,旨在通过混合现实、虚拟现实和增强现实等技术,改变人们之间互动和协作的方式。Microsoft Mesh 将提供一个跨平台的生态系统,允许用户在不同设备上共享虚拟空间,并进行实时协作。文章还介绍了一些具体应用场景,比如在远程办公、教育、社交娱乐、医疗等领域中使用 Microsoft Mesh 可以带来很多便利和创新。

https://techcommunity.microsoft.com/t5/microsoft-teams-blog/microsoft-mesh-transforming-how-people-come-together-in-the/ba-p/3824898

c5276971f79a8b66cd3ce1b7aa10b767.png

实时互动下视频 QoE 端到端轻量化网络建模

LiveVideoStackCon 2022北京站邀请到郑林儒老师为我们介绍视频体验数据库的建立、视频画质评估建模及其端上轻量优化。

4d3d844512908fabf8bbffc1056dc29a.png

流媒体不关心共享账号——一切都取决于定价 

作者提出了一个有趣的观点:流媒体服务商其实并不太在乎共享账号,因为他们更关心的是价格。文章指出,共享账号可能会导致一些潜在的收入损失,但相对于流媒体服务的总收入来说,这个影响并不大。相反,如果流媒体服务定价太高,用户就会更倾向于共享他们的账号和密码。因此,作者建议,流媒体服务商应该更关注定价策略,以便提供具有吸引力的价格,从而减少用户共享密码的动机。

https://www.streamingmedia.com/Articles/Post/Blog/Streamers-Dont-Care-About-Password-Sharing---It-All-Comes-Down-to-Pricing-158768.aspx



e12ed564944a342c285fd88c8c7835dc.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

相关文章:

音视频技术开发周刊 | 295

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临 三位OpenAI掌舵人亲自撰文:我们应该如何治理超级智能? OpenA…...

15稳压二级管

目录 一、基本原理 二、I-V特性 三、工作原理 四、参数 1、Vz 2、Zzt和Zzk 3、IrVr 4、VfIf 5、Pd 五、应用 1、示例1 2、串联应用 3、钳位电路 六、动态电阻 一、基本原理 稳压二极管或“击穿二极管”(有时也称为齐纳二极管)基本上与标准PN结二极管相同&#xf…...

一些零零碎碎的记录

Questions1. 用户访问多网址服务器同一个IP是怎么回事 Q:用户访问服务器的同一个IP不同网址,服务器是如何区分的A: 在 HTTP 协议中,客户端通过发送请求报文来向服务器请求资源。每个 HTTP 请求都包含一个 HTTP 头部,其中包括了一些关键信息&…...

MyBatis - Spring Boot 集成 MyBatis

文章目录 1.版本要求2.导入依赖3.自动配置2.可配置项 MyBatis-Spring-Boot-Starter 可以帮助你更快地在 Spring Boot 之上构建 MyBatis 应用。通过使用该模块我们能够快速实现以下目的: 构建单体应用程序将几乎不需要样板配置使用更少的 XML 配置 1.版本要求 MyB…...

常见开源协议介绍

开源协议是指开放源代码软件的使用、修改和分发的规则。开源协议的出现,使得开发者可以在保护自己的知识产权的同时,也可以让其他人使用、修改和分发自己的代码。本文将介绍几种常见的开源协议。 一、GPL协议 GPL(GNU General Public Licens…...

第十九章行为型模式—中介者模式

文章目录 中介者模式解决的问题结构实例存在的问题适用场景 中介者模式和代理模式的区别代理模式中介模式桥接模式总结 行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象无法单独完成的任务,它涉及算法…...

AKStream部署1:ZLMediaKit流媒体服务器(win)

环境准备: windows10/11 visual stadio 2022(.net 6) cmake 3.22.0 git bash 没讲究直接下最新的 ffmpeg : ffmpeg-5.1.2-full_build VLC播放器:VLC media player ZLMediaKit:gitee地址 1、安装上述软件 例ffmpeg下载解压至某自定…...

【Redis】Redis 中地理位置功能 Geospatial 了解一下?

文章目录 前言一、Geospatial Indexes 的数据结构二、常用命令三、实用场景示例1. 找出某一经纬度周围的餐馆2. 按照距离排序查询景点 四、在实际开发中,需要注意以下几点: 前言 Geospatial Indexes 是 Redis 提供的一种数据结构,用于存储和…...

Qt Qml 实现键鼠长时间未操作锁屏

文章目录 摘要实现思路键盘鼠标监控百度到的方法我的自己方法 最后 关键字: Qt、 Qml、 QInputEvent 、 QStandardItem、 eventFilter 摘要 今日需求: 项目中需要实时检测用户是否长时间为操作键盘和鼠标,如果超过预设时间未操作键盘和…...

常用的数字高程模型(DEM)数据介绍,附免费下载

常用的数字高程模型(DEM)数据:​ ETOPO(1.8千米) ETOPO是一种地形高程数据,由NGDC美国地球物理中心发布,与大多数高程数据不同的是,它还包含海底地形数据。 SRTM15(450…...

字节跳动面试挂在2面,复盘后,决定二战.....

先说下我基本情况,本科不是计算机专业,现在是学通信,然后做图像处理,可能面试官看我不是科班出身没有问太多计算机相关的问题,因为第一次找工作,字节的游戏专场又是最早开始的,就投递了&#xf…...

简述熔断、限流、降级

高并发场景指的是在大量用户同时访问服务时,服务能够保持稳定和高效运行的能力。 常用的解决高并发场景下服务不可用问题的技术手段包括熔断、限流和降级: - 熔断:当服务的错误率超过一定阈值时,熔断器会自动断开服务的调用&…...

Maven 工具

Maven 工具 Maven简介Maven 基础概念创建 Maven项目依赖配置生命周期与插件分模块开发聚合和继承聚合继承聚合与继承的区别 属性版本管理多环境配置与应用私服 Maven简介 Maven 本质是一个项目管理工具,将项目开发和管理过程抽象成一个项目对象模型(POM…...

iptables扩展匹配条件

文章目录 1. multiport模块2. iprange模块3. string模块4. time模块5. icmp模块6. connlimit模块7. limit模块8.tcp扩展模块9.state模块10 Iptables自定义链1.1 为什么要使用自定义链1.2 创建自定义链1.3 引用自定义链1.4 重命名自定义链1.5 删除自定义链 1. multiport模块 常…...

直播录音时准备一副监听耳机,实现所听即所得,丁一号G800S上手

有些朋友在录视频还有开在线会议的时候,都会遇到一个奇怪的问题,就是自己用麦克风收音的时候,自己的耳机和别人的耳机听到的效果不一样,像是音色、清晰度不好,或者是缺少伴奏以及背景音嘈杂等,这时候我们就…...

回归测试最小化(贪心算法,帕累托支配)

回归测试最小化(贪心算法,帕累托支配) 介绍 有时我们不能只是重新运行我们的测试(例如,当我们 换界面)。 回归测试可能很昂贵: (1)一些公司通宵运行回归测试套件。 (2) 对于嵌入式系统,我们可能必须测试正在使用的软件&#xff0…...

Python系列模块之标准库shutil详解

感谢点赞和关注 ,每天进步一点点!加油! 目录 一、shutil介绍 二 、使用详解 2.1 复制函数 2.1.1 shutil.copy 2.1.2 shutil.copy2 2.1.3 shutil.copyfile 2.1.4 shutil.copytree 2.2 移动文件 2.2.1 shutil.move 2.3 删除文件 2.3…...

pb如何播放Flash

---- Flash动画不仅包含动画,还可有声音、超文本连接,同时由于它是矢量格式文件,生成的这种包含动画、声音等的文件(*.swf)很小,非常适 合在网络上传输使用,因而在当前Web网页技术中得到很快发展。本文讨论在PowerBuilder6.5数据库编程中用Flash4提供的控件"Swflas…...

独立成分分析ICA

独立成分分析 ICA 1. 算法原理简介2.源信号与混合信号的差异2.1 独立性 Independence2.2 高斯性 Normality2.3 复杂性 Complexity 3.非高斯性的度量3.1 峭度 Kurtosis 参考文献 blind source separation (BSS) 1. 算法原理简介 mixing得到signal mixture过程: x 1…...

从零开始之如何在React Native中使用导航

好的,让我们开始学习如何在React Native中使用导航。 安装React Navigation 首先,你需要安装React Navigation库。在项目文件夹中打开终端窗口,并运行以下命令: npm install react-navigation/native 或者 yarn add react-nav…...

7.4.分块查找

一.分块查找的算法思想: 1.实例: 以上述图片的顺序表为例, 该顺序表的数据元素从整体来看是乱序的,但如果把这些数据元素分成一块一块的小区间, 第一个区间[0,1]索引上的数据元素都是小于等于10的, 第二…...

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

一、前言说明 在2011版本的gb28181协议中,拉取视频流只要求udp方式,从2016开始要求新增支持tcp被动和tcp主动两种方式,udp理论上会丢包的,所以实际使用过程可能会出现画面花屏的情况,而tcp肯定不丢包,起码…...

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载 在Kubernetes(简称K8s)中,Ingress是一个API对象,它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress,你可…...

循环冗余码校验CRC码 算法步骤+详细实例计算

通信过程:(白话解释) 我们将原始待发送的消息称为 M M M,依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)(意思就是 G ( x ) G(x) G(x) 是已知的)&#xff0…...

Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)

概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...

Neo4j 集群管理:原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 (一)概念解析 TRS(Total Return Swap)收益互换是一种金融衍生工具,指交易双方约定在未来一定期限内,基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…...

Pinocchio 库详解及其在足式机器人上的应用

Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库,专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性,并提供了一个通用的框架&…...

Xen Server服务器释放磁盘空间

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...