当前位置: 首页 > news >正文

音视频技术开发周刊 | 285

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

e0398f88558c39318761e6852c66bfdb.png

GPT-4 Office全家桶发布

谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 Copilot,再次闪瞎全世界。从此,不管是Word、PPT、Excel,还是Outlook、Teams、Microsoft Viva、Power Platform,所有这些办公软件,通通都会得到GPT-4的加持!

GPT-4开发了一门编程语言

这家伙还有什么不会的?

https://lukebechtel.com/blog/gpt4-generating-code

用ChatGPT顺手写Linux Shell脚本

ChatGPT 能够像普通语言一样理解人类写的话语,并生成与之相关的语言文字输出。将ChatGPT应用于Shell脚本编写,意味着用户可以通过语言命令输入代码、命令及参数,ChatGPT可解析用户提供的语言,将其转化为Linux shell脚本代码。

谷歌工程主管:AIGC 将在 3 年内终结编程

前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 在芝加哥计算机协会的一个虚拟会议上表示,ChatGPT和GitHub Copilot预示着编程终结的开始。Welsh 断言,生成式 AI 将在 3 年内终结编程。

ChatGPT与新摩尔定律 我们与清华教授、衔远科技创始人周伯文聊了聊

OpenAI创始人Sam Altman又通过Twitter提出了“新摩尔定律”——宇宙中的智能总量(amount of intelligence)每18个月翻一倍。面对这个AI时代的“iPhone时刻”,我们陆续邀请学界与业界的资深专家,以及行业投资人与创业者进行深度交流。

何恺明 MIT 最新演讲:未来工作将聚焦 AI for science

何恺明是 CV 领域的翘楚,其谷歌学术被引用次数已经突破40万次,在2022年人工智能全球最具影响力学者榜单中,何恺明获得第一名。

Compression for AGI

Jack Rae 是 OpenAI 的团队负责人,主要研究大型语言模型和远程记忆。此前,他在 DeepMind 工作了 8 年,领导大型语言模型 (LLM) 研究组。在本次演讲中,我们讨论了基础模型如何开始验证 70 多年前形成的假设:更好地压缩源数据的统计模型最终会从中学习更多基础和通用功能。我们首先介绍压缩的一些基础知识,然后描述跨越数千亿个参数的更大的语言模型实际上是最先进的无损压缩器。我们讨论了在实现最佳压缩的过程中可能会出现的一些新兴功能和持续限制。

「AGI OS」时代,创业者如何做应用开发

人类的特殊之处在于,人拥有了足够的智慧来发明科学的方法和工具,工具的进化是人类文明的里程碑。我相信AI是人类在21世纪的最重要工具。在21年,我们认为“2010年手机前置摄像头的成熟,让视频创作的门槛大幅降低,催生了今天我们每天都在刷的抖音快手。我们一直在思考,什么是今天让创作门槛100倍降低的技术变量,那AIGC是我相信的一个答案。”2年后,我们有了GPT和扩散模型的作为新一代开发者的新工具,特别期待开发者使用新工具能创造出独特的用户体验。欢迎和我们交流。

4487503e76f4995bdd1daa7f7950bfeb.png

ChatGPT之后,AIGC会如何革新内容创作?

AI是否会让创作者们集体“失业”,甚至让“创作”本身走向衰颓,就像机械复制时代的艺术品可能失去“灵韵”那样。换言之,AIGC的流行给了我们一个重新审视“创作”是什么、是否为人所独有这些问题的机会。

了解AIGC音频/图像数据生成,这几篇论文给你划好了重点!

与文本生成更加关注抽象语义不同,声音和视觉模态还需要生成更多的细节信息。所以,声音和视觉内容(语音、音效、音乐、图像、视频等)的生成面临着一系列挑战:如何刻画声音视觉内容中复杂且高频的数据分布;如何建模生成过程中的一对多映射问题;如何利用大规模无标注数据解决数据稀疏性问题;在基于其它模态生成时,如何解决跨模态对齐问题等。

微软3D生成扩散模型RODIN,秒级定制3D数字化身

由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

基于扩散模型的3D智能创作引擎与内容投放算法最新实践

3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。

NeuMan:从单视角视频中创建数字人

作者提出了一个新颖的框架,可以从单一野外视频中重构人物和场景,并能够渲染出新的人体姿态和视角。给定一段由移动相机捕捉的视频,作者训练了两个 NeRF 模型:一个是人类的 NeRF 模型,另一个是场景的 NeRF 模型。为了训练这些模型,作者依赖现有的方法来估计人物和场景的粗略几何形状。

5af44318556ce4a23d3b02a0f16107a9.jpeg

库克力排众议于今年推出新头显设备

在产品打造方面,该头显历经7年开发,时间投入是iPhone的两倍,外界普遍猜测苹果将于今年6月推出这款设备,这个时间节点是苹果CEO蒂姆·库克与公司团队成员内部博弈的结果。

https://www.vrtuoluo.cn/535553.html

39a96667ce7911175c81895cc5e800b4.png

AOMedia电子刊(2023第一期)

新一期AOMedia电子刊,关于AV1生态演进和技术升级的重点消息全在这里。

https://storage.googleapis.com/downloads.aomedia.org/assets/pdf/AOMedia%20Decoder%20-%20Q1%202023%20Non-Members.pdf

解读帧间快速算法

本次介绍关于帧间快速算法的几篇论文,目标是缓解HEVC/VVC中复杂划分和编码带来的巨大复杂度提升。

在线视频协同:探究画面帧的准确性

视频协作平台会涉及网络、编解码等众多技术栈,并且要支持各类终端。其中一个关键能力是实现毫秒级的同步,这对于视频协作平台十分重要。本文来自分秒帧 web多媒体开发工程师耿学岩的投稿,详解了实现毫秒级同步遇到的两个挑战和解决方案。

024a3666d67a6e2fac38dc3bae5b305d.png

音视频编解码—JPEG3—Baseline流程介绍

JPEG 有许多指定版本,JPEG base line 压缩仅包含一组最低要求:是有损的,无法准确重建原始图像。Baseline(“标准”)使用大多数网络浏览器都能识别的格式。Baseline优化创建具有优化颜色和稍小文件大小的文件。

基于残差熵编码的JPEG无损转码框架

为了实现JPEG压缩图像的无损转码,该框架引入了残差压缩的熵模型和基于上下文的熵编码模型,可以有效地学习到残差量化DCT系数的分布并压缩。由于基于深度学习的有损变换编码和残差熵编码的协作,我们提出的JPEG无损转码架构在JPEG图像的再压缩具有较大优势。在多个图像压缩评估经典数据集上进行的大量实验表明,该框架相比于JPEG压缩图像可以再平均节省21.49%的比特,比最新的具有JPEG无损转码功能的JPEG-XL在比特节省方面高出3.51%。

梦工厂开源OpenMoonRay

MoonRay是梦工厂开发的制作 MCRT 渲染器,已被用于故事片驯龙高手:隐藏的世界,巨魔世界巡回演唱会等,开源采用Apache License 2.0 许可证。

https://github.com/dreamworksanimation/openmoonray

1b42f76f9c1459dd01b37be1ac8dd4af.png

从一道面试题看 TCP 的吞吐极限

分享一个 TCP 面试题:单条 TCP 流如何打满香港到旧金山的 320Gbps 专线?(补充,写成 400Gbps 更具迷惑性,但预测大多数人都会跑偏,320Gbps 也就白给了)

https://zhuanlan.zhihu.com/p/612825623

637dd2befcc69722c3dff67d2eea26c0.png

CVPR 2023|快手视频质量评估算法被顶会收录

计算机视觉领域顶级会议Computer Vision and Pattern Recognition Conference(CVPR 2023)将于6月18日至22日在加拿大温哥华召开,来自快手音视频技术团队题为《Quality-aware Pre-trained Models for Blind Image Quality Assessment》——适用于无参考图像/视频质量评估的质量感知预训练模型的最新研究成果被会议成功收录。

客观评价模型与主观DMOS分数拟合的分享与实用性探讨

虽然客观评价方法是让计算机尽量从人的主观视角出发来预测特定视频的评分,但不同客观评价指标与主观感受的符合程度差距不同,因此需要通过客观评价模型与主观评价DMOS分数的非线性拟合结果,基于预测的准确性、一致性、稳定性、单调性来衡量该客观评价方法的好坏。

b90e2ebf2392676e96690e725d0aaa89.jpeg

MRCP在美团语音交互中的实践和应用

要将 ASR、TTS 这些技术应用到电话系统上,还需要一些额外的工作和技术支撑,其中比较重要的技术之一也就是本文将要介绍的 MRCP。

https://tech.meituan.com/2023/03/09/practice-and-application-of-mrcp-in-voice-interaction-of-meituan.html

用多个声全息图打印3D物体

在本文中,我们将探讨这种采用多个声学全息图的创新方法的工作原理,并研究其潜在的应用和局限性。声学全息图是可以将声波塑造成复杂图案的设备。它们由具有特定图案的孔或凸起的3D打印板制成。

腾讯音乐天琴实验室首次发布三套开源数据集

此次发布的三套开源数据集分别是片段翻唱数据集、哼唱数据集和歌唱评价数据集。其中,片段翻唱数据集(Lyra-CoverSegment Dataset, 简称Lyra-CS Dataset)打破目前只有全曲翻唱开源数据集的局面,有助于研究解决听歌识曲难以识别翻唱改编的问题。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲,其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段,数据集总时长近400小时,包含超53万个录音片段。

https://lyracobar.y.qq.com/index.html

70198eb42eb59e15435ee85b1110aaed.png

2年帮数百万音视频创作者解决协作痛点,这家公司做对了什么?

分秒帧是一个帮助音视频行业来解决在线生产协同的SaaS工具,它的核心价值是帮助音视频行业的从业人员去提高创作和制作的效率,节省制作成本。


活动推荐

23ad6e1f4573732bb12e6a95e0a68493.png

倒计时11天:和LiveVideoStack在2023年的第一场约会

时隔15个月,再聚北京。

时间:2fa9cb7f4a6d94a8f16ff8d9b833f6c9.png2023年3月31日 - 4月1日

报名:59bdf02895f3fc8116e33018b6b84b63.png点击【阅读原文】了解详细信息,报名参与。

相关文章:

音视频技术开发周刊 | 285

每周一期,纵览音视频技术领域的干货。新闻投稿:contributelivevideostack.com。GPT-4 Office全家桶发布谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 Cop…...

安装flume

flume最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入到hdfs中架构:开始安装一,上传压缩包,解压并更名解压:[rootsiwen install]# tar -zxf apache-flume-1.9.0-bin.tar.gz -C ../soft/[rootsiwen install]#…...

为工作排好优先级

工作,是干不完的,因此我们需要分清轻重缓急,为它们划分优先级,这样才不至于让自己手忙脚乱。 给手头的事情排上正确的优先级,是一项很重要的工作能力。 优先级有很多考量,并不是简单的先来后到的线性时间…...

超专业解析!10分钟带你搞懂Linux中直接I/O原理

我们先看一张图: 这张图大体上描述了 Linux 系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。 这篇文章就以这张图为基础,介绍 Linux 在 I/O 上做了哪些事情。 文件系统 什么是文件系统 文件系统&#xff0…...

【C++】面试101,用两个栈实现队列,包含min函数的栈,有效括号序列,滑动窗口的最大值,最小的K个数,倒置字符串,排序子序列,跳跃,数字三角形,蓝肽子序列

目录 1. 用两个栈实现队列 2.包含min函数的栈 3.有效括号序列 4.滑动窗口的最大值 5.最小的K个数 6.倒置字符串 7.排序子序列 8.数字三角形(蓝桥杯,学习一个大佬的博客....) 9.跳跃(蓝桥杯) 10.蓝肽子序列 1. 用…...

WPF 认识WPF

什么是WPF?WPF是Windows Presentation Foundation(Windows展示基础)简称,顾名思义是专门编写表示层的技术。WPF绚丽界面如下:GUI发展及WPF历史?Windows系统平台上从事图形用户界面GUI(Graphic User Interface)已经经历了多次换代&#xff0c…...

【建议收藏】PHP单例模式详解以及实际运用

PHP单例模式详解以及实际运用 什么是单例模式? 首先我们百度百科他怎么说? 单例模式,属于创建类型的一种常用的软件设计模式。通过单例模式的方法创建的类在当前进程中只有一个实例(根据需要,也有可能一个线程中属于单例,如&a…...

【十二天学java】day04-流程控制语句

第一章 流程控制语句 在一个程序执行的过程中,各条语句的执行顺序对程序的结果是有直接影响的。所以,我们必须清楚每条语句的执行流程。而且,很多时候要通过控制语句的执行顺序来实现我们想要的功能。 1.1 流程控制语句分类 顺序结构 判断…...

Pandas 与 PySpark 强强联手,功能与速度齐飞

Pandas做数据处理可以说是yyds!而它的缺点也是非常明显,Pandas 只能单机处理,它不能随数据量线性伸缩。例如,如果 pandas 试图读取的数据集大于一台机器的可用内存,则会因内存不足而失败。 另外 pandas 在处理大型数据…...

【Zabbix实战之部署篇】docker部署Zabbix+grafana监控平台

【Zabbix实战之部署篇】docker部署Zabbix+grafana监控平台 一、Zabbix介绍1.Zabbix简介2.Zabbix的优点3.Zabbix各组件介绍4.Zabbix架构图二、grafana介绍1.grafana简介2.grafana特点三、实践环境规划四、检查本地docker环境1.检查操作系统版本2.检查docker版本3.检查docker服务…...

acm省赛:高桥和低桥(三种做法:区间计数、树状数组、线段树)

题目描述 有个脑筋急转弯是这样的:有距离很近的一高一低两座桥,两次洪水之后高桥被淹了两次,低桥却只被淹了一次,为什么?答案是:因为低桥太低了,第一次洪水退去之后水位依然在低桥之上&#xff…...

stm32-定时器详解

0. 概述 本文针对STM32F1系列,主要讲解了其中的8个定时器的原理和功能 1. 定时器分类 STM32F1 系列中,除了互联型的产品,共有 8 个定时器,分为基本定时器,通用定时器和高级定时器基本定时器 TIM6 和 TIM7 是一个 16 位…...

《硬件架构的艺术》读书笔记:Chapter 1 亚稳态的世界

Chapter 1 亚稳态的世界 一、简介 同步系统中,数据和时钟有固定的因果关系(在同一时钟域(Clock Domains))中,只要数据和时钟满足建立时间和保持时间的要求,不会产生亚稳态(meastable) 静态时序分析(STA) 就是基于同步电路设计模型而出现的&am…...

开箱即用的密码框组件

写了一个小玩具,分享一下 - 组件功能: 初次进入页面时,密码隐藏显示,且无法查看真实密码 当修改密码时,触发键盘,输入框则会直接清空 此时输入密码,可以设置密码的隐藏或显示: …...

ChatGPT能否取代程序员?

目录ChatGPT能否取代程序员?ChatGPT和程序员的工作内容和工作方式ChatGPT和程序员的共同点程序员的优势程序员的实力ChatGPT和程序员的关系结论惊喜ChatGPT能否取代程序员? ChatGPT是一种非常普遍的人工智能(AI)系统,…...

案例分享 | 金融微服务场景下如何提升运维可观测性

​云原生环境下金融业务的微服务化改造以及分布式架构的部署,使得业务与开发部门的关联更为紧密,传统运维监控已满足不了业务运营需求,亟需建设具备可观测性的运维体系。所以这次我们以某金融客户的实践案例为例,跟大家说一说在金…...

CentOS8提高篇3:Centos8安装播放器(mplayer vlc)

1. 准备工作(需要配置epel, rpmfusion源); 配置epel源 下载epel dnf install epel-release 配置rpmfusion源 下载rpmforge dnf install rpmfusion-free-release-8.noarch.rpm 2. 安装mplayer和vlc 直接dnf安装 # dnf install mplayer # dnf install v…...

MySQL-存储过程

什么是存储过程我们前面所学习的MySQL语句都是针对一个表或几个表的单条 SQL 语句,但是在数据库的实际操作中,并非所有操作都那么简单,经常会有一个完整的操作需要多条SQL语句处理多个表才能完成。例如,为了确认学生能否毕业&…...

经典七大比较排序算法 · 下 + 附计数和基数排序

经典七大比较排序算法 下 附计数和基数排序1 插入排序1.1 算法思想1.2 代码实现1.3 插入排序特性2 希尔排序2.1 算法思想2.2 代码实现2.3 希尔排序特性3 七大比较排序特性总结4 计数排序4.1 算法思想4.2 代码实现4.3 计数排序特性5 基数排序5.1 算法思想5.2 代码实现1 插入排…...

HTTPS协议,看这篇就够了

不安全的HTTP 近些年来,越来越多的网站使用 HTTPS 协议进行数据传输,原因在于 HTTPS 相较于 HTTP 能够提供更加安全的服务。 很多浏览器对于使用 HTTP 协议的网站会加上『警告』的标志表示数据传输不安全,而对于使用 HTTPS 协议的网站会加上…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下,越来越多的求职者将目光投向了日本及中日双语岗位。但是,一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧?面对生疏的日语交流环境,即便提前恶补了…...

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容:参考网站: PID算法控制 PID即:Proportional(比例)、Integral(积分&…...

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现 题目链接:3577. Count the Number of Computer Unlocking Permutations 1. 解题思路 这一题其实就是一个脑筋急转弯,要想要能够将所有的电脑解锁&#x…...

渲染学进阶内容——模型

最近在写模组的时候发现渲染器里面离不开模型的定义,在渲染的第二篇文章中简单的讲解了一下关于模型部分的内容,其实不管是方块还是方块实体,都离不开模型的内容 🧱 一、CubeListBuilder 功能解析 CubeListBuilder 是 Minecraft Java 版模型系统的核心构建器,用于动态创…...

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

华硕a豆14 Air香氛版,美学与科技的馨香融合

在快节奏的现代生活中,我们渴望一个能激发创想、愉悦感官的工作与生活伙伴,它不仅是冰冷的科技工具,更能触动我们内心深处的细腻情感。正是在这样的期许下,华硕a豆14 Air香氛版翩然而至,它以一种前所未有的方式&#x…...

JS手写代码篇----使用Promise封装AJAX请求

15、使用Promise封装AJAX请求 promise就有reject和resolve了,就不必写成功和失败的回调函数了 const BASEURL ./手写ajax/test.jsonfunction promiseAjax() {return new Promise((resolve, reject) > {const xhr new XMLHttpRequest();xhr.open("get&quo…...

腾讯云V3签名

想要接入腾讯云的Api,必然先按其文档计算出所要求的签名。 之前也调用过腾讯云的接口,但总是卡在签名这一步,最后放弃选择SDK,这次终于自己代码实现。 可能腾讯云翻新了接口文档,现在阅读起来,清晰了很多&…...

多模态图像修复系统:基于深度学习的图片修复实现

多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...