音视频技术开发周刊 | 285
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
GPT-4 Office全家桶发布
谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 Copilot,再次闪瞎全世界。从此,不管是Word、PPT、Excel,还是Outlook、Teams、Microsoft Viva、Power Platform,所有这些办公软件,通通都会得到GPT-4的加持!
GPT-4开发了一门编程语言
这家伙还有什么不会的?
https://lukebechtel.com/blog/gpt4-generating-code
用ChatGPT顺手写Linux Shell脚本
ChatGPT 能够像普通语言一样理解人类写的话语,并生成与之相关的语言文字输出。将ChatGPT应用于Shell脚本编写,意味着用户可以通过语言命令输入代码、命令及参数,ChatGPT可解析用户提供的语言,将其转化为Linux shell脚本代码。
谷歌工程主管:AIGC 将在 3 年内终结编程
前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 在芝加哥计算机协会的一个虚拟会议上表示,ChatGPT和GitHub Copilot预示着编程终结的开始。Welsh 断言,生成式 AI 将在 3 年内终结编程。
ChatGPT与新摩尔定律 我们与清华教授、衔远科技创始人周伯文聊了聊
OpenAI创始人Sam Altman又通过Twitter提出了“新摩尔定律”——宇宙中的智能总量(amount of intelligence)每18个月翻一倍。面对这个AI时代的“iPhone时刻”,我们陆续邀请学界与业界的资深专家,以及行业投资人与创业者进行深度交流。
何恺明 MIT 最新演讲:未来工作将聚焦 AI for science
何恺明是 CV 领域的翘楚,其谷歌学术被引用次数已经突破40万次,在2022年人工智能全球最具影响力学者榜单中,何恺明获得第一名。
Compression for AGI
Jack Rae 是 OpenAI 的团队负责人,主要研究大型语言模型和远程记忆。此前,他在 DeepMind 工作了 8 年,领导大型语言模型 (LLM) 研究组。在本次演讲中,我们讨论了基础模型如何开始验证 70 多年前形成的假设:更好地压缩源数据的统计模型最终会从中学习更多基础和通用功能。我们首先介绍压缩的一些基础知识,然后描述跨越数千亿个参数的更大的语言模型实际上是最先进的无损压缩器。我们讨论了在实现最佳压缩的过程中可能会出现的一些新兴功能和持续限制。
「AGI OS」时代,创业者如何做应用开发
人类的特殊之处在于,人拥有了足够的智慧来发明科学的方法和工具,工具的进化是人类文明的里程碑。我相信AI是人类在21世纪的最重要工具。在21年,我们认为“2010年手机前置摄像头的成熟,让视频创作的门槛大幅降低,催生了今天我们每天都在刷的抖音快手。我们一直在思考,什么是今天让创作门槛100倍降低的技术变量,那AIGC是我相信的一个答案。”2年后,我们有了GPT和扩散模型的作为新一代开发者的新工具,特别期待开发者使用新工具能创造出独特的用户体验。欢迎和我们交流。
ChatGPT之后,AIGC会如何革新内容创作?
AI是否会让创作者们集体“失业”,甚至让“创作”本身走向衰颓,就像机械复制时代的艺术品可能失去“灵韵”那样。换言之,AIGC的流行给了我们一个重新审视“创作”是什么、是否为人所独有这些问题的机会。
了解AIGC音频/图像数据生成,这几篇论文给你划好了重点!
与文本生成更加关注抽象语义不同,声音和视觉模态还需要生成更多的细节信息。所以,声音和视觉内容(语音、音效、音乐、图像、视频等)的生成面临着一系列挑战:如何刻画声音视觉内容中复杂且高频的数据分布;如何建模生成过程中的一对多映射问题;如何利用大规模无标注数据解决数据稀疏性问题;在基于其它模态生成时,如何解决跨模态对齐问题等。
微软3D生成扩散模型RODIN,秒级定制3D数字化身
由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。
基于扩散模型的3D智能创作引擎与内容投放算法最新实践
3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。
NeuMan:从单视角视频中创建数字人
作者提出了一个新颖的框架,可以从单一野外视频中重构人物和场景,并能够渲染出新的人体姿态和视角。给定一段由移动相机捕捉的视频,作者训练了两个 NeRF 模型:一个是人类的 NeRF 模型,另一个是场景的 NeRF 模型。为了训练这些模型,作者依赖现有的方法来估计人物和场景的粗略几何形状。
库克力排众议于今年推出新头显设备
在产品打造方面,该头显历经7年开发,时间投入是iPhone的两倍,外界普遍猜测苹果将于今年6月推出这款设备,这个时间节点是苹果CEO蒂姆·库克与公司团队成员内部博弈的结果。
https://www.vrtuoluo.cn/535553.html
AOMedia电子刊(2023第一期)
新一期AOMedia电子刊,关于AV1生态演进和技术升级的重点消息全在这里。
https://storage.googleapis.com/downloads.aomedia.org/assets/pdf/AOMedia%20Decoder%20-%20Q1%202023%20Non-Members.pdf
解读帧间快速算法
本次介绍关于帧间快速算法的几篇论文,目标是缓解HEVC/VVC中复杂划分和编码带来的巨大复杂度提升。
在线视频协同:探究画面帧的准确性
视频协作平台会涉及网络、编解码等众多技术栈,并且要支持各类终端。其中一个关键能力是实现毫秒级的同步,这对于视频协作平台十分重要。本文来自分秒帧 web多媒体开发工程师耿学岩的投稿,详解了实现毫秒级同步遇到的两个挑战和解决方案。
音视频编解码—JPEG3—Baseline流程介绍
JPEG 有许多指定版本,JPEG base line 压缩仅包含一组最低要求:是有损的,无法准确重建原始图像。Baseline(“标准”)使用大多数网络浏览器都能识别的格式。Baseline优化创建具有优化颜色和稍小文件大小的文件。
基于残差熵编码的JPEG无损转码框架
为了实现JPEG压缩图像的无损转码,该框架引入了残差压缩的熵模型和基于上下文的熵编码模型,可以有效地学习到残差量化DCT系数的分布并压缩。由于基于深度学习的有损变换编码和残差熵编码的协作,我们提出的JPEG无损转码架构在JPEG图像的再压缩具有较大优势。在多个图像压缩评估经典数据集上进行的大量实验表明,该框架相比于JPEG压缩图像可以再平均节省21.49%的比特,比最新的具有JPEG无损转码功能的JPEG-XL在比特节省方面高出3.51%。
梦工厂开源OpenMoonRay
MoonRay是梦工厂开发的制作 MCRT 渲染器,已被用于故事片驯龙高手:隐藏的世界,巨魔世界巡回演唱会等,开源采用Apache License 2.0 许可证。
https://github.com/dreamworksanimation/openmoonray
从一道面试题看 TCP 的吞吐极限
分享一个 TCP 面试题:单条 TCP 流如何打满香港到旧金山的 320Gbps 专线?(补充,写成 400Gbps 更具迷惑性,但预测大多数人都会跑偏,320Gbps 也就白给了)
https://zhuanlan.zhihu.com/p/612825623
CVPR 2023|快手视频质量评估算法被顶会收录
计算机视觉领域顶级会议Computer Vision and Pattern Recognition Conference(CVPR 2023)将于6月18日至22日在加拿大温哥华召开,来自快手音视频技术团队题为《Quality-aware Pre-trained Models for Blind Image Quality Assessment》——适用于无参考图像/视频质量评估的质量感知预训练模型的最新研究成果被会议成功收录。
客观评价模型与主观DMOS分数拟合的分享与实用性探讨
虽然客观评价方法是让计算机尽量从人的主观视角出发来预测特定视频的评分,但不同客观评价指标与主观感受的符合程度差距不同,因此需要通过客观评价模型与主观评价DMOS分数的非线性拟合结果,基于预测的准确性、一致性、稳定性、单调性来衡量该客观评价方法的好坏。
MRCP在美团语音交互中的实践和应用
要将 ASR、TTS 这些技术应用到电话系统上,还需要一些额外的工作和技术支撑,其中比较重要的技术之一也就是本文将要介绍的 MRCP。
https://tech.meituan.com/2023/03/09/practice-and-application-of-mrcp-in-voice-interaction-of-meituan.html
用多个声全息图打印3D物体
在本文中,我们将探讨这种采用多个声学全息图的创新方法的工作原理,并研究其潜在的应用和局限性。声学全息图是可以将声波塑造成复杂图案的设备。它们由具有特定图案的孔或凸起的3D打印板制成。
腾讯音乐天琴实验室首次发布三套开源数据集
此次发布的三套开源数据集分别是片段翻唱数据集、哼唱数据集和歌唱评价数据集。其中,片段翻唱数据集(Lyra-CoverSegment Dataset, 简称Lyra-CS Dataset)打破目前只有全曲翻唱开源数据集的局面,有助于研究解决听歌识曲难以识别翻唱改编的问题。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲,其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段,数据集总时长近400小时,包含超53万个录音片段。
https://lyracobar.y.qq.com/index.html
2年帮数百万音视频创作者解决协作痛点,这家公司做对了什么?
分秒帧是一个帮助音视频行业来解决在线生产协同的SaaS工具,它的核心价值是帮助音视频行业的从业人员去提高创作和制作的效率,节省制作成本。
活动推荐
倒计时11天:和LiveVideoStack在2023年的第一场约会
时隔15个月,再聚北京。
时间:2023年3月31日 - 4月1日
报名:点击【阅读原文】了解详细信息,报名参与。
相关文章:

音视频技术开发周刊 | 285
每周一期,纵览音视频技术领域的干货。新闻投稿:contributelivevideostack.com。GPT-4 Office全家桶发布谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 Cop…...

安装flume
flume最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入到hdfs中架构:开始安装一,上传压缩包,解压并更名解压:[rootsiwen install]# tar -zxf apache-flume-1.9.0-bin.tar.gz -C ../soft/[rootsiwen install]#…...

为工作排好优先级
工作,是干不完的,因此我们需要分清轻重缓急,为它们划分优先级,这样才不至于让自己手忙脚乱。 给手头的事情排上正确的优先级,是一项很重要的工作能力。 优先级有很多考量,并不是简单的先来后到的线性时间…...

超专业解析!10分钟带你搞懂Linux中直接I/O原理
我们先看一张图: 这张图大体上描述了 Linux 系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。 这篇文章就以这张图为基础,介绍 Linux 在 I/O 上做了哪些事情。 文件系统 什么是文件系统 文件系统࿰…...

【C++】面试101,用两个栈实现队列,包含min函数的栈,有效括号序列,滑动窗口的最大值,最小的K个数,倒置字符串,排序子序列,跳跃,数字三角形,蓝肽子序列
目录 1. 用两个栈实现队列 2.包含min函数的栈 3.有效括号序列 4.滑动窗口的最大值 5.最小的K个数 6.倒置字符串 7.排序子序列 8.数字三角形(蓝桥杯,学习一个大佬的博客....) 9.跳跃(蓝桥杯) 10.蓝肽子序列 1. 用…...

WPF 认识WPF
什么是WPF?WPF是Windows Presentation Foundation(Windows展示基础)简称,顾名思义是专门编写表示层的技术。WPF绚丽界面如下:GUI发展及WPF历史?Windows系统平台上从事图形用户界面GUI(Graphic User Interface)已经经历了多次换代,…...

【建议收藏】PHP单例模式详解以及实际运用
PHP单例模式详解以及实际运用 什么是单例模式? 首先我们百度百科他怎么说? 单例模式,属于创建类型的一种常用的软件设计模式。通过单例模式的方法创建的类在当前进程中只有一个实例(根据需要,也有可能一个线程中属于单例,如&a…...

【十二天学java】day04-流程控制语句
第一章 流程控制语句 在一个程序执行的过程中,各条语句的执行顺序对程序的结果是有直接影响的。所以,我们必须清楚每条语句的执行流程。而且,很多时候要通过控制语句的执行顺序来实现我们想要的功能。 1.1 流程控制语句分类 顺序结构 判断…...

Pandas 与 PySpark 强强联手,功能与速度齐飞
Pandas做数据处理可以说是yyds!而它的缺点也是非常明显,Pandas 只能单机处理,它不能随数据量线性伸缩。例如,如果 pandas 试图读取的数据集大于一台机器的可用内存,则会因内存不足而失败。 另外 pandas 在处理大型数据…...

【Zabbix实战之部署篇】docker部署Zabbix+grafana监控平台
【Zabbix实战之部署篇】docker部署Zabbix+grafana监控平台 一、Zabbix介绍1.Zabbix简介2.Zabbix的优点3.Zabbix各组件介绍4.Zabbix架构图二、grafana介绍1.grafana简介2.grafana特点三、实践环境规划四、检查本地docker环境1.检查操作系统版本2.检查docker版本3.检查docker服务…...

acm省赛:高桥和低桥(三种做法:区间计数、树状数组、线段树)
题目描述 有个脑筋急转弯是这样的:有距离很近的一高一低两座桥,两次洪水之后高桥被淹了两次,低桥却只被淹了一次,为什么?答案是:因为低桥太低了,第一次洪水退去之后水位依然在低桥之上ÿ…...

stm32-定时器详解
0. 概述 本文针对STM32F1系列,主要讲解了其中的8个定时器的原理和功能 1. 定时器分类 STM32F1 系列中,除了互联型的产品,共有 8 个定时器,分为基本定时器,通用定时器和高级定时器基本定时器 TIM6 和 TIM7 是一个 16 位…...

《硬件架构的艺术》读书笔记:Chapter 1 亚稳态的世界
Chapter 1 亚稳态的世界 一、简介 同步系统中,数据和时钟有固定的因果关系(在同一时钟域(Clock Domains))中,只要数据和时钟满足建立时间和保持时间的要求,不会产生亚稳态(meastable) 静态时序分析(STA) 就是基于同步电路设计模型而出现的&am…...

开箱即用的密码框组件
写了一个小玩具,分享一下 - 组件功能: 初次进入页面时,密码隐藏显示,且无法查看真实密码 当修改密码时,触发键盘,输入框则会直接清空 此时输入密码,可以设置密码的隐藏或显示: …...

ChatGPT能否取代程序员?
目录ChatGPT能否取代程序员?ChatGPT和程序员的工作内容和工作方式ChatGPT和程序员的共同点程序员的优势程序员的实力ChatGPT和程序员的关系结论惊喜ChatGPT能否取代程序员? ChatGPT是一种非常普遍的人工智能(AI)系统,…...

案例分享 | 金融微服务场景下如何提升运维可观测性
云原生环境下金融业务的微服务化改造以及分布式架构的部署,使得业务与开发部门的关联更为紧密,传统运维监控已满足不了业务运营需求,亟需建设具备可观测性的运维体系。所以这次我们以某金融客户的实践案例为例,跟大家说一说在金…...

CentOS8提高篇3:Centos8安装播放器(mplayer vlc)
1. 准备工作(需要配置epel, rpmfusion源); 配置epel源 下载epel dnf install epel-release 配置rpmfusion源 下载rpmforge dnf install rpmfusion-free-release-8.noarch.rpm 2. 安装mplayer和vlc 直接dnf安装 # dnf install mplayer # dnf install v…...

MySQL-存储过程
什么是存储过程我们前面所学习的MySQL语句都是针对一个表或几个表的单条 SQL 语句,但是在数据库的实际操作中,并非所有操作都那么简单,经常会有一个完整的操作需要多条SQL语句处理多个表才能完成。例如,为了确认学生能否毕业&…...

经典七大比较排序算法 · 下 + 附计数和基数排序
经典七大比较排序算法 下 附计数和基数排序1 插入排序1.1 算法思想1.2 代码实现1.3 插入排序特性2 希尔排序2.1 算法思想2.2 代码实现2.3 希尔排序特性3 七大比较排序特性总结4 计数排序4.1 算法思想4.2 代码实现4.3 计数排序特性5 基数排序5.1 算法思想5.2 代码实现1 插入排…...

HTTPS协议,看这篇就够了
不安全的HTTP 近些年来,越来越多的网站使用 HTTPS 协议进行数据传输,原因在于 HTTPS 相较于 HTTP 能够提供更加安全的服务。 很多浏览器对于使用 HTTP 协议的网站会加上『警告』的标志表示数据传输不安全,而对于使用 HTTPS 协议的网站会加上…...

C语言学习之路--结构体篇
目录一、前言二、结构体的声明1、结构的基础知识2、结构的声明3、结构体成员的类型4、结构体变量的定义和初始化三、结构体成员的访问四、结构体传参一、前言 本人是一名小白,这一篇是记录我C语言学习中的结构体的所学所得,仅为简单的认识下C语言中的各…...

【LINUX】初识文件系统
文章目录一、前言二、回顾C语言文件操作三、初识系统调用openreadwriteclose四、文件系统初识五、结语一、前言 二、回顾C语言文件操作 int main() {FILE* fp fopen("log.txt", "w");if (fp NULL){perror("fopen");}int cnt 0;fputs("…...

金三银四Java面试题及答案整理(2023最新版) 持续更新
作为一名优秀的程序员,技术面试是不可避免的一个环节,一般技术面试官都会通过自己的方式去考察程序员的技术功底与基础理论知识。 如果你参加过一些大厂面试,肯定会遇到一些这样的问题: 1、看你项目都用的框架,熟悉 …...

7个角度,用 ChatGPT 玩转机器学习
大家好,我是机器学习科普创作者章北海mlpy,探索更高效的学习方法是我一直等追求。现在的初学者太幸福了,可以利用ChatGPT来帮助你学习机器学习的各个方面。 比如【个人首测】百度文心一言 VS GPT-4这篇文章中,我就用文心一言、GP…...

关于多层板,你了解多少?
01 前言 大家好,我是张巧龙。好久没写原创了,记得之前刚接触PCB时,还在用腐蚀单层板,类似这种。 慢慢随着电子产品功能越来越多,产品越来越薄,对PCB设计要求越来越高了,复杂程度也随之增加。因此…...

使用sqlalchemy-gbasedbt连接GBase 8s数据库
测试环境: 操作系统:CentOS 7.9 64-bit数据库版本:GBase8sV8.8_AEE_3.0.0_1,对应的CSDK版本为3.0.0_1 1,确认安装python3 确认已经安装python3和python3-devel [rootlocalhost test]# python3 -V Python 3.6.8如果…...

前端如何丢掉你的饭碗?
对于后端而言,我们常有“删库跑路”的说法,这说明后端的操作对于信息系统而言通常影响很大,可以轻易使信息系统宕机、崩溃,直接导致项目失败。所以,不要去逼后端程序员! 作为前端程序员,我们似…...

栈、队列、优先级队列的模拟实现
优先级队列的模拟实现栈stack的模拟实现push()pop()top()size()empty()swap()stack总代码队列queue的模拟实现push()pop()front()back()empty()size()swap()queue总代码优先级队列(堆)push()pop()top()empty()size()swap()priority_queue总代码deque的了解栈 在CSTL中栈并不属…...

JMM内存模型
JMM内存模型JMM内存模型定义三大特性原子性可见性有序性volatile语义JMM规则操作系统实现术语缓存一致性要求缓存一致性机制写传播事务串行化重排序as-if-serial 语义(像是有序的)happens-before 原则happens-before 原则的八大子原则内存屏障总结finalf…...

Linux- 系统随你玩之--玩出花活的命令浏览器-双生姐妹花
文章目录1、背景2、命令浏览器-双生姐妹花2.1、姐妹花简介2.2 、验名正身2.3、常用功能选项3、常用实操3.1、发送请求获取文件3.1.1、抓取页面内容到一个文件中3.1.2、多个文件下载3.1.3、下载ftp文件3.1.4、断点续传3.1.5、上传文件3.1.6、内容输出3.2 、利用curl测试接口3.3 …...