深度学习工作:从追求 SoTA 到揭示新现象
TLDR:主要讨论了从追求模型 SoTA 到揭示新现象的转变。通过几个例子,包括ACNet到RepVGG的发展,RIFE插帧、Film插帧,以及OpenAI的近期工作,阐述了这种转变的重要性。
知乎:黄哲威 hzwer
链接:https://zhuanlan.zhihu.com/p/14170281797
最近大家对于前沿工作的讨论,常常出现两极分化
比如 DiT,看到很多人说是灌水,研究生实验报告,Sora 以后有人又说“打脸”
比如说 OpenAI-o3,有答主说 “这是真正的智能爆炸,断崖式提升”,然后评论区说 “下次换个话术”
身边的故事,近期审了不少论文,发现大家对于宣称 SoTA 的工作越来越严苛了。往年那种先 SoTA 再故事的论文,眼看着被连环拒。作者喊着性能无敌,审稿人 borderline reject
想了一些东西,也对 论文写作指南 做了点补充
ACNet 到 RepVGG 的现象上升
聊个大佬朋友的例子, @丁霄汉 说 RepVGG 其实可以叫 ACNetv2
简单来说 ACNet 就是训练的时候三个卷积核,推理的时候合成一个

ACNet 在 ICCV19 投稿得分还是有正有负被捞起来,目前 800+ 引用说明后续影响力很不错
我个人觉得并不是当年的审稿人水平太差没有看出它的创新性,而是 ACNet 的创新性在丁博的后续工作中有广泛提升
因为 RepVGG 抽象了一个新概念“结构重参数化”,把 ACNet 中不好说清楚动机的设计方式变成 “构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构”
然后同时又报告了一个现象,即 VGG 式的网络,只要有并行的恒等和 1x1 卷积分支,就能训出 ResNet 相当的性能,推理时还跟原来的 VGG 结构一样
重参数化自此成为手工设计 CNN 的一类重要操作
论文刷点是一部分,更高的性能同时揭露新的现象,才是学术的本质
王婆卖瓜 - RIFE 插帧 卖个自己论文的例子 - RIFE 实时视频插帧模型
我近一两年才逐渐意识到自己阴差阳错做了一篇还不错的论文,目前还不知道怎么达到更高水平,希望以此为例传达一些经验教训
研究初衷是当时业界流行的插帧算法 DAIN 速度比较慢,就想设计个规整的 CNN 网络来做一个实时插帧模型
一开始投稿也是主要突出 SoTA 性能,但是审稿人买账的不多,特别是轻量化模型并不是一个讨喜的研究话题,被拒好几次
虽然我们认为某个指标提高就是模型核心竞争力的体现,但是全世界大概只有几个小同行共识,而且提高一点性能,本身不为领域带来什么新的知识
于是我们重写了文章,更多的加入了新的发现,于是审稿人和读者可以各自寻找心中的哈姆雷特
把先前一些模型的误差解释为光流逆转时忽略了物体空间移动,所以我们有更强的动机在轻量化网络中端到端估计中间帧光流
对于为什么要做光流蒸馏,先指出输入中间帧信息为“特权”的模型会有高得多的性能
多倍插帧,我们发现把目标时间 T 输入进网络是可以实现控制任意时刻插帧的,而且训练之后还可以放入梯度式的时间编码实现场景融合或果冻效应模拟
将光流和融合权重先一起预测,可以用来做其它模态的插帧
性能上我们也改成强调整体设计带来的多倍插帧场景的效果提升等等
这样自己都不用强调,审稿人每个人都会说这篇论文提出的方法性能很好
我们希望读者觉得论文更有读的价值,现在看引用也真的来自很多不同的方向,比如有 20+ 篇做果冻效应的引用
为什么说 “阴差阳错” 呢,因为很多 idea 其实是多次 rebuttal 以后想的。比如说有两次审稿人批评不能做任意时刻插帧,我就回复说这个简单,把目标时间 T 输入就行了嘛。审稿人说,没做实验你说个锤子,一做才发现效果比预期还好
水平所限,当年其实还是没有把这篇论文写的很好,写这篇总结是希望下次能做的更优美
不用刷 SoTA 的 Film 插帧
带着这样的视角,看看为什么有的论文在很卷的赛道也能中得顺利,发在 ECCV22 的插帧论文 Film: Frame interpolation for large motion,Fitsum Reda 大佬作品

看宣称的论文贡献:
我们将帧插值的范围扩展到一个新颖的近重复照片插值应用,为社区开辟了一个新的探索空间。
– 我们调整了一个共享权重的多尺度特征提取器,并提出了一个尺度无关的双向运动估计器,使用常规训练帧来很好地处理小范围和大范围的运动
– 我们采用基于Gram矩阵的损失函数来修复由大场景运动引起的大范围遮挡,从而生成清晰且令人满意的帧
– 我们提出了一个统一、单阶段的架构,以简化训练过程,并消除对额外光流或深度网络的依赖
很明显地有一些新东西,首先是开辟新的研究范围,找到一些以往算法都会挂掉的例子
然后围绕这个问题构建整个论文,提出了一系列设计,包括结构和损失函数
和别人的对比是次要的,在以往 benchmark 上和 SoTA 差不多可比就可以了,突出一些关注场景的性能
近期热门的 OpenAI 工作
OpenAI 发的一系列东西,如果我们从做新现象的角度去审视,就能知道为什么它们是好东西
比如说 Sora 现在不如可灵,那它是不是价值显著下降?
我觉得可灵以及很多国产视频生成大模型的广泛成功,其实说明了 Sora 的含金量,即它展示的现象是别人可以复现的,通过 DiT 来高质量长时长的可控视频生成,甚至于它的失败例子其实都是很有意思的实验现象
GPT4 / o1 / o3,每一个都展示了前代模型没有的新现象,这是它们足以吸引诸多研究者的原因
如果我第一次看到 ChatGPT,我会很疑惑怎么会有这样交互水平的对话模型,它是不是在时不时联网 + 人工干预 + 复杂的 pipeline 设计来产出内容
然后当我们在小模型复现了一些流程以后,会惊讶于一个 7B 左右大小的模型真的能日常对话
GPT4 一开始最吸引我的,就是它解决我出的算法题的水平。虽然它在这方面不如很多经过训练的初中生,但是比起其它胡说八道的模型真的强了很多
o1 / o3 是思维链了更扩展版本,探索了用更多的推理开销换取智能的可能性
具体就不赘述了,总之我希望社区看这些工作的时候,不要过多讨论 xxx 是不是通往 AGI(通用人工智能)的路子,以及 xxx 的本质是不是就是 xxx,而是分享我们能从新方法看到什么新现象
新的现象才孕育着新的可能
相关文章:
深度学习工作:从追求 SoTA 到揭示新现象
TLDR:主要讨论了从追求模型 SoTA 到揭示新现象的转变。通过几个例子,包括ACNet到RepVGG的发展,RIFE插帧、Film插帧,以及OpenAI的近期工作,阐述了这种转变的重要性。 知乎:黄哲威 hzwer链接:http…...
学习记录—正则表达式-基本语法
正则表达式简介-《菜鸟教程》 正则表达式是一种用于匹配和操作文本的强大工具,它是由一系列字符和特殊字符组成的模式,用于描述要匹配的文本模式。 正则表达式可以在文本中查找、替换、提取和验证特定的模式。 本期内容将介绍普通字符,特殊…...
智慧农业物联网传感器:开启农业新时代
在当今科技飞速发展的时代,农业领域正经历着一场前所未有的变革,而智慧农业物联网传感器无疑是这场变革中的关键利器。它宛如农业的 “智慧大脑”,悄然渗透到农业生产的各个环节,为传统农业注入了全新的活力,让农业生产…...
普通人怎么入门学习并使用AI?
前言 作为普通人看着AI一天一天变革,心急如焚,未来但是就是不知道怎么才算真正进入了AI,使用AI....作为从头至尾追随AI脚步的码农有几点小建议~ 一、💻使用 AI 网站或软件,解决实际问题 不管用哪种AI,先用…...
Java中处理if-else的几种高级方法
前言 在我看来多写几个if-else没啥大不了的,但是就是看起来没啥逼格,领导嫌弃。我根据开发的经历写几个不同的替代方法 一、枚举法替代 我先前写了一篇文章,可以去看看。 通过枚举替换if-else语句的解决方案_枚举代替if else c语言-CSDN博…...
前端知识补充—CSS
CSS介绍 什么是CSS CSS(Cascading Style Sheet),层叠样式表, ⽤于控制⻚⾯的样式 CSS 能够对⽹⻚中元素位置的排版进⾏像素级精确控制, 实现美化⻚⾯的效果. 能够做到⻚⾯的样式和结构分离 基本语法规范 选择器 {⼀条/N条声明} 1)选择器决定针对谁修改…...
企业架构学习笔记-数字化转型
1. 企业数字化发展阶段 案例1.业务部门“点菜”,IT部门叫苦 随着企业信息化进程的不断推进,IT部门的角色和面临的挑战也在发生显著变化。在信息化建设的初级阶段,确实存在IT部门需要积极引导和说服业务部门重视信息技术价值的情况。当时&am…...
Linux网络——TCP的运用
系列文章目录 文章目录 系列文章目录一、服务端实现1.1 创建套接字socket1.2 指定网络接口并bind2.3 设置监听状态listen2.4 获取新链接accept2.5 接收数据并处理(服务)2.6 整体代码 二、客户端实现2.1 创建套接字socket2.2 指定网络接口2.3 发起链接con…...
Vue3之状态管理Vuex
Vuex作为Vue.js的官方状态管理库,在大型或复杂的前端项目中扮演着至关重要的角色。本文将从Vuex的原理、特点、应用场景等多个方面进行深入解析,并通过代码示例展示如何在Vuex中实现特定功能。 一、Vuex原理 Vuex是一个专为Vue.js应用程序开发的状态管…...
DPO(Direct Preference Optimization)算法解释:中英双语
中文版 DPO paper: https://arxiv.org/pdf/2305.18290 DPO 算法详解:从理论到实现 1. 什么是 DPO? DPO(Direct Preference Optimization)是一种直接基于人类偏好进行优化的算法,旨在解决从人类偏好数据中训练出表现…...
Hostapd2.11解析笔记
最近在调试Hostapd,尝试通过配置使能一个支持MLO的AP,不过不知道hostapd conf里面哪些选项开启后可以使能,所以对Hostapd做一个整体解析. 简介 hostapd 是用于接入点和身份验证服务器的用户空间守护程序。它实现 IEEE 802.11 接入点管理、IEEE 802.1X/WPA/WPA2/WPA3/EAP 身份…...
js控制文字溢出显示省略号
.text{display: -webkit-box;overflow: hidden;white-space: normal;text-overflow: ellipsis;word-wrap: break-word;-webkit-line-clamp: 2;-webkit-box-orient: vertical; }本人有个需求就是在一个盒子内有一段文本,然后控制文本显示两行,第二行要显示…...
WPF+MVVM案例实战与特效(四十七)-实现一个路径绘图的自定义按钮控件
文章目录 1、案例效果2、创建自定义 PathButton 控件1、定义 PathButton 类2、设计样式与控件模板3、代码解释3、控件使用4、直接在 XAML 中绑定命令3、源代码获取4、总结1、案例效果 2、创建自定义 PathButton 控件 1、定义 PathButton 类 首先,我们需要创建一个新的类 Pat…...
操作002:HelloWorld
文章目录 操作002:HelloWorld一、目标二、具体操作1、创建Java工程①消息发送端(生产者)②消息接收端(消费者)③添加依赖 2、发送消息①Java代码②查看效果 3、接收消息①Java代码②控制台打印③查看后台管理界面 操作…...
odoo中@api.model, @api.depends和@api.onchange 装饰器的区别
文章目录 1. api.model用途特点示例 2. api.depends用途特点示例 3. api.onchange用途特点示例 总结 在 Odoo 中,装饰器(decorators)用于修饰方法,以指定它们的行为和触发条件。api.model、api.depends 和 api.onchange 是三个常用…...
有哪些精益工具可以帮助企业实现转型?
为了在激烈的市场竞争中立于不败之地,许多企业开始寻求通过精益转型来优化运营、降低成本、提高效率和客户满意度。然而,精益转型并非一蹴而就,而是需要一系列精益工具的辅助,这些工具能够帮助企业识别浪费、优化流程、提升质量&a…...
以太网帧结构
以太网帧结构 目前,我们局域网当中应用最广的技术或者协议啊,就是以太网。我们首先来看一下以太网的真结构。这块内容这里边再系统的来给大家去展开说一下,以太网真格式就如下面这个图。所示前面有八个字节,是用于时钟同步的&…...
QT调用Sqlite数据库
QT设计UI界面,后台访问数据库,实现数据库数据的增删改查。 零售商店系统 数据库表: 分别是顾客表,订单详情表,订单表,商品表 表内字段详情如下: 在QT的Pro文件中添加sql,然后添加头…...
前端
前端页面 Web页面 PC端程序页面 移动端APP页面 ... HTML页面 HTML超文本标记页面 超文本:文本,声音,图片,视频,表格,链接 标记:由许多标签组成 HTML页面运行到浏览器上面 vscode便捷插件使用 vs…...
【Git】—— 使用git操作远程仓库(gitee)
目录 一、远程仓库常用命令 1、从远程仓库克隆项目 2、查看关联的远程仓库 3、添加关联的远程仓库 4、移除关联的远程仓库 5、将本地仓库推送到远程仓库 6、从远程仓库拉取项目 二、分支命令 1、查询分支 2、创建分支 3、切换分支 4、推送到远程分支 5、合并分支 …...
【JVM】- 内存结构
引言 JVM:Java Virtual Machine 定义:Java虚拟机,Java二进制字节码的运行环境好处: 一次编写,到处运行自动内存管理,垃圾回收的功能数组下标越界检查(会抛异常,不会覆盖到其他代码…...
python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...
如何为服务器生成TLS证书
TLS(Transport Layer Security)证书是确保网络通信安全的重要手段,它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书,可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...
HBuilderX安装(uni-app和小程序开发)
下载HBuilderX 访问官方网站:https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本: Windows版(推荐下载标准版) Windows系统安装步骤 运行安装程序: 双击下载的.exe安装文件 如果出现安全提示&…...
微服务商城-商品微服务
数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...
鱼香ros docker配置镜像报错:https://registry-1.docker.io/v2/
使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题 一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题:docker pull 失败 网络不同,需要使用镜像源 按照如下步骤操作 sudo vi /etc/docker/dae…...
零基础设计模式——行为型模式 - 责任链模式
第四部分:行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习!行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。 核心思想:使多个对象都有机会处…...
【论文阅读28】-CNN-BiLSTM-Attention-(2024)
本文把滑坡位移序列拆开、筛优质因子,再用 CNN-BiLSTM-Attention 来动态预测每个子序列,最后重构出总位移,预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵(S…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...
