每日学术速递4.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Masked Frequency Modeling for Self-Supervised Visual Pre-Training(ICLR 2023)

标题:用于自监督视觉预训练的掩蔽频率建模
作者:Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy
文章链接:https://arxiv.org/abs/2206.07706
项目代码:https://github.com/Jiahao000/MFM




摘要:
我们提出了掩蔽频率建模 (MFM),这是一种基于频域的统一方法,用于视觉模型的自监督预训练。在本文中,我们没有将掩码标记随机插入到空间域的输入嵌入中,而是将视角转移到频域。具体来说,MFM 首先屏蔽掉输入图像的一部分频率分量,然后预测频谱上缺失的频率。我们的主要见解是,由于存在大量空间冗余,预测频域中的掩码分量更适合揭示底层图像模式,而不是预测空间域中的掩码块。我们的研究结果表明,通过正确配置掩码和预测策略,高频成分中的结构信息和低频对应物之间的低级统计信息都有助于学习良好的表示。MFM 首次证明,对于 ViT 和 CNN,即使不使用以下任何一种,一个简单的非 Siamese 框架也可以学习有意义的表示:(i)额外数据,(ii)额外模型,(iii)mask token。图像分类和语义分割的实验结果,以及几个鲁棒性基准测试表明,与最近的蒙版图像建模方法相比,MFM 具有竞争力的性能和先进的鲁棒性。此外,我们还从统一频率的角度全面研究了经典图像恢复任务对表示学习的有效性,并揭示了它们与我们的 MFM 方法的有趣关系。
Subjects: cs.LG
2.AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

标题:AudioGPT:理解和生成语音、音乐、声音和说话头
作者:Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang
文章链接:https://arxiv.org/abs/2304.12995
项目代码:https://github.com/AIGC-Audio/AudioGPT



摘要:
大型语言模型 (LLM) 在各种领域和任务中展现出非凡的能力,挑战着我们对学习和认知的理解。尽管最近取得了成功,但目前的 LLM 无法处理复杂的音频信息或进行口头对话(如 Siri 或 Alexa)。在这项工作中,我们提出了一个名为 AudioGPT 的多模态 AI 系统,它通过 1) 基础模型来补充 LLM(即 ChatGPT),以处理复杂的音频信息并解决大量的理解和生成任务;2) 支持语音对话的输入/输出接口(ASR、TTS)。随着对评估人类意图理解和与基础模型合作的多模式 LLM 的需求不断增加,我们概述了原则和过程,并在一致性、能力和稳健性方面测试了 AudioGPT。实验结果证明了 AudioGPT 在解决 AI 任务方面的能力,包括在多轮对话中理解和生成语音、音乐、声音和说话的头部,这使人类能够前所未有地轻松创建丰富多样的音频内容。
Subjects: cs.CL
3.LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

标题:LaMini-LM:来自大规模指令的各种提炼模型
作者:Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji
文章链接:https://arxiv.org/abs/2304.14402
项目代码:https://github.com/mbzuai-nlp/LaMini-LM




摘要:
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。除了规模庞大之外,我们还设计了涵盖广泛主题的说明以确保。对我们的指令数据的彻底调查证明了它们的多样性,我们使用 gpt-3.5-turbo 为这些指令生成响应。然后,我们利用这些指令来调整大量模型,称为 LaMini-LM,大小不一,来自编码器-解码器以及仅解码器系列。我们自动(在 15 个不同的 NLP 基准测试中)和手动评估我们的模型。结果表明,我们提出的 LaMini-LM 与竞争基线相当,但尺寸却小了近 10 倍。
更多Ai资讯:公主号AiCharm
相关文章:
每日学术速递4.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Masked Frequency Modeling for Self-Supervised Visual Pre-Training(ICLR 2023) 标题:用于自监督视觉预训练的掩蔽频率建模 作者:Jiahao Xie, Wei Li, Xi…...
K8S部署及常见问题处理
目录 k8s kubeadm 一键自动化,安装k8s集群,安装所有运行需要的组件 一、环境初始化(三台机器都需要执行) 主机名、节点ip、部署组件 1、配置hosts(主节点master和业务节点node都需要配置)文件内容 2、…...
通过Robotstudio修改机器人程序的具体方法和步骤
通过Robotstudio修改机器人程序的具体方法和步骤 基本步骤可参考以下内容: 用网线连接机器人和电脑,机器人一侧要插入LAN2口;机器人和电脑的IP地址要在同一个网段内;请求写入权限;修改程序—编译—应用;加载修改后的程序到机器人;保存Robotstudio程序到电脑端;只能修改…...
第40讲:Python for-in循环语句使用索引遍历序列
文章目录 方法一:遍历的是序列的元素方法二:遍历的是序列的索引方法三:while循环遍历实现方法四:调用内置函数enumerate实现1.什么是enumerate函数2.调用内置函数enumerate实现索引遍历序列 如果在遍历序列的过程中,需…...
如何用Jmeter压测Netty的Echo服务之自定义Jmeter的Java Sampler
前言 如果想要压测一些三方组件,比如MQ,redis什么的,jmeter本身是不支持的。 本文以开发一个压测netty的echo示例,说明如何自定义jmeter的sampler。 开发 本文以idea示例, 新建工程 打开idea新建一个空的maven工程…...
GPT3.5之运用之检查模型是否满足条件
策略三:要求模型检查是否满足条件* 如果任务做出的假设不一定满足,我们可以告诉模型先检查这些假设,如果不满足,指示并停止执行。你还可以考虑潜在的边缘情况以及模型应该如何处理它们,以避免意外的错误或结果。 在如…...
【TCP为什么需要粘包和拆包】
如今,大半个互联网都建立在 TCP 协议之上,我们使用的 HTTP 协议、消息队列、存储、缓存,都需要用到 TCP 协议——这是因为 TCP 协议提供了可靠性。简单来说,可靠性就是让数据无损送达。但若是考虑到成本,就会变得非常复…...
Python | 人脸识别系统 — 姿态检测
本博客为人脸识别系统的姿态检测代码解释 人脸识别系统博客汇总:人脸识别系统-博客索引 项目GitHub地址:Su-Face-Recognition: A face recognition for user logining 注意:阅读本博客前请先参考以下博客 工具安装、环境配置:人脸…...
为什么说网络安全行业是IT行业最后的红利?
前言 2023年网络安全行业的前景看起来非常乐观。根据当前的趋势和发展,一些趋势和发展可能对2023年网络安全行业产生影响: 5G技术的广泛应用:5G技术的普及将会使互联网的速度更快,同时也将带来更多的网络威胁和安全挑战。网络安全…...
谷粒商城二十四Sentinel限流熔断降级
我们在秒杀服务加的以上所有手段都是为了快,除了快之外,我们还需要保证稳定。 我们即使再快也会有一个极限值,现在假设单机下每秒处理一万个单,这已经是超高的处理能力了,秒杀服务上了五台服务器,有三台掉…...
STM32-HAL-SPI-W25Q128FV简单读写测试(2)
文章目录 一、Flash的基本读写操作1.1 向芯片中的某个地址(addr:0x02)连续写入不定长的数据并读取代码示例读写流程分析函数分析 1.2 向芯片中的某个地址(addr:0x00)写入一个数值代码示例:读写流程分析 具体的配置接上…...
网易一面:如何设计线程池?请手写一个简单线程池?
说在前面 在40岁老架构师 尼恩的读者社区(50)中,最近有小伙伴拿到了一线互联网企业如极兔、有赞、希音、百度、网易的面试资格,遇到了几个很重要的面试题: 如何设计线程池? 与之类似的、其他小伙伴遇到过的问题还有: …...
网络安全之密码学
目录 密码学 定义 密码的分类 对称加密 非对称加密 对称算法与非对称算法的优缺点 最佳解决办法 --- 用非对称加密算法加密对称加密算法的密钥 非对称加密如何解决对称加密的困境 密钥传输风险 密码管理难 常见算法 对称算法 非对称算法 完整性与身份认证最佳解决…...
第14章 项目采购管理
文章目录 采购管理包括如下几个过程14.2 编制采购计划 462编制采购计划的输出1)采购管理计划2)采购工作说明书3)采购文件 14.2.3 工作说明书(SOW) 14.3 实施采购 47414.3.2 实施采购的方法和技术 476(1&…...
Vite+Vue下的多页面入口配置
我发现多页面入口配置在网上的资料比较乱,今天正好结合我们的开源API分析工具项目(APIcat)更新情况总结一下。 更新vite.config.js 主要配置的更新是在vite.config.js里面要增加build里的rollupOptions,因为vite底层使用了rollu…...
ChatGPT背后的打工人:你不干,有的是AI干
AI“出圈” 如今,数字技术发展速度惊人,AI提高了社会生产效率,更真切地冲击到原有的生产秩序。 年初AI技术的爆发,让国内看到了进一步降本增效的希望。 国内多家互联网企业相继推出类ChatGPT产品,复旦大学邱锡鹏教授…...
【Access】Access:SQL 语句汇总
目录 一、SQL 的功能 二、考试重点 三、关系的定义 (1)新建关系 (2)删除关系 四、SQL 的「数据查询」功能 (1)基本结构 ① Select 语句的基本结构 ② Select 子句 ③ Where 子句 ④ 空值的处…...
【小样本分割 2022 ECCV】SSP
文章目录 【小样本分割 2022 ECCV】SSP摘要1. 介绍2. 相关工作3. 自支持小样本语义分割3.1 动机3.2 自支持原型-SSM3.3 自适应自支持背景原型-ASBP3.4 自支持匹配-SSL 3. 代码 【小样本分割 2022 ECCV】SSP 论文题目:Self-Support Few-Shot Semantic Segmentation 中…...
Friendlycore增加inodes数量
背景:为Nanopim1安装了core系统,tf卡大小64G,安装后正常扩展到了整个tf卡,但是在安装hass的docker显示磁盘空间不够,最终发现是inode被用完了。其inode只有960K,但是16G卡树莓派系统的inodes都是其两倍。 一…...
Latex 定理和证明类环境(amsthm)和(ntheorm)的区别
最近在写毕业论文,出现了一些定理和证明的环境的问题,问题出现在对两个包的理解程度不够的问题上: \RequirePackage{ntheorem} 1、\newtheorem*{proof}{\hspace{2em}证:} 这个是让证明失去计数原则,该命令不能用于 amsthm 2…...
用Python和OpenCV手把手教你搞定自动驾驶图像坐标系转换(附NuScenes数据集实战代码)
用Python和OpenCV手把手教你搞定自动驾驶图像坐标系转换(附NuScenes数据集实战代码) 自动驾驶技术的核心在于让车辆"看懂"周围环境,而坐标系转换正是连接物理世界与数字世界的桥梁。想象一下,当一辆自动驾驶汽车行驶在…...
【ZYNQ】AXI4总线协议实战:从握手时序到PS-PL高效通信
1. AXI4总线协议基础:从握手信号到通道架构 第一次接触ZYNQ的PS-PL通信时,我被AXI4协议里那些VALID/READY信号搞得头晕眼花。直到在示波器上抓到真实的握手波形,才突然理解这个看似复杂的协议其实像极了我们日常的对话机制——只有当说话方准…...
百度网盘直链解析工具:3分钟突破限速实现满速下载
百度网盘直链解析工具:3分钟突破限速实现满速下载 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否曾为百度网盘的下载速度而烦恼?非会员用户经常…...
告别showSoftInput失效:一文读懂Android 11+的WindowInsetsController输入法控制
Android输入法控制演进:从InputMethodManager到WindowInsetsController的深度解析 在移动应用开发中,输入法交互是最基础却又最容易被忽视的细节之一。许多开发者都曾遇到过这样的场景:精心设计的登录界面,光标在输入框闪烁&#…...
【避坑指南】VSCode+EIDE+Keil混合开发环境:从零搭建到项目无缝迁移
1. 为什么需要VSCodeEIDEKeil混合开发环境? 作为一名嵌入式开发者,我深知Keil这个老牌IDE在开发效率上的痛点:代码补全弱、界面老旧、多窗口管理混乱。但直接完全迁移到VSCode又面临工程兼容性问题,特别是对传统AC5编译器的支持。…...
基于RAG的Obsidian智能插件:用AI对话重塑个人知识管理
1. 项目概述:当笔记遇上AI,一个插件如何重塑知识管理最近在折腾我的Obsidian知识库时,发现了一个让我眼前一亮的插件:Smart2Brain。这名字起得挺有意思,“Smart to Brain”,直译过来就是“从智能到大脑”。…...
终极免费换肤方案:R3nzSkin国服版完整使用教程
终极免费换肤方案:R3nzSkin国服版完整使用教程 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 想要在英雄联盟国服免费体验所有皮肤&#x…...
Pandrator:基于Python的自动化内容生成与数据转换工具实践
1. 项目概述与核心价值最近在折腾一些自动化数据处理和内容生成的工作流,发现了一个挺有意思的开源项目,叫Pandrator。乍一看这个名字,可能会联想到“潘多拉”和“生成器”的结合,实际上它也确实是一个功能强大的内容转换与生成工…...
基于NestJS与Next.js的自托管电影管理应用Story Flicks部署与实战
1. 项目概述:一个为影迷打造的私人观影档案库 如果你和我一样,是个重度电影爱好者,那么你一定经历过这样的时刻:看完一部好片子,内心澎湃,想写点什么记录一下,却发现豆瓣、IMDb的评论区要么太嘈…...
终极指南:如何在英雄联盟国服免费解锁所有皮肤?R3nzSkin国服特供版完全解析
终极指南:如何在英雄联盟国服免费解锁所有皮肤?R3nzSkin国服特供版完全解析 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 还在…...
