当前位置: 首页 > news >正文

【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录

    • 【长尾学习】
    • 【人脸防伪】
    • 【图像分割】

【长尾学习】

[2024综述] A Systematic Review on Long-Tailed Learning

论文链接:https://arxiv.org/pdf/2408.00483

长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型,能够高准确度地识别所有类别,特别是少数/尾部类别。这是一个前沿研究方向,在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先,提出了一个新的长尾学习分类法,包括八个不同的维度,如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法,对长尾学习方法进行了系统回顾,讨论了它们的共性和可比较的差异。同时,还分析了不平衡学习和长尾学习方法之间的差异。最后,讨论了这个领域的前景和未来方向。
在这里插入图片描述


【人脸防伪】

[2024] DeCLIP: Decoding CLIP representations for deepfake localization

论文链接:https://arxiv.org/pdf/2409.08849

代码链接:https://github.com/bit-ml/DeCLIP

生成模型可以创建全新的图像,但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像,从大型自监督模型(如CLIP)中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了,当与足够大的卷积解码器结合使用时,预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同,所提方法能够在具有挑战性的扩散模型情况下执行定位,其中整个图像都受到生成器的影响。此外,作者观察到,这种结合了局部语义信息和全局的数据类型,相比其他生成方法类别,提供了更稳定的泛化性能。

在这里插入图片描述


[2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection

论文链接:https://arxiv.org/pdf/2409.09724

逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧,凸显了对鲁棒且可泛化的面部伪造检测(FFD)技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式,但其他模态如细粒度噪音和文本尚未被充分探索,这限制了模型的泛化能力。此外,大多数FFD方法倾向于识别由GAN生成的面部图像,但难以检测未见过的扩散合成图像。为了克服这些局限性,文中旨在利用尖端的基础模型——对比语言-图像预训练(CLIP),实现可泛化的扩散面部伪造检测(DFFD)。本文中提出了一种新颖的多模态细粒度CLIP(MFCLIP)模型,通过语言引导的面部伪造表示学习,挖掘全面的细粒度伪造痕迹,以促进DFFD的发展。具体而言,设计了一种细粒度语言编码器(FLE),从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器(MVE),以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式,并将它们整合起来以挖掘通用的视觉伪造痕迹。此外,构建了一种创新的即插即用样本对注意力(SPA)方法,以强调相关的负样本对并抑制不相关的负样本对,使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明,所提模型在不同设置下(如跨生成器、跨伪造和跨数据集评估)均优于现有技术。

在这里插入图片描述

【图像分割】

[2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

论文链接:https://arxiv.org/pdf/2409.09893

利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值,这些真值具有非重叠的掩码布局和互斥的语义。然而,将它们合并用于多数据集训练会破坏这种和谐,并导致语义不一致。例如,一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳,特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战,作者引入了一种简单而有效的多数据集训练方法,通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时,不受训练数据集之间潜在不一致性的影响。值得注意的是,在四个具有标签空间不一致性的基准数据集上进行推理时,在语义分割上的mIoU提升了1.6%,在全景分割上的PQ提升了9.1%,在实例分割上的AP提升了12.1%,并在新提出的PIQ指标上提升了3.0%。
在这里插入图片描述


[ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation

论文链接:https://arxiv.org/pdf/2409.13325

随着3D和2D数据采集技术的发展,同时获取场景的点云和图像变得容易,这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时,严重依赖于标注训练数据的量与质。然而,大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题,作者提出了一种并行双流网络来处理半监督双模态语义分割任务,称为PD-Net,它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流(分别称为原始流和伪标签预测流)。伪标签预测流预测未标注点云及其对应图像的伪标签。然后,未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中,探索了多个双模态融合模块以融合双模态特征。此外,还探索了一个伪标签优化模块,以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明,所提出的PD-Net不仅优于比较的半监督方法,而且在大多数情况下也达到了一些全监督方法的竞争性能。
在这里插入图片描述


相关文章:

【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录 【长尾学习】【人脸防伪】【图像分割】 【长尾学习】 [2024综述] A Systematic Review on Long-Tailed Learning 论文链接:https://arxiv.org/pdf/2408.00483 长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类…...

device靶机详解

靶机下载地址 https://www.vulnhub.com/entry/unknowndevice64-1,293/ 靶机配置 主机发现 arp-scan -l 端口扫描 nmap -sV -A -T4 192.168.229.159 nmap -sS -Pn -A -p- -n 192.168.229.159 这段代码使用nmap工具对目标主机进行了端口扫描和服务探测。 -sS:使用…...

十四、SOA(在企业中的应用场景)

在企业中,**SOA(面向服务架构)**被广泛应用于多个场景,帮助企业提高灵活性、效率和业务响应能力。SOA通过分解企业系统中的功能模块,以服务的形式进行封装和集成,支持跨平台、跨系统的协同工作。以下是SOA在…...

单片机与PIC的区别:多方面对比

单片机与PIC的区别:多方面对比 在现代电子产品的设计中,单片机和PIC都是不可或缺的控制器。尽管它们在功能上有许多相似之处,但在设计、应用、优势和劣势等方面却有显著区别。今天,我们就来详细对比一下单片机和PIC。 1. 定义与…...

python新手的五个练习题

代码 # 1. 定义一个变量my_Number,将其设置为你的学号,然后输出到终端。 my_Number "20240001" # 假设你的学号是20240001 print("学号:", my_Number) # 2. 计算并输出到终端:两个数(例如3和5)的和、差、乘积和商。 num1 3 num2 5 print(&…...

Go语言并发编程之sync包详解

在当今多核时代,如何高效地利用并发是每个Go语言开发者都需要掌握的技能。Go语言为我们提供了丰富的并发编程工具,其中最基础也是最重要的就是sync包。本文将深入探讨sync包的各种并发原语,包括WaitGroup、Mutex、RWMutex、Cond、Once和Pool,并通过丰富的代码示例和详尽的解…...

函数题 6-10 阶乘计算升级版【PAT】

文章目录 题目函数接口定义裁判测试程序样例输入样例输出样例 题解解题思路完整代码AC代码 编程练习题目集目录 题目 要求实现一个打印非负整数阶乘的函数。 函数接口定义 void Print_Factorial ( const int N ); 其中N是用户传入的参数,其值不超过 1000 1000 10…...

java项目之基于springboot的医院资源管理系统源码

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的医院资源管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 💕💕作者:风…...

Docker命令全解析:掌握容器化技术的基石

在容器化技术日益普及的今天,Docker作为其中的佼佼者,凭借其轻量级、可移植和易于管理的特性,赢得了广泛的关注和应用。而掌握Docker命令,则是深入理解和高效利用Docker的关键。本文将带您走进Docker命令的世界,从基础…...

2024.9.19

[ABC266F] Well-defined Path Queries on a Namori 题面翻译 题目描述 给定一张有 N N N 个点、 N N N 条边的简单连通无向图和 Q Q Q 次询问,对于每次询问,给定 x i , y i x_i,y_i xi​,yi​,表示两点的编号,请你回答第 x i …...

“跨链桥“的危害

跨链桥(Cross-Chain Bridges)是连接不同区块链网络的工具,允许用户在不同的区块链之间转移资产和数据。尽管跨链桥为区块链生态系统带来了许多便利,但它们也存在一些潜在的危害和风险。以下是一些主要的危害: 1. 安全…...

GO CronGin

文章目录 Robfig Cron介绍1. **安装 robfig/cron**2. **基本用法**示例:创建一个简单的定时任务3. **Cron 表达式**常用的 Cron 表达式示例:4. **添加和管理任务**5. **上下文支持**6. **使用场景**7. **高级用法**总结 Cron 在Gin中实践使用1. **安装 r…...

手机在网状态查询接口如何用C#进行调用?

一、什么是手机在网状态查询接口? 手机在网状态查询接口是利用实时数据来对手机号码在运营商网络中的状态进行查询的工具,包括正常使用状态、停机状态、不在网状态、预销户状态等。 二、手机在网状态查询适用哪些场景? 例如:商…...

Java面向对象特性与泛型:深入理解与应用

Java作为一种广泛使用的面向对象编程语言,提供了丰富的特性来支持面向对象编程(OOP)和泛型编程。本文将深入探讨Java的面向对象特性和泛型,以及它们在实际开发中的应用。 1. 面向对象特性 面向对象编程是一种编程范式&#xff0…...

Qwen2.5 本地部署的实战教程

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学…...

Oracle数据库pl/sql显式抛出异常

在Oracle PL/SQL中,显式地抛出异常(Raising Exceptions Explicitly)是一种控制程序流程和处理错误的重要机制。当你希望在某些特定条件下中断程序的执行,并通知调用者发生了错误或异常情况时,可以使用这种机制。下面是…...

Undet for sketchup 2023.3注册机 支持草图大师sketchup2021-2022-2023

1.Undet for sketchup 2023.3支持草图大师sketchup2021-2022-2023。支持机载雷达扫描、车载扫描还是地面扫描,对AEC行业用户来说,真正需要的是如何将这些数据快速处理为三维模型,这样才能将这些信息延展到BIM领域发挥效用。因此面对这些海量的…...

Java详细学习路线:从入门到精通的全方位指南

Java作为一种广泛使用的编程语言,以其跨平台性、强大的库支持和广泛的应用领域(如Web开发、Android开发、大数据处理等)而著称。对于初学者来说,制定一个清晰、系统的学习路线至关重要。以下是一个从Java基础到高级应用的详细学习…...

Spark 性能优化高频面试题及答案

目录 高频面试题及答案1. 如何通过调整内存管理来优化 Spark 性能?2. 如何通过数据持久化优化性能?3. 如何通过减少数据倾斜(Data Skew)问题来优化性能?4. 如何通过优化 Shuffle 操作提升性能?5. 如何通过广…...

【洛谷】AT_abc371_e [ABC371E] I Hate Sigma Problems 的题解

【洛谷】AT_abc371_e [ABC371E] I Hate Sigma Problems 的题解 洛谷传送门 AT传送门 题解 I Hate Sigma Problems!!! 意思很简单就是求序列中每一个子区间内含有不同数字的个数之和。 暴力的话时间复杂度是 O ( n 2 ) O(n ^ 2) O(n2),是肯定不行的&#xff0…...

Psychopy音频的使用

Psychopy音频的使用 本文主要解决以下问题: 指定音频引擎与设备;播放音频文件 本文所使用的环境: Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...

C++:多态机制详解

目录 一. 多态的概念 1.静态多态(编译时多态) 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1).协变 2).析构函数的重写 5.override 和 final关键字 1&#…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式

今天是关于AI如何在教学中增强学生的学习体验,我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育,这并非炒作,而是已经发生的巨大变革。教育机构和教育者不能忽视它,试图简单地禁止学生使…...

【Linux系统】Linux环境变量:系统配置的隐形指挥官

。# Linux系列 文章目录 前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变量的生命周期 四、环境变量的组织方式五、C语言对环境变量的操作5.1 设置环境变量:setenv5.2 删除环境变量:unsetenv5.3 遍历所有环境…...

深入浅出Diffusion模型:从原理到实践的全方位教程

I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...

AD学习(3)

1 PCB封装元素组成及简单的PCB封装创建 封装的组成部分: (1)PCB焊盘:表层的铜 ,top层的铜 (2)管脚序号:用来关联原理图中的管脚的序号,原理图的序号需要和PCB封装一一…...

React父子组件通信:Props怎么用?如何从父组件向子组件传递数据?

系列回顾: 在上一篇《React核心概念:State是什么?》中,我们学习了如何使用useState让一个组件拥有自己的内部数据(State),并通过一个计数器案例,实现了组件的自我更新。这很棒&#…...

从零手写Java版本的LSM Tree (一):LSM Tree 概述

🔥 推荐一个高质量的Java LSM Tree开源项目! https://github.com/brianxiadong/java-lsm-tree java-lsm-tree 是一个从零实现的Log-Structured Merge Tree,专为高并发写入场景设计。 核心亮点: ⚡ 极致性能:写入速度超…...

6.9本日总结

一、英语 复习默写list11list18,订正07年第3篇阅读 二、数学 学习线代第一讲,写15讲课后题 三、408 学习计组第二章,写计组习题 四、总结 明天结束线代第一章和计组第二章 五、明日计划 英语:复习l默写sit12list17&#…...