当前位置: 首页 > news >正文

【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录

    • 【长尾学习】
    • 【人脸防伪】
    • 【图像分割】

【长尾学习】

[2024综述] A Systematic Review on Long-Tailed Learning

论文链接:https://arxiv.org/pdf/2408.00483

长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型,能够高准确度地识别所有类别,特别是少数/尾部类别。这是一个前沿研究方向,在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先,提出了一个新的长尾学习分类法,包括八个不同的维度,如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法,对长尾学习方法进行了系统回顾,讨论了它们的共性和可比较的差异。同时,还分析了不平衡学习和长尾学习方法之间的差异。最后,讨论了这个领域的前景和未来方向。
在这里插入图片描述


【人脸防伪】

[2024] DeCLIP: Decoding CLIP representations for deepfake localization

论文链接:https://arxiv.org/pdf/2409.08849

代码链接:https://github.com/bit-ml/DeCLIP

生成模型可以创建全新的图像,但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像,从大型自监督模型(如CLIP)中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了,当与足够大的卷积解码器结合使用时,预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同,所提方法能够在具有挑战性的扩散模型情况下执行定位,其中整个图像都受到生成器的影响。此外,作者观察到,这种结合了局部语义信息和全局的数据类型,相比其他生成方法类别,提供了更稳定的泛化性能。

在这里插入图片描述


[2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection

论文链接:https://arxiv.org/pdf/2409.09724

逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧,凸显了对鲁棒且可泛化的面部伪造检测(FFD)技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式,但其他模态如细粒度噪音和文本尚未被充分探索,这限制了模型的泛化能力。此外,大多数FFD方法倾向于识别由GAN生成的面部图像,但难以检测未见过的扩散合成图像。为了克服这些局限性,文中旨在利用尖端的基础模型——对比语言-图像预训练(CLIP),实现可泛化的扩散面部伪造检测(DFFD)。本文中提出了一种新颖的多模态细粒度CLIP(MFCLIP)模型,通过语言引导的面部伪造表示学习,挖掘全面的细粒度伪造痕迹,以促进DFFD的发展。具体而言,设计了一种细粒度语言编码器(FLE),从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器(MVE),以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式,并将它们整合起来以挖掘通用的视觉伪造痕迹。此外,构建了一种创新的即插即用样本对注意力(SPA)方法,以强调相关的负样本对并抑制不相关的负样本对,使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明,所提模型在不同设置下(如跨生成器、跨伪造和跨数据集评估)均优于现有技术。

在这里插入图片描述

【图像分割】

[2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

论文链接:https://arxiv.org/pdf/2409.09893

利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值,这些真值具有非重叠的掩码布局和互斥的语义。然而,将它们合并用于多数据集训练会破坏这种和谐,并导致语义不一致。例如,一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳,特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战,作者引入了一种简单而有效的多数据集训练方法,通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时,不受训练数据集之间潜在不一致性的影响。值得注意的是,在四个具有标签空间不一致性的基准数据集上进行推理时,在语义分割上的mIoU提升了1.6%,在全景分割上的PQ提升了9.1%,在实例分割上的AP提升了12.1%,并在新提出的PIQ指标上提升了3.0%。
在这里插入图片描述


[ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation

论文链接:https://arxiv.org/pdf/2409.13325

随着3D和2D数据采集技术的发展,同时获取场景的点云和图像变得容易,这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时,严重依赖于标注训练数据的量与质。然而,大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题,作者提出了一种并行双流网络来处理半监督双模态语义分割任务,称为PD-Net,它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流(分别称为原始流和伪标签预测流)。伪标签预测流预测未标注点云及其对应图像的伪标签。然后,未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中,探索了多个双模态融合模块以融合双模态特征。此外,还探索了一个伪标签优化模块,以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明,所提出的PD-Net不仅优于比较的半监督方法,而且在大多数情况下也达到了一些全监督方法的竞争性能。
在这里插入图片描述


相关文章:

【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录 【长尾学习】【人脸防伪】【图像分割】 【长尾学习】 [2024综述] A Systematic Review on Long-Tailed Learning 论文链接:https://arxiv.org/pdf/2408.00483 长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类…...

device靶机详解

靶机下载地址 https://www.vulnhub.com/entry/unknowndevice64-1,293/ 靶机配置 主机发现 arp-scan -l 端口扫描 nmap -sV -A -T4 192.168.229.159 nmap -sS -Pn -A -p- -n 192.168.229.159 这段代码使用nmap工具对目标主机进行了端口扫描和服务探测。 -sS:使用…...

十四、SOA(在企业中的应用场景)

在企业中,**SOA(面向服务架构)**被广泛应用于多个场景,帮助企业提高灵活性、效率和业务响应能力。SOA通过分解企业系统中的功能模块,以服务的形式进行封装和集成,支持跨平台、跨系统的协同工作。以下是SOA在…...

单片机与PIC的区别:多方面对比

单片机与PIC的区别:多方面对比 在现代电子产品的设计中,单片机和PIC都是不可或缺的控制器。尽管它们在功能上有许多相似之处,但在设计、应用、优势和劣势等方面却有显著区别。今天,我们就来详细对比一下单片机和PIC。 1. 定义与…...

python新手的五个练习题

代码 # 1. 定义一个变量my_Number,将其设置为你的学号,然后输出到终端。 my_Number "20240001" # 假设你的学号是20240001 print("学号:", my_Number) # 2. 计算并输出到终端:两个数(例如3和5)的和、差、乘积和商。 num1 3 num2 5 print(&…...

Go语言并发编程之sync包详解

在当今多核时代,如何高效地利用并发是每个Go语言开发者都需要掌握的技能。Go语言为我们提供了丰富的并发编程工具,其中最基础也是最重要的就是sync包。本文将深入探讨sync包的各种并发原语,包括WaitGroup、Mutex、RWMutex、Cond、Once和Pool,并通过丰富的代码示例和详尽的解…...

函数题 6-10 阶乘计算升级版【PAT】

文章目录 题目函数接口定义裁判测试程序样例输入样例输出样例 题解解题思路完整代码AC代码 编程练习题目集目录 题目 要求实现一个打印非负整数阶乘的函数。 函数接口定义 void Print_Factorial ( const int N ); 其中N是用户传入的参数,其值不超过 1000 1000 10…...

java项目之基于springboot的医院资源管理系统源码

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的医院资源管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 💕💕作者:风…...

Docker命令全解析:掌握容器化技术的基石

在容器化技术日益普及的今天,Docker作为其中的佼佼者,凭借其轻量级、可移植和易于管理的特性,赢得了广泛的关注和应用。而掌握Docker命令,则是深入理解和高效利用Docker的关键。本文将带您走进Docker命令的世界,从基础…...

2024.9.19

[ABC266F] Well-defined Path Queries on a Namori 题面翻译 题目描述 给定一张有 N N N 个点、 N N N 条边的简单连通无向图和 Q Q Q 次询问,对于每次询问,给定 x i , y i x_i,y_i xi​,yi​,表示两点的编号,请你回答第 x i …...

“跨链桥“的危害

跨链桥(Cross-Chain Bridges)是连接不同区块链网络的工具,允许用户在不同的区块链之间转移资产和数据。尽管跨链桥为区块链生态系统带来了许多便利,但它们也存在一些潜在的危害和风险。以下是一些主要的危害: 1. 安全…...

GO CronGin

文章目录 Robfig Cron介绍1. **安装 robfig/cron**2. **基本用法**示例:创建一个简单的定时任务3. **Cron 表达式**常用的 Cron 表达式示例:4. **添加和管理任务**5. **上下文支持**6. **使用场景**7. **高级用法**总结 Cron 在Gin中实践使用1. **安装 r…...

手机在网状态查询接口如何用C#进行调用?

一、什么是手机在网状态查询接口? 手机在网状态查询接口是利用实时数据来对手机号码在运营商网络中的状态进行查询的工具,包括正常使用状态、停机状态、不在网状态、预销户状态等。 二、手机在网状态查询适用哪些场景? 例如:商…...

Java面向对象特性与泛型:深入理解与应用

Java作为一种广泛使用的面向对象编程语言,提供了丰富的特性来支持面向对象编程(OOP)和泛型编程。本文将深入探讨Java的面向对象特性和泛型,以及它们在实际开发中的应用。 1. 面向对象特性 面向对象编程是一种编程范式&#xff0…...

Qwen2.5 本地部署的实战教程

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学…...

Oracle数据库pl/sql显式抛出异常

在Oracle PL/SQL中,显式地抛出异常(Raising Exceptions Explicitly)是一种控制程序流程和处理错误的重要机制。当你希望在某些特定条件下中断程序的执行,并通知调用者发生了错误或异常情况时,可以使用这种机制。下面是…...

Undet for sketchup 2023.3注册机 支持草图大师sketchup2021-2022-2023

1.Undet for sketchup 2023.3支持草图大师sketchup2021-2022-2023。支持机载雷达扫描、车载扫描还是地面扫描,对AEC行业用户来说,真正需要的是如何将这些数据快速处理为三维模型,这样才能将这些信息延展到BIM领域发挥效用。因此面对这些海量的…...

Java详细学习路线:从入门到精通的全方位指南

Java作为一种广泛使用的编程语言,以其跨平台性、强大的库支持和广泛的应用领域(如Web开发、Android开发、大数据处理等)而著称。对于初学者来说,制定一个清晰、系统的学习路线至关重要。以下是一个从Java基础到高级应用的详细学习…...

Spark 性能优化高频面试题及答案

目录 高频面试题及答案1. 如何通过调整内存管理来优化 Spark 性能?2. 如何通过数据持久化优化性能?3. 如何通过减少数据倾斜(Data Skew)问题来优化性能?4. 如何通过优化 Shuffle 操作提升性能?5. 如何通过广…...

【洛谷】AT_abc371_e [ABC371E] I Hate Sigma Problems 的题解

【洛谷】AT_abc371_e [ABC371E] I Hate Sigma Problems 的题解 洛谷传送门 AT传送门 题解 I Hate Sigma Problems!!! 意思很简单就是求序列中每一个子区间内含有不同数字的个数之和。 暴力的话时间复杂度是 O ( n 2 ) O(n ^ 2) O(n2),是肯定不行的&#xff0…...

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源(HTML/CSS/图片等),响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址,提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

React Native 开发环境搭建(全平台详解)

React Native 开发环境搭建(全平台详解) 在开始使用 React Native 开发移动应用之前,正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南,涵盖 macOS 和 Windows 平台的配置步骤,如何在 Android 和 iOS…...

黑马Mybatis

Mybatis 表现层&#xff1a;页面展示 业务层&#xff1a;逻辑处理 持久层&#xff1a;持久数据化保存 在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎&#xff1a;品融电商&#xff0c;一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中&#xff0c;品牌如何破浪前行&#xff1f;自建团队成本高、效果难控&#xff1b;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

cf2117E

原题链接&#xff1a;https://codeforces.com/contest/2117/problem/E 题目背景&#xff1a; 给定两个数组a,b&#xff0c;可以执行多次以下操作&#xff1a;选择 i (1 < i < n - 1)&#xff0c;并设置 或&#xff0c;也可以在执行上述操作前执行一次删除任意 和 。求…...

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

&#x1f50d; 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术&#xff0c;可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势&#xff0c;还能有效评价重大生态工程…...

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例&#xff0c;模拟20个网页的爬取&#xff0c;每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程&#xff1a;允许程序同时执行多个任务&#xff0c;提高IO密集型任务&#xff08;如网络请求&#xff09;的效率…...

Java入门学习详细版(一)

大家好&#xff0c;Java 学习是一个系统学习的过程&#xff0c;核心原则就是“理论 实践 坚持”&#xff0c;并且需循序渐进&#xff0c;不可过于着急&#xff0c;本篇文章推出的这份详细入门学习资料将带大家从零基础开始&#xff0c;逐步掌握 Java 的核心概念和编程技能。 …...

【Redis】笔记|第8节|大厂高并发缓存架构实战与优化

缓存架构 代码结构 代码详情 功能点&#xff1a; 多级缓存&#xff0c;先查本地缓存&#xff0c;再查Redis&#xff0c;最后才查数据库热点数据重建逻辑使用分布式锁&#xff0c;二次查询更新缓存采用读写锁提升性能采用Redis的发布订阅机制通知所有实例更新本地缓存适用读多…...

C++.OpenGL (20/64)混合(Blending)

混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...