当前位置: 首页 > news >正文

【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录

    • 【长尾学习】
    • 【人脸防伪】
    • 【图像分割】

【长尾学习】

[2024综述] A Systematic Review on Long-Tailed Learning

论文链接:https://arxiv.org/pdf/2408.00483

长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型,能够高准确度地识别所有类别,特别是少数/尾部类别。这是一个前沿研究方向,在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先,提出了一个新的长尾学习分类法,包括八个不同的维度,如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法,对长尾学习方法进行了系统回顾,讨论了它们的共性和可比较的差异。同时,还分析了不平衡学习和长尾学习方法之间的差异。最后,讨论了这个领域的前景和未来方向。
在这里插入图片描述


【人脸防伪】

[2024] DeCLIP: Decoding CLIP representations for deepfake localization

论文链接:https://arxiv.org/pdf/2409.08849

代码链接:https://github.com/bit-ml/DeCLIP

生成模型可以创建全新的图像,但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像,从大型自监督模型(如CLIP)中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了,当与足够大的卷积解码器结合使用时,预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同,所提方法能够在具有挑战性的扩散模型情况下执行定位,其中整个图像都受到生成器的影响。此外,作者观察到,这种结合了局部语义信息和全局的数据类型,相比其他生成方法类别,提供了更稳定的泛化性能。

在这里插入图片描述


[2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection

论文链接:https://arxiv.org/pdf/2409.09724

逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧,凸显了对鲁棒且可泛化的面部伪造检测(FFD)技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式,但其他模态如细粒度噪音和文本尚未被充分探索,这限制了模型的泛化能力。此外,大多数FFD方法倾向于识别由GAN生成的面部图像,但难以检测未见过的扩散合成图像。为了克服这些局限性,文中旨在利用尖端的基础模型——对比语言-图像预训练(CLIP),实现可泛化的扩散面部伪造检测(DFFD)。本文中提出了一种新颖的多模态细粒度CLIP(MFCLIP)模型,通过语言引导的面部伪造表示学习,挖掘全面的细粒度伪造痕迹,以促进DFFD的发展。具体而言,设计了一种细粒度语言编码器(FLE),从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器(MVE),以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式,并将它们整合起来以挖掘通用的视觉伪造痕迹。此外,构建了一种创新的即插即用样本对注意力(SPA)方法,以强调相关的负样本对并抑制不相关的负样本对,使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明,所提模型在不同设置下(如跨生成器、跨伪造和跨数据集评估)均优于现有技术。

在这里插入图片描述

【图像分割】

[2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

论文链接:https://arxiv.org/pdf/2409.09893

利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值,这些真值具有非重叠的掩码布局和互斥的语义。然而,将它们合并用于多数据集训练会破坏这种和谐,并导致语义不一致。例如,一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳,特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战,作者引入了一种简单而有效的多数据集训练方法,通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时,不受训练数据集之间潜在不一致性的影响。值得注意的是,在四个具有标签空间不一致性的基准数据集上进行推理时,在语义分割上的mIoU提升了1.6%,在全景分割上的PQ提升了9.1%,在实例分割上的AP提升了12.1%,并在新提出的PIQ指标上提升了3.0%。
在这里插入图片描述


[ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation

论文链接:https://arxiv.org/pdf/2409.13325

随着3D和2D数据采集技术的发展,同时获取场景的点云和图像变得容易,这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时,严重依赖于标注训练数据的量与质。然而,大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题,作者提出了一种并行双流网络来处理半监督双模态语义分割任务,称为PD-Net,它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流(分别称为原始流和伪标签预测流)。伪标签预测流预测未标注点云及其对应图像的伪标签。然后,未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中,探索了多个双模态融合模块以融合双模态特征。此外,还探索了一个伪标签优化模块,以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明,所提出的PD-Net不仅优于比较的半监督方法,而且在大多数情况下也达到了一些全监督方法的竞争性能。
在这里插入图片描述


相关文章:

【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录 【长尾学习】【人脸防伪】【图像分割】 【长尾学习】 [2024综述] A Systematic Review on Long-Tailed Learning 论文链接:https://arxiv.org/pdf/2408.00483 长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类…...

device靶机详解

靶机下载地址 https://www.vulnhub.com/entry/unknowndevice64-1,293/ 靶机配置 主机发现 arp-scan -l 端口扫描 nmap -sV -A -T4 192.168.229.159 nmap -sS -Pn -A -p- -n 192.168.229.159 这段代码使用nmap工具对目标主机进行了端口扫描和服务探测。 -sS:使用…...

十四、SOA(在企业中的应用场景)

在企业中,**SOA(面向服务架构)**被广泛应用于多个场景,帮助企业提高灵活性、效率和业务响应能力。SOA通过分解企业系统中的功能模块,以服务的形式进行封装和集成,支持跨平台、跨系统的协同工作。以下是SOA在…...

单片机与PIC的区别:多方面对比

单片机与PIC的区别:多方面对比 在现代电子产品的设计中,单片机和PIC都是不可或缺的控制器。尽管它们在功能上有许多相似之处,但在设计、应用、优势和劣势等方面却有显著区别。今天,我们就来详细对比一下单片机和PIC。 1. 定义与…...

python新手的五个练习题

代码 # 1. 定义一个变量my_Number,将其设置为你的学号,然后输出到终端。 my_Number "20240001" # 假设你的学号是20240001 print("学号:", my_Number) # 2. 计算并输出到终端:两个数(例如3和5)的和、差、乘积和商。 num1 3 num2 5 print(&…...

Go语言并发编程之sync包详解

在当今多核时代,如何高效地利用并发是每个Go语言开发者都需要掌握的技能。Go语言为我们提供了丰富的并发编程工具,其中最基础也是最重要的就是sync包。本文将深入探讨sync包的各种并发原语,包括WaitGroup、Mutex、RWMutex、Cond、Once和Pool,并通过丰富的代码示例和详尽的解…...

函数题 6-10 阶乘计算升级版【PAT】

文章目录 题目函数接口定义裁判测试程序样例输入样例输出样例 题解解题思路完整代码AC代码 编程练习题目集目录 题目 要求实现一个打印非负整数阶乘的函数。 函数接口定义 void Print_Factorial ( const int N ); 其中N是用户传入的参数,其值不超过 1000 1000 10…...

java项目之基于springboot的医院资源管理系统源码

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的医院资源管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 💕💕作者:风…...

Docker命令全解析:掌握容器化技术的基石

在容器化技术日益普及的今天,Docker作为其中的佼佼者,凭借其轻量级、可移植和易于管理的特性,赢得了广泛的关注和应用。而掌握Docker命令,则是深入理解和高效利用Docker的关键。本文将带您走进Docker命令的世界,从基础…...

2024.9.19

[ABC266F] Well-defined Path Queries on a Namori 题面翻译 题目描述 给定一张有 N N N 个点、 N N N 条边的简单连通无向图和 Q Q Q 次询问,对于每次询问,给定 x i , y i x_i,y_i xi​,yi​,表示两点的编号,请你回答第 x i …...

“跨链桥“的危害

跨链桥(Cross-Chain Bridges)是连接不同区块链网络的工具,允许用户在不同的区块链之间转移资产和数据。尽管跨链桥为区块链生态系统带来了许多便利,但它们也存在一些潜在的危害和风险。以下是一些主要的危害: 1. 安全…...

GO CronGin

文章目录 Robfig Cron介绍1. **安装 robfig/cron**2. **基本用法**示例:创建一个简单的定时任务3. **Cron 表达式**常用的 Cron 表达式示例:4. **添加和管理任务**5. **上下文支持**6. **使用场景**7. **高级用法**总结 Cron 在Gin中实践使用1. **安装 r…...

手机在网状态查询接口如何用C#进行调用?

一、什么是手机在网状态查询接口? 手机在网状态查询接口是利用实时数据来对手机号码在运营商网络中的状态进行查询的工具,包括正常使用状态、停机状态、不在网状态、预销户状态等。 二、手机在网状态查询适用哪些场景? 例如:商…...

Java面向对象特性与泛型:深入理解与应用

Java作为一种广泛使用的面向对象编程语言,提供了丰富的特性来支持面向对象编程(OOP)和泛型编程。本文将深入探讨Java的面向对象特性和泛型,以及它们在实际开发中的应用。 1. 面向对象特性 面向对象编程是一种编程范式&#xff0…...

Qwen2.5 本地部署的实战教程

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学…...

Oracle数据库pl/sql显式抛出异常

在Oracle PL/SQL中,显式地抛出异常(Raising Exceptions Explicitly)是一种控制程序流程和处理错误的重要机制。当你希望在某些特定条件下中断程序的执行,并通知调用者发生了错误或异常情况时,可以使用这种机制。下面是…...

Undet for sketchup 2023.3注册机 支持草图大师sketchup2021-2022-2023

1.Undet for sketchup 2023.3支持草图大师sketchup2021-2022-2023。支持机载雷达扫描、车载扫描还是地面扫描,对AEC行业用户来说,真正需要的是如何将这些数据快速处理为三维模型,这样才能将这些信息延展到BIM领域发挥效用。因此面对这些海量的…...

Java详细学习路线:从入门到精通的全方位指南

Java作为一种广泛使用的编程语言,以其跨平台性、强大的库支持和广泛的应用领域(如Web开发、Android开发、大数据处理等)而著称。对于初学者来说,制定一个清晰、系统的学习路线至关重要。以下是一个从Java基础到高级应用的详细学习…...

Spark 性能优化高频面试题及答案

目录 高频面试题及答案1. 如何通过调整内存管理来优化 Spark 性能?2. 如何通过数据持久化优化性能?3. 如何通过减少数据倾斜(Data Skew)问题来优化性能?4. 如何通过优化 Shuffle 操作提升性能?5. 如何通过广…...

【洛谷】AT_abc371_e [ABC371E] I Hate Sigma Problems 的题解

【洛谷】AT_abc371_e [ABC371E] I Hate Sigma Problems 的题解 洛谷传送门 AT传送门 题解 I Hate Sigma Problems!!! 意思很简单就是求序列中每一个子区间内含有不同数字的个数之和。 暴力的话时间复杂度是 O ( n 2 ) O(n ^ 2) O(n2),是肯定不行的&#xff0…...

【Go】Go 环境下载与安装教程(Windows系统)

引言 Go,也被称为Golang,是一种静态类型,编译型的编程语言,由Google设计和开发。Go语言的设计目标是“解决软件开发中的一些问题”,特别是在大规模软件系统的构建和维护方面。 下载安装包 打开官网下载页面&#xff…...

毕业设计选题:基于springboot+vue+uniapp的驾校报名小程序

开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…...

网页通知设计灵感:CSS 和 JS 的 8 大创意实现

文章目录 前言正文1.霓虹灯风格的通知系统2.垂直时间轴通知3.动画徽章通知4.项目式通知5.多种状态通知:成功、错误、警告6.信息、警告、提示组件7.扁平化风格通知8.社交媒体风格弹出通知 总结 前言 网页通知如今已成为电商、社交平台等网站的常见功能,它…...

计算机毕业设计之:基于微信小程序的中药材科普系统(源码+文档+讲解)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…...

C++速通LeetCode中等第6题-找到字符串中所有字母异位词(滑动窗口最详细代码注释)

滑动窗口法&#xff1a; class Solution { public:vector<int> findAnagrams(string s, string p) {unordered_map<char,int> need,window;for(char c : p) need[c];int left 0,right 0;int valid 0;vector<int> res;//窗口数据更新while(right < s.s…...

Tcping:一款实用的端口存活检测工具

简介 tcping 是一个基于TCP协议的网络诊断工具,通过发送 TCP SYN/ACK包来检测目标主机的端口状态。 官网:tcping.exe - ping over a tcp connection 优点: (1)监听服务器端口状态:tcping 可以检测指定端口的状态,默认是80端口,也可以指定其他端口。 (2)显示ping返…...

【每日刷题】Day130

【每日刷题】Day130 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 144. 二叉树的前序遍历 - 力扣&#xff08;LeetCode&#xff09; 2. 94. 二叉树的中序遍历 - 力扣…...

书生·浦语作业集合

目录&#xff1a; 1. Linux基础知识 2.python基础知识 3.Git基础知识 4.书生大模型全链路开源体系 1.1-Linux基础知识 配置环境后&#xff0c;运行 hello_word.py 在本地终端中进行端口映射 映射成功后&#xff0c;访问 127.0.0.1&#xff1a;7860 1.2-python基础知识 任务…...

得物App科技创新“再上一层楼”,荣获国家级奖项

近日&#xff0c;在2024中国国际服务贸易交易会&#xff08;简称“服贸会”&#xff09;上&#xff0c;得物App荣获“科技创新服务示范案例”奖项。这是国家层面对得物App以科技创新保障品质消费、提升消费体验成效的肯定。 在得物App上&#xff0c;90后、95后这些曾经的“新生…...

C#软键盘设计字母数字按键处理相关事件函数

应用场景&#xff1a;便携式设备和检测设备等小型设备经常使用触摸屏来代替键盘鼠标的使用&#xff0c;因此在查询和输入界面的文本或者数字输入控件中使用软件盘来代替真正键盘的输入。 软键盘界面&#xff1a;软键盘界面实质上就是一个普通的窗体上面摆放了很多图片按钮&…...