当前位置: 首页 > news >正文

已经有多人中招,不要被AI换脸技术骗了!

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦
💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通
😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。
❤️ 3. Python爬虫专栏,系统性的学习爬虫的知识点。9.9元买不了吃亏,买不了上当 。python爬虫入门进阶
❤️ 4. Ceph实战,从原理到实战应有尽有。 Ceph实战
❤️ 5. Java高并发编程入门,打卡学习Java高并发。 Java高并发编程入门

文章目录

    • 1. 前言背景
    • 2. 大模型在文档图像领域的应用
      • 2.1. 文档图像大模型的进展
    • 3. 图像安全
      • 3.1. 图像篡改检测
      • 3.2. 生成式图像鉴别
    • 4. 总结

1. 前言背景

自去年ChatGPT发布之后,各大科技公司纷纷推出了自家的大模型,标志这人类社会正式进入了大模型时代。大模型的发展速度惊人,从最初的只能根据提问生成自然语言文本,到现在可以根据输入文本来绘图,根据输入图像来进行OCR识别,并对文档或图像的内容进行解释。这意味着现在的大模型已经从单一模态的输入和输出,进化到了多模态的输入和输出。

在近期召开的第六届中国模式识别与计算机视觉大会上。我专门学习了合合信息的郭丰俊博士关于文档图像前沿技术探索的分享。郭博士是上海交通大学模式识别与智能系统博士,他首先介绍了多模态在文档图像领域的应用以及合合信息在此方向的最新研究成果。接着,他阐述了如何应对各类图像安全问题,特别是图像篡改以及AI换脸等造假行为的甄别新思路。通过郭博士的分享,我对大模型时代文档图像领域的发展趋势有了更深入的了解。

2. 大模型在文档图像领域的应用

通用大语言模型(Large Language Models,LLM)是以深度学习为基础,包含超大规模参数的预训练模型,主要应用于自然语言领域。这些模型的训练需要大量的高质量数据语料。然而,随着大模型的快速发展和广泛应用,高质量的数据语料逐渐被消耗殆尽。据预测,到2026年全世界可用于大模型训练的高质量数据语料将面临枯竭的风险。这对大模型的发展和应用提出了严峻挑战。

为了应对这一问题,单一的文本数据输入已无法满足需求,大模型需要引入多种模态的数据语料。电子文档作为丰富的数据源,具有巨大的潜力。首先,电子文档提供了丰富多样的文本内容,涵盖了各种领域的专业知识,专业术语,实际场景将这些文档作为语料库,可以有效扩大大语言模型的训练数据范围,提高其语言理解和生成能力。其次,电子文档通常经过精心编辑,逻辑清晰、可读性强。其章节分明、段落明确的结构有助于大模型更好地学习理解上下文规则。此外,通过电子文档的训练,大模型还能够适应不同的语境和用法。

考虑到电子文档中存在大量的扫描件,文档图像处理技术的发展对大模型的进步具有重要意义。图像处理和自然语言处理相结合,将为大模型提供更加全面和多样的数据支持,进一步推动其发展和应用。

同时,这种技术也可以给图像识别提供新的思路和方法。通过结合自然语言处理,图像识别可以更加准确地理解图像中的文本信息,从而提高图像识别的准确性和可靠性。这种跨模态的技术将为人工智能领域的发展带来新的机遇和挑战。

2.1. 文档图像大模型的进展

目前,业界已经涌现出了一批知名的文档图像大模型,其中有代表性的包括多模态模型BLP2,微软的LLaVA以及DeepMind的Flamingo。这些模型在工作机制上有所不同,但都展现了在文档图像处理领域的强大能力。

BLP2多模态模型使用Q-Former连接图像编码器(ViT) 和LLM解码器,通过Image Encode将图像进行编码,然后使用Q-Former将图像部分和文字部分进行融合,最后对接大模型进行理解和生成。这种工作机制使得BLP2不仅能够进行图像识别,还能充分利用大模型的理解能力,提高了模型的性能和应用范围。

微软的LLaVA模型则采用CLIP ViT-L图像编码器和LLaMA解码器,并使用GPT-4和自注意力生成高质量的158K instruction following数据。这种方法使得LLaVA能够在文档图像处理任务中取得较好的效果,提高了模型的准确性和可靠性。

DeepMind的Flamingo模型则在大语言模型中增加了Gated Attention层,通过计算图像特征和文本特征之间的注意力权重,生成与文本特征相匹配的视觉向量。这个视觉向量与文本向量一起作为输入,使得语言模型的输出更加准确和生动。

尽管这些文档图像大模型在工作机制上有所不同,但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积,目前这些模型在OCR识别上的系统性能还有待进一步提高。
在这里插入图片描述

郭丰俊博士指出了当前文档图像大模型在处理细粒度文本时存在的局限性,可能的原因之一是视觉编码器的分辨率不足。在真实的应用场景中,细粒度文本往往会受到光照、噪声、变形等各种因素的干扰,这增加了文字识别的难度。现有的多模态大模型中的视觉编码器,如基于卷积神经网络或Transformer的模型,在处理图像时会受到分辨率的限制,导致对细粒度文本的识别效果不佳。

另一方面,训练数据集的缺乏也是影响模型性能的重要因素。由于缺少针对细粒度文本的标注数据,模型难以从数据中学习到有效的细粒度文本特征表示。因此,虽然现有的多模态大模型在处理显著文本时表现较好,但在处理细粒度文本时仍存在很大的局限性。

为了克服这些局限性,需要进一步开展深入的研究和探索。

3. 图像安全

图像安全与每个人的日常生活紧密相连,许多诈骗分子利用伪造的身份证冒充他人进行非法交易,或者通过虚假发票实施金融诈骗。

在传统图像处理中,人们通过PS(Photoshop)等工具对图像进行篡改,例如添加水印,修改原图内容等。这种篡改方式相对较易检测出来。然而,随着大模型时代的到来,AI换脸技术的出现使得图像篡改变得更加复杂和难以检测。通过运用大量的训练数据和强大的神经网络模型,AI可以生成非常逼真的人脸图像,与真实的人脸几乎无法区分。由此,利用AI换了技术进行欺诈的案例屡见不鲜。

除了AI换脸技术,通过生成对抗网络(GAN)等技术 ,AIGC还能生成各种类型的图像,包括风景、动物、物体等。这些生成的图像可以非常逼真,与真实的图片相比真假难辨。这给图像安全带来了巨大的挑战,因为人们很难判断一张图像是真实拍摄的还是由AI所生成的。

在这里插入图片描述

为了应对这些挑战,研究人员正在努力开发新的技术和方法来检测和防止图像篡改和伪造。

3.1. 图像篡改检测

传统的图像篡改检测技术主要通过应用Sobel算子计算图像的梯度,然后进行阈值处理,将梯度幅值较小的像素设为零。接着通过分析非零像素数量来判断图像是否被篡改。具体来说,如果非零像素数量超过图像总像素数的1%,那么该图像会被认定为已被篡改。

这种方法对于相片这类有明显像素差异的图片有一定的效果,但对于截图这类缺乏纹路和底色、光照差异的图片则显得力不从心,鉴别准确率不高。

为了应对这种情况,合合信息提出了一种全新的分割模型Backbone,该模型采用了ConvNeXt作为编码器,同时使用LightHam和EANet两个网络并行作为解码器。

编码器的作用是将输入的图像数据进行特征提取和压缩,将其转化为低维的特征表示。在这个分割模型中,选择的ConvNeXt编码器是一种基于卷积神经网络(CNN)的新型架构。它在保持计算效率的同时,能够有效地捕捉图像中的局部和全局信息,提高了网络的性能和表达能力。

解码器的作用则是将编码器提取的特征表示恢复为原始图像的大小,并进行像素级别的分类。在这个分割模型中,采用了并行的两个解码器:LightHam和EANet。LightHam是一种轻量级的解码器结构,通过分层注意力机制和多尺度融合策略,实现了高效的图像分割。而EANet(Efficient Attention Network)则是一种高效的解码器结构,通过引入自底向上的注意力机制和空间金字塔池化等技术,提高了分割的准确性和速度。

最后,这两个解码器并行工作,分别生成两个独立的分割结果。这两个结果可以进一步融合或选择最优的结果作为最终的分割输出。这种并行处理的方式可以提高模型的鲁棒性和准确性,同时也增加了模型的复杂度和计算开销。

Backbone分割模型架构图如下图所示:

在这里插入图片描述

合合信息自研的图片篡改检测系统,在 ICDAR2023 文档图像篡改检测竞赛中,凭借卓越的检测性能,成功荣获赛道冠军。

在这里插入图片描述

合合信息自研的图片篡改检测系统已经在多个行业成功落地,包括证券、保险、银行、零售等。这些行业的业务流程涉及到大量的图像信息处理和审核,如证件照、合同、发票等,因此对图像篡改检测的需求较大。

通过引入合合信息的图片篡改检测系统,企业可以提高业务审核的准确性和效率,有效减少因图像篡改而引发的风险和损失。同时,该系统还可以提升企业的业务流程自动化水平,降低人工审核的成本和误差。

为了方便更多用户体验和使用该系统,合合信息已在其官网上线了这套图片篡改检测系统。有需求的小伙伴可以到官网进行免费体验。体验地址为: PS检测网址。通过这一系统, 用户可以快速检测图像是否被篡改,提高图像信息的可信度。

3.2. 生成式图像鉴别

生成式图像鉴别主要面临两大难题:首先,AI生成的图像涵盖了丰富多样的场景,这使得通过穷举法进行鉴别变得非常困难;其次,AI生成的图像非常的逼真,与真实图片相似度极高,这对人类的判断构成了极大的挑战。

为了应对这些难点,合合信息提出了一种创新的方法,基于空域和频域关系建模。这种方法无需穷举所有可能的图像,而是通过捕捉多维度的特征来准确地分辨真实图片和生成式图片之间的微妙差异。

这种多维度特征的分析方式为机器提供了一种更加精确的判断图像真实性的能力,从而有效地解决了生成式图片与真实图片相似度过高的问题。这使得机器能够更加可靠地鉴别图像的来源,提高了生成式图像鉴别的准确性。

模型结构图如下图所示:

image-20231015201118187

以人脸为例,该模型通过运用多个空间注意力头来聚焦空间特征,并结合纹理增强模块对浅层特征中的细微伪影进行放大处理。这些技术手段大大增强了模型真实人脸和伪造人脸的感知与判断准确度。在各种复杂场景下,该模型均能够表现出高度可靠的性能,准确区分真实人脸和伪造人脸。随着相关技术的快速迭代,模型的性能也在不断提升,进一步优化了对生成式图像鉴别的能力。

image-20231015201429559

4. 总结

通过郭丰俊博士的分享,我深入了解了大模型在文档图像领域应用的广阔前景。合合信息将大模型与OCR技术巧妙结合,创新地将端到端的检测识别定义为图片到序列的预测任务,只需单点标注指示文本位置,无需额外的ROI采样和复杂的后处理操作,真正实现了检测与识别的完美融合。这一创新方法极大地提高了文档图像识别的效率,展现了大模型在文档图像处理中的优势。

此外,合合信息还提出了一种空域和频率建模的方法,以解决AI换脸和AI生成图片的图像篡改鉴别问题。该方法通过捕捉多维度的特征,精确地分辨真实图片和生成式图片之间的细微差异,在实际场景中表现出可靠的性能。

值得一提的是,合合信息在文档图像领域拥有近20年的丰富积累,具备OCR识别、版面分析等技术领域的坚实基础。公司推出了多款知名产品,如扫描全能王和名片全能王等,展现了其在文档图像处理领域的领先地位。
image-20231015194737646

相关文章:

已经有多人中招,不要被AI换脸技术骗了!

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦。 💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精…...

solidworks 2024新功能之--保存为低版本 硕迪科技

大家期盼已久的SOLIDWORKS保存低版本文件功能来了,从SOLIDWORKS 2024 开始,您可以将在最新版本的SOLIDWORKS 中创建的SOLIDWORKS零件、装配体和工程图另存为SOLIDWORKS 早期版本的全功能文档(完成的特征树与相关参数)。 将文件另…...

MySQL --- 聚合查询 和 联合查询

聚合查询: 下文中的所有聚合查询的示例操作都是基于此表: 聚合函数 聚合函数都是行与行之间的运算。 count() select count(列名) from 表名; 统计该表中该列的行数,但是 null 值不会统计在内,但是如果写为 count(*) 那么 nu…...

Note——torch.size() umr_maximum() array.max() itertools.product()

torch.size Problem TypeError: ‘torch.Size’ object is not callable Reason Analysis torch.Size函数不可调用 因为torch只可以.size() 或 shape Solution 将y.shape()替换为y.size() 或 y.shape ytorch.normal(0,0.01,y.size())2 return umr_maximum(a, axis, None…...

python学习笔记6-DefaultDict

对于一般的字典来说,如果键不存在会导致【KeyError】,因此可以考虑用DefaultDict # Defining the dict d defaultdict(def_value) d["a"] 1 d["b"] 2print(d["a"]) print(d["b"]) print(d["c"…...

Redis 底层对 String 的 3 个优化

Redis对 String 类型实现了很多优化,通过以下三个重要的优化点来解释: 1. 简单动态字符串(SDS) Redis 的 String 类型内部采用简单动态字符串(SDS)来管理字符串。相比于 C 语言的原生字符串,S…...

简约艺术签名小程序源码/流量主小程序源码/字节跳动抖音小程序

源码简介: 本源码为简约艺术签名小程序、流量主小程序以及字节跳动抖音小程序的源代码。该小程序是一款实用的工具,旨在帮助用户创建各种独特的艺术签名,以便在社交媒体平台上更好地展示用户的个性和创意。 源码链接: 网盘源码 …...

Ubuntu(kylin)挂载iso文件和配置apt本地源

版本说明:Ubuntu Server 16.04 LTS解决问题:解决在无任何互联网的环境下,安装软件时缺少依赖包的问题 方法一:通过虚拟机挂载 将镜像挂载到虚拟机以VMware Workstation为例,打开“虚拟机设置”,点击“CD/DVD”选项,将 “设备状态”中的“<...

wps表格求标准差怎么算?

在WPS表格中&#xff0c;要计算标准差&#xff0c;可以使用STDEV函数。标准差是一种衡量数据集合离散程度的统计指标。下面我将详细介绍如何使用STDEV函数来计算标准差。 STDEV函数的语法为&#xff1a;STDEV(range) 其中&#xff0c;range表示要计算标准差的数据范围&#x…...

安达发|制造企业生产排产现状和APS系统的解决方案

随着市场竞争的加剧&#xff0c;制造业企业面临着生产效率、成本控制和客户满意度等方面的巟大压力。在这种背景下&#xff0c;生产排产作为制造业的核心环节&#xff0c;对企业的生产经营具有重要意义。本文将针对制造业的生产排产现状进行分析&#xff0c;并提出相应的APS系统…...

Qt判断一个点在多边形内还是外(支持凸边形和凹变形)

这里实现的方法是转载于https://blog.csdn.net/trj14/article/details/43190653和https://blog.csdn.net/WilliamSun0122/article/details/77994526 来实现的&#xff0c;并且按照Qt的规则进行了调整。 以下实现方法有四种&#xff0c;每种方法的具体讲解在转载的博客中有说明&…...

MySQL导入数据库出现 Got error 168 from storage engine错误

“Got error 168 from storage engine” 是 MySQL 数据库的一个错误&#xff0c;通常是由于存储引擎发生了一些问题导致的。这个错误可能有多种原因引起。以下是一些可能的解决方法&#xff1a; 检查硬盘空间&#xff1a;确保目标数据库的服务器有足够的硬盘空间来执行导入操作…...

使用 VS Code 作为 VC6 的编辑器

使用 VS Code 作为 VC 6.0 的编辑器 由于一些众所周知的原因&#xff0c;我们不得不使用经典&#xff08;过时&#xff09;的比我们年龄还大的已有 25 年历史的 VC 6.0 来学习 C 语言。而对于现在来说&#xff0c;这个经典的 IDE 过于简陋&#xff0c;并且早已不兼容新的操作系…...

Peter算法小课堂—蠕动区间

蠕动区间 蠕动区间&#xff08;尺取法、双游标&#xff09;是一个经典的优化算法。 我们以毛毛虫&#x1f41b;举例说明 具体的&#xff0c;我们看题目 例题 最小区间 这一题&#xff0c;我们用暴力法&#xff0c;复杂度O(N^2) 先给出暴力法代码 int ansn1; for(int tail…...

Vant和ElementPlus在vue的hash模式的路由下路由离开拦截使用Dialog和MessageBox失效

问题复现 ElementPlus&#xff1a;当点击返回或者地址栏回退时&#xff0c;MessageBox无效 <template><div>Element Plus Dialog 路由离开拦截测试</div><el-button type"primary" click"$router.back()">返回</el-button>…...

上海市通过区块链技术攻关 构建数字经济可信安全技术底座

日前&#xff0c;上海市印发《上海区块链关键技术攻关专项行动方案&#xff08;2023—2025年&#xff09;》&#xff08;以下简称《行动方案》&#xff09;&#xff0c;提出到2025年&#xff0c;在区块链体系安全、密码算法等基础理论以及区块链专用处理器、智能合约、跨链、新…...

Java 面试题

昨天面试了两个Java开发程序员&#xff0c;问了一些问题&#xff0c;回答的不是很好&#xff0c;看看大家的回答如何&#xff0c;可以在评论区回复&#xff0c;测试下自己的水平。 A程序员&#xff1a; 1. 自我介绍一下&#xff1b; 2. 企业级和互联网行业都有那些项目经验,简…...

layui 表格 展开

一、表格嵌套表格&#xff08;手风琴打开&#xff09; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>设备上下线统计</title><script type"text/javascript" src"../../../l…...

[尚硅谷React笔记]——第4章 React ajax

目录&#xff1a; 脚手架配置代理_方法一 server1.js开启服务器server1:App.js解决跨域问题&#xff1a;脚手架配置代理_方法二 ​​​​​​​server2.js开启服务器server2第一步&#xff1a;创建代理配置文件编写setupProxy.js配置具体代理规则&#xff1a;App.js运行结果&a…...

Richard Stallman 正在与癌症作战

导读为了纪念 GNU 项目成立 40 周年&#xff0c;自由软件基金会&#xff08;FSF&#xff09;已计划在 10 月 1 日&#xff08;即GNU 40&#xff09;为家庭、学生以及美国的其他人群组织一场黑客马拉松活动。 活动之前&#xff0c;GNU 项目于 9 月 27 日迎来了 40 岁生日&#…...

MathType7.4最新免费版(公式编辑器)下载安装包附安装教程

MathType是一款专业的数学公式编辑器&#xff0c;理科生专用的必备工具&#xff0c;可应用于教育教学、科研机构、工程学、论文写作、期刊排版、编辑理科试卷等领域。可视化公式编辑器轻松创建数学方程式和化学公式。兼容Office Word、PowerPoint、Pages、Keynote、Numbers 等7…...

如何支持h.265视频

前言 略 h.265视频 h.265是一种视频编码格式。 随着视频编码技术的发展&#xff0c;相比H.264, H.265同等画质体积仅为一半、带宽占用省一半、画质更细腻等诸多优势。 但Web浏览器还不支持H.265的解码播放&#xff0c;因此基于Web Assembly(封装FFmpeg)、JS解封装、Canvas投…...

vue 放大镜(简易)

目录 zoom组件 <template><div class"pic-img"><div class"img-container"><img ref"img" load"imgLoaded" :src"url" :style"overlayStyle" error"imgerrorfun"/><div cl…...

【计算机网络】第一章——概述

个人主页直达&#xff1a;小白不是程序媛 系列专栏&#xff1a;计算机网络基础 目录 前言 计算机网络概述 概念 功能 组成 分类 标准化工作 性能指标 速率 带宽 吞吐量 时延 时延带宽积 往返时延RTT 利用率 分层 为什么要分层&#xff1f; 分层的基本原则&am…...

vue实现在页面拖拽放大缩小div并显示鼠标在div的坐标

1、功能要求&#xff1a; 实现在一个指定区域拖拽div,并可以放大缩小&#xff0c;同时显示鼠标在该div里的坐标&#xff0c;如图可示 缩小并拖动 2、实现 <div class"div_content" ref"div_content"><div class"div_image" id"…...

LuatOS-SOC接口文档(air780E)-- io - io操作(扩展)

示例 -- io模块是lua原生模块,LuatOS增加了一些API -- 请配合os模块一起使用-- 只读模式, 打开文件 local fd io.open("/xxx.txt", "rb") -- 读写默认,打开文件 local fd io.open("/xxx.txt", "wb") -- 写入文件,且截断为0字节 loc…...

【数据结构】线性表(六)堆栈:顺序栈及其基本操作(初始化、判空、判满、入栈、出栈、存取栈顶元素、清空栈)

文章目录 一、堆栈1. 定义2. 基本操作 二、顺序栈0. 顺序表1. 头文件和常量2. 栈结构体3. 栈的初始化4. 判断栈是否为空5. 判断栈是否已满6. 入栈7. 出栈8. 查看栈顶元素9. 清空栈10. 主函数11. 代码整合 堆栈Stack 和 队列Queue是两种非常重要的数据结构&#xff0c;两者都是特…...

父组件可以监听到子组件的生命周期吗?

在 Vue 中,父组件是可以监听到子组件的生命周期的。Vue 提供了一些特殊的钩子函数,可以在父组件中监听子组件的生命周期事件。 以下是一些常用的方法来监听子组件的生命周期: 1:使用$emit: 在子组件的生命周期钩子函数中,使用 $emit 方法触发自定义事件,向父组件发送通…...

[开源]MIT开源协议,基于Vue3.x可视化拖拽编辑,页面生成工具

一、开源项目简介 AS-Editor 基于 Vue3.x 可视化拖拽编辑&#xff0c;页面生成工具。提升前端开发效率&#xff0c;可集成至移动端项目作为通过定义 JSON 直接生成 UI 界面。 二、开源协议 使用MIT开源协议 三、界面展示 四、功能概述 基于Vue可视化拖拽编辑&#xff0c;…...

【C++ Primer Plus学习记录】数组的替代品

目录 1.模板类vector 2.模板类array&#xff08;C11&#xff09; 3.比较数组、vector对象和array对象 模板类vector和array是数组的替代品。 1.模板类vector 模板类vector类似于string类&#xff0c;也是一种动态数组。您可以在运行阶段设置vector对象的长度&#xff0c;可…...