通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值
一、前言
最近有幸参加了由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行——走进合合信息”的分享会,这次活动以“图文智能处理与多场景应用技术展望”为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、复旦、厦门大学、中科大的知名高校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT与文档处理未来。经过此次会议,让我对AI图像、文档处理方面有了更深刻的理解,下面聊聊我的一些感悟和想法。
二、感悟分享
1)生成式人工智能将在未来成为主流
会议开始,来自上海交大的杨小康教授带来了他的报告《生成式人工智能与元宇宙》
生成式人工智能这个词对于非AI领域的同学一定很陌生,但它就在我们身边,这里给大家简单说明一下:
我们熟知的通过AI进行图像识别、垃圾邮件检测、数据预测、自动驾驶等这些都属于分析或决策式的人工智能,我们给机器大量的数据,建立学习模型,让它们能够比人类更高效精准的完成一些任务。而生成式人工智则是进行“创造”,通过从数据中学习要素,进而生成全新的、原创的内容或产品,它不仅能够实现传统AI的分析、判断、决策功能,还能够实现传统AI力所不及的创造性功能,如今大火的ChatGPT、AIGC都属于生成式人工智能,2021年4月,英伟达公司创始人兼首席执行官黄仁勋的演讲会就有15秒的视频通过生成式人工智能合成的:
杨小康教授在会议中首先分享了他们对元宇宙和生成式人工智能发展趋势和价值:
然后介绍他们在流体现象模拟推理、物理环境持续预测学习、强化学习中世界模型表征解耦、虚拟数字人重建与驱动等方面的生成式人工智能取得成果:
并表示,目前的生成式人工智能还存在解空间巨大、宏观一致性差、微观清晰度受限等问题,需要通过数学、物理、信息论、脑认知、计算机等学科交叉研究,进一步夯实生成式人工智能的基础理论,通过“物理+数据”联合驱动, “虚拟+现实”深度融合,助力科学发现的加速。
随着人工智能技术的飞速发展,生成式AI仿佛一股清流般涌入了人类的日常生活,充满创造力的新世界就此呈现在我们的眼前。
据国际IT研究机构Gartner预测,到2025年,生成式人工智能产生的数据将占据人类全部数据的10%。可以明显的看到,生成式人工智能技术正加速数字经济的发展,生成型人工智能已经成为一个重要的研究领域,因为它能够弥合物理世界和数字领域之间的差距。它的重要性在于它能够将现实世界中的结构、操作和规则映射到计算机模型中,从而使计算机能够模仿人类的行为。此外,它在各个行业的应用表明了它改变我们生活的潜力。展望未来,这一领域的研究可能会集中于“新智能”模型,如转移学习、深度强化学习和贝叶斯优化,以及基于大数据和无监督学习技术的应用。
我很赞成杨小康教授的一个观点就是:生成式人工智能是构建元宇宙的一个可行的途径。而且在不久的将来,以“识别——分析”为代表的判别式人工智能将被“合成——重建”为代表的生成式人工智代替而成为主流。
另外,复旦大学计算机学院教授邱锡鹏也对ChapGPT大语言模型的关键技术进行了深度剖析,他从大规模预训练语言模型带来的变化、ChatGPT 的关键技术及其局限性等角度深入地介绍了大规模语言模型的相关知识:
也指出了ChatGPT目前最大的问题之一:作为大型语言模型,它无法实时与外部世界互动,也无法利用如计算器,数据库,搜索引擎等外部工具,导致它的知识也相对落后,而未来它更应该做到提高适时性、即时性、无害等等。总的来说,如果将 LLM 作为智能体本身,能够与外部交互之后,这些模型的能力一定会有更大的提升!
随着 ChatGPT的大火,很多公司和组织都跟风,推出类似的聊天机器人产品。这也证明了大家认可聊天机器人技术的可行性和潜力,也让人们看到了聊天机器人在未来的巨大市场和应用前景。
2)文档图像处理方向的AI应用还存在巨大的挑战,但也有巨大的行业前景和价值
我们经常提到的图像超分辨率、去模糊、去噪、破损图像恢复等都属于底层视觉应用的范畴,底层视觉的特征非常明显:输入是图像,输出也是图像。比如:图像预处理、滤波、恢复和增强等:
近年来,随着人工智能、深度学习技术的快速发展以及在高层视觉任务上的出色表现,将其应用到底层视觉任务上的工作也逐渐涌现出来。然后面临的问题却很多,效果也不太理想。
来自上海交通大学的模式识别与智能系统博士,合合信息图像算法研发总监郭丰俊表示:底层视觉的理论和方法在众多领域都有着广泛的应用,如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好,很多 high-level 视觉系统(如检测、识别、理解)无法真正落地。看了他针对目前底层视觉技术在处理形变、模糊、阴影遮盖、背景杂乱的文档时遇到的典型问题,就公司技术团队在智能图像处理技术模块、融合技术典型应用、图像安全领域等领域的研究成果进行的分享后我深表赞同。
之后他介绍了合合信息智能文档处理技术基于对图像目标区域的精准裁剪,对弯曲、倾斜透视的页面进行形变矫正,在去除阴影、摩尔纹后,通过人工智能技术对文档图像进行增强锐化和清晰度提升,能达到“图像质量增强”的效果,在改善阅读体验的同时,也提升了识别转换、图像分析等文档处理下游任务的质效,相关技术已通过“扫描全能王”等智能文字识别产品,服务全球上百个国家和地区的上亿用户:
去年我也使用过合合科技的PS检测合摩尔纹去除等服务,效果都很不错,特别是PS检测上,这一直是很多行业迫切需要解决的难点,特别是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:
会议中,来自中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊做的文字识别工作也惊艳到了我。
如果仅仅是标准字体的图文识别,那相对来说很简单,但在很多现实场景中,字不一定会以规范的印刷体的形式出现,这就给字的识别带来了挑战,比如学生作业及试卷的错别字检测,医嘱识别等场景,如果能够通过自动化代替人工来做的话会对效率的提升和数据汇总分析等是特别有价值的。
杜俊教授的团队创建了一套基于部首的汉字识别、生成与评测系统,因为与整字建模相比,部首的组合要少得多:
其中,识别与生成是联合优化的,这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面,而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。
除了文本之外,表格的识别与处理其实也是一大难点,因为你不仅要识别里面的内容,还要理清这些内容之间的结构关系,而且有些表可能连线框都没有。为此,杜俊团队基于SEM的表格结构识别设计了一种「先分割,后合并」的方法:
即先把表格图像拆分成一系列基础网格,然后再通过合并的方式做进一步纠正:
当然,这些方法在多版式的场景下还存在局限性,杜俊教授也针对未来的工作做出了计划和展望,希望能如他所愿:
三、总结
在21世纪,人工智能已经进入了腾飞的快车道,而且随着人工智能技术的不断完善和发展,人工智能也从生产领域扩大到生活领域,渗透到了人类生活的每一个细节,有了人工智能技术的帮助,让我们在出行、学习、工作等方面越来越方便,变得更加智慧化。
经过此次会议,让我对人工智能技术的发展和应用有了更清晰的认识,特别是会议上邱锡鹏教授对ChatGPT类大语言模型的技术点深度剖析,让我知道了ChatGPT的原理以及现阶段的难点。ChatGPT的大火也充分展现了研发通用人工智能助手广阔的研究和应用前景,从客服问答,智能引导,灵感创造等都已出现了它的身影,可能现在还不够成熟可靠,但它的出现让我们有了希望,这也是越来越多的企业跟风加入其中的原因。我相信,在不久的将来,如同ChatGPT一样的生成式人工智能产品将越来越频繁地出现在我们的社会场景之中,成为常态。
郭丰俊博士在底层视觉技术处理图像上的应用分享让我真正的感受到了智能数字化时代的高效和美好。以前处理PS痕迹检测找了各种各样的办法,无论是exif识别还是用“放大镜”工具手动排查都无法高效准确的解决此类问题。现在通过先进的底层视觉技术来智能化的进行PS痕迹检测在节约了大量的人力成本同时,还提高了检测效率及准确性。这是人工智能价值最直观的体现。
总而言之,AI时代已经到来,AI时代会让世界更高效!
相关文章:

通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值
一、前言 最近有幸参加了由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行——走进合合信息”的分享会,这次活动以“图文智能处理与多场景应用技术展望”为主题,聚…...

流程图拖拽视觉编程--概述
一般的机器视觉平台采用纯代码的编程方式,如opencv、halcon,使用门槛高、难度大、定制性强、开发周期长,因此迫切需要一个低代码开发的视觉应用平台。AOI缺陷检测的对象往往缺陷种类多,将常用的图像处理算子封装成图形节点,如抓直…...

深度学习中的卷积神经网络
博主简介 博主是一名大二学生,主攻人工智能研究。感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c,Python,爬虫等方面知识的分享。 如果有需要的小伙伴可以关注博主,博主会继续更新的,…...

vue3的介绍和两种创建方式(cli和vite)
目录 一、vue3的介绍 (一)vue3的简介 (二)vue3对比vue2带来的性能提升 二、vue3的两种创建方式 方式一:使用vue-cli创建(推荐--全面) 操作步骤 方式二:使用vite创建 操作步…...

camunda工作流user task如何使用
在Camunda中使用User Task通常需要以下步骤: 1、创建User Task:使用BPMN 2.0图形化设计器(如Camunda Modeler),将User Task元素拖到流程图中,并为任务命名,指定参与者(用户或用户组…...
三元运算符
三元运算符 三元运算符通常在Python⾥被称为条件表达式 这些表达式基于真(true)/假(not)的条件判 断 在Python 2.4以上才有了三元操作。 下⾯是⼀个伪代码和例⼦: 伪代码: 如果条件为真,返回真 否则返回假 condition_is_true if condition else c…...

Vue3 Element-plus el-menu无限级菜单组件封装
对于element中提供给我们的el-menu组件最多可以实现三层嵌套,如果多一层数据只能自己通过变量去加一层,如果加了两层、三层这种往往是行不通的,所以只能进行封装 效果图 一、定义数据 MenuData.ts export default [{id: "1",name…...

( “树” 之 BST) 669. 修剪二叉搜索树 ——【Leetcode每日一题】
二叉查找树(BST):根节点大于等于左子树所有节点,小于等于右子树所有节点。 二叉查找树中序遍历有序。 669. 修剪二叉搜索树 给你二叉搜索树的根节点 root ,同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树&…...

【C语言】浅涉结构体(声明、定义、类型、定义及初始化、成员访问及传参)
简单不先于复杂,而是在复杂之后。 目录 1. 结构体的声明 1.1 结构体的基础知识 1.2 结构的声明 1.3 结构成员的类型 1.4 结构体变量的定义和初始化 2. 结构体成员的访问 3. 结构体传参 1. 结构体的声明 1.1 结构体的基础知识 结构是一些值的集合&…...

设计模式-结构型模式之装饰模式
3. 装饰模式 3.1. 模式动机 一般有两种方式可以实现给一个类或对象增加行为: 继承机制 使用继承机制是给现有类添加功能的一种有效途径,通过继承一个现有类可以使得子类在拥有自身方法的同时还拥有父类的方法。但是这种方法是静态的,用户不能…...
【Chatgpt4 教学】 NLP(自然语言处理)第九课 朴素贝叶斯分类器的工作原理 机器学习算法
我在起,点更新NLP自然语言处理》《王老师带我成为救世主》 为啥为它单独开章,因为它值得,它成功的让我断了一更,让我实践了自上而下找能够理解的知识点,然后自下而上的学习给自己的知识升级,将自己提升到能…...

基于html+css的图片展示17
准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…...

Jupyter Notebook小知识
目录 1 快捷键1.1 常用快捷键1.2 魔法函数 2 常用快捷键2.1 模式切换2.2 命令模式快捷键2.3 编辑模式快捷键3 Matplotlib绘图 4 小技巧4.1 文件默认目录的查看以及更改4.2 更改主题颜色 5 其它5.1 python中 r, b, u, f 的含义5.2 f/format():格式化操作 6 常见问题6.1 查看模块…...

redis原理及进化之路
Redis 的主从复制经历了多次演进,本文将从最基本的原理和实现讲起,并层层递进,逐步呈现 Redis 主从复制的演进历史。大家将了解到 Redis 主从复制的原理,以及各个改进版本解决了什么问题,并最终看清 Redis 7.0 主从复制…...

ai智能写作助手-ai自动写作软件
为什么要用ai智能写作工具 在数字化时代,AI(人工智能)技术已经被广泛应用于各种领域,其中之一是写作。AI智能写作工具是利用自然语言处理技术和机器学习算法来生成高质量的文章、博客、新闻稿等。这些工具不仅提供了便捷、高效的…...

redis持久化
redis提供两种方式进行持久化,一种是RDB持久化(原理是将Reids在内存中的数据库记录定时dump到磁盘上的RDB持久化),另外一种是AOF持久化(原理是将Reids的操作日志以追加的方式写入文件)。那么这两种持久化方…...

Vue项目基于driverjs实现新用户导航
引导页就是当用户第一次或者手动进行触发的时候,提示给用户当前系统的模块介绍,比如哪里是退出,哪里是菜单等等相应的操作。 无论是开发 APP 还是 web 应用,新手引导都是一个很常见的需求,一般在这2个方面需要新手引导…...

自编码器简单介绍—使用PyTorch库实现一个简单的自编码器,并使用MNIST数据集进行训练和测试
文章目录 自编码器简单介绍什么是自编码器?自动编码器和卷积神经网络的区别?如何构建一个自编码器?如何训练自编码器?如何使用自编码器进行图像压缩?总结使用PyTorch构建简单的自动编码器第一步:导入库和数…...

redis单机最大并发量
redis单机最大并发量 布隆过滤器多级缓存客户端缓存应用层缓存Expires和Cache-Control的区别Nginx缓存管理 服务层缓存进程内缓存进程外缓存 缓存数据一致性问题的解决引入多级缓存设计的时刻 Redis的速度非常的快,单机的Redis就可以⽀撑 每秒十几万的并发,相对于MySQL来说,性…...

MTLAB绘图
这里写目录标题 一、图例1、散点图 二、绘图1、总体图形参数2、坐标、图框、网格图框去上右边框小刻度网格坐标范围和刻度控制旋转 坐标、刻度 3、图例图例位置和方向 Location和Orientation图例加标题 、分多列 4、文本 字、字体、字号5、线型 符号6、颜色栏 colorbar7、颜色8…...

《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》
在注意力分散、内容高度同质化的时代,情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现,消费者对内容的“有感”程度,正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中࿰…...
反射获取方法和属性
Java反射获取方法 在Java中,反射(Reflection)是一种强大的机制,允许程序在运行时访问和操作类的内部属性和方法。通过反射,可以动态地创建对象、调用方法、改变属性值,这在很多Java框架中如Spring和Hiberna…...

【配置 YOLOX 用于按目录分类的图片数据集】
现在的图标点选越来越多,如何一步解决,采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集(每个目录代表一个类别,目录下是该类别的所有图片),你需要进行以下配置步骤&#x…...
leetcodeSQL解题:3564. 季节性销售分析
leetcodeSQL解题:3564. 季节性销售分析 题目: 表:sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...
【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统
目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...
虚拟电厂发展三大趋势:市场化、技术主导、车网互联
市场化:从政策驱动到多元盈利 政策全面赋能 2025年4月,国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》,首次明确虚拟电厂为“独立市场主体”,提出硬性目标:2027年全国调节能力≥2000万千瓦࿰…...

免费数学几何作图web平台
光锐软件免费数学工具,maths,数学制图,数学作图,几何作图,几何,AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

Windows安装Miniconda
一、下载 https://www.anaconda.com/download/success 二、安装 三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客 四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

mac:大模型系列测试
0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何,是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试,是可以跑通文章里面的代码。训练速度也是很快的。 注意…...

Ubuntu系统多网卡多相机IP设置方法
目录 1、硬件情况 2、如何设置网卡和相机IP 2.1 万兆网卡连接交换机,交换机再连相机 2.1.1 网卡设置 2.1.2 相机设置 2.3 万兆网卡直连相机 1、硬件情况 2个网卡n个相机 电脑系统信息,系统版本:Ubuntu22.04.5 LTS;内核版本…...