ChatGPT背后有哪些关键技术?CSIG企业行带你一探究竟
目录
- 1 ChatGPT的时代
- 2 CSIG企业行
- 3 议题&嘉宾介绍
- 3.1 对生成式人工智能的思考
- 3.2 对话式大型语言模型研究
- 3.3 文档图像处理中的底层视觉技术
- 4 观看入口
1 ChatGPT的时代
2015年,马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立了OpenAI,公司核心宗旨在于实现安全的通用人工智能(AGI),使其有益于人类。
2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。
ChatGPT对社会发展的影响非常广泛,以下是ChatGPT的自白:
大家好,我是
ChatGPT,接下来介绍我对社会的影响。
- 我可以提高信息获取的效率:回答各种问题,包括科技、医学、教育、商业等各个领域的问题,帮助人们更快速、准确地获取所需信息;
- 我可以推动智能客服的发展:模拟人类对话,提供智能客服服务,使得客户能够更方便、快捷地解决问题,提高客户满意度和忠诚度;
- 我可以帮助语言障碍者:用多种语言回答问题,帮助语言障碍者更方便地获取信息和解决问题;
- 我可以改善教育体验:回答学生的问题,帮助学生更好地理解知识点,促进教育效果的提高;
- 我可以促进科研进展:帮助科学家更快速地获取资料,进行数据分析和建模,从而推动科研进展;
- 我可以促进文化交流:帮助人们学习其他国家和地区的语言和文化,促进跨文化交流和理解;
- …

2 CSIG企业行
虽然以ChatGPT为代表的AI黑科技产品一路狂飙、大规模落地,但仍然有一系列问题值得思考:
- 国内生成式人工智能还有哪些前沿研究成果?
- 跨模态、异构数据爆发式增长,如何高效处理?
- 大型语言模型未来的优化趋势是怎样的?
- 牵动多个应用领域的底层视觉技术有哪些优化空间?
- …

2023年3月18日,由中国图象图形协会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”系列活动将正式举办,通过搭建学术界与企业交流合作平台,为企业创新发展提供科技支撑,为图像图形领域高校师生提供与企业互动机会,集结产学研力量,共同推动图像图形领域的发展。

此次活动以图文智能处理与多场景应用技术展望为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、复旦、厦门大学、中科大等知名院校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT与文档处理未来。
活动干货多多,全程亮点,欢迎大家关注!
3 议题&嘉宾介绍
3.1 对生成式人工智能的思考

- 嘉宾介绍:上海交通大学人工智能研究院常务副院长,人工智能教育部重点实验室主任,长江学者、国家杰青、IEEE Fellow。主要研究图像处理与机器学习,获国家科技进步二等奖、上海市科技进步一等奖、国家研究生教育成果二等奖。任中国图像图形学会常务理事、上海市图像图形学会理事长。
- 报告题目:《生成式人工智能》

生成式人工智能(Generative AI)是指一类可以自主创造新的数据、文本、图像、音频等内容的人工智能算法。
从 2017 年开始,GAI的主流技术生成对抗网络的应用陆续被人提出并不断完善。
GAN网络由生成器网络与判别器网络两部分共同构成。其核心思想是通过两个子网各自的最优变化,达到全局的最优效果。生成器网络的核心作用是通过一系列的网络结构生成可以骗过判别器网络的数据,判别器网络的核心作用是通过网络设计可以不被生成器网络生成的数据所骗过。生成器网络与判别器网络二者互相制约,共同成长,形成表现良好的网络结构。有时,网络内部还借助空洞卷积、注意力机制、特征融合、编码器等方法的一个或多个特性进行优化。生成器网络与判别器网络共同训练的过程如图所示

图中蓝色虚线代表判别器分布,黑色虚线代表真实数据,绿线实线代表生成器生成的数据。从左往右依次展示了生成对抗网络模型训练的过程中,生成器网络与判别器网络的变化过程。可见随着训练迭代次数的增加,生成器网络生成的数据逐渐接近数据库中原始的真实数据。直到判别器网络已经不能很好的判断出,它接收到的两种数据,哪个是生成器生成的数据,哪个是数据库中真实的数据,此时,生成对抗网络达到最佳效果,停止迭代。
生成式人工智能技术的出现,为我们创造更多样、更富创意的内容提供了新的可能性。举例而言
- 图像/视频生成:生成对抗网络(GAN)可以用于生成逼真的图像,如 Deepfake 与 NVIDIA 的 StyleGAN就是一种应用 GAN 的技术,可以生成高分辨率的逼真虚假视频;
- 文本生成:自回归模型可以用于生成连续文本,如 OpenAI 的 GPT 模型可以生成类似于自然语言的文本,可以用于自动生成文章、小说等;
- 音频生成:WaveNet 是一种基于神经网络的音频合成模型,可以用于合成逼真的语音、音乐等;
- 艺术创作:GAN 可以被用于生成逼真的艺术作品,如 NVIDIA 的 GauGAN 可以将简单的手绘图转换为逼真的景观照片;
- 游戏设计:生成式人工智能可以用于游戏设计,自动生成游戏地图、角色等元素,如《MineRL》等游戏就使用了生成式人工智能技术。
总而言之,生成式人工智能技术的出现,为电影、游戏、音乐、小说等领域的创作提供了新的可能性。随着技术的不断发展,我们可以期待更多的应用场景出现。

然而,生成式人工智能技术也存在着一些潜在的风险和挑战:生成式模型可能会被用于制造虚假信息、混淆公众视听,影响社会稳定等。因此,我们需要在使用生成式人工智能技术时保持警惕,同时积极探索如何加强对这种技术的监管和管理,确保其能够为社会带来更多正面的价值。

杨小康教授正是着力于生成式人工智能技术,分享团队对元宇宙和生成式人工智能发展趋势的思考,并对团队在流体现象模拟推理、物理环境持续预测学习、强化学习中世界模型表征解耦、虚拟数字人重建与驱动等方面的生成式人工智能初步成果进行介绍,欢迎大家进一步了解。
3.2 对话式大型语言模型研究

- 嘉宾介绍:复旦大学计算机学院教授,担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等,主要研究方向为自然语言处理基础技术和基础模型,发表CCF A/B类论文80余篇,被引用1万余次,获得ACL 2017杰出论文奖(CCF A类)、CCL 2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有5篇论文入选ACL/EMNLP等会议的最有影响力论文,主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用,发布了CPT、BART-Chinese、ElasticBERT等中文预训练模型,在中文模型中下载量排名前列。
- 报告题目:《对话式大型语言模型》
对话式大型语言模型是一种非常有用的技术,可以模拟人类对话的能力。它们能够理解自然语言,以及根据给定的上下文和语境生成自然的响应。这些模型的一个很大的优点是,它们可以大大减少人类与机器之间的沟通障碍。这对于许多应用程序都非常有用,例如:
- 智能助手:Apple Siri、Amazon Alexa、Google Assistant等,它们能够与用户进行自然语言对话,回答问题,执行任务,提供信息等等。

- 在线客服:许多企业都使用聊天机器人来与客户进行对话,解答问题,提供支持等等,从而提高客户满意度和效率;
- 聊天机器人:微软的 XiaoIce、OpenAI的 GPT 等,它们可以与用户进行自然对话,提供有趣的聊天体验。
此外,对话式大型语言模型还在情感分析、文本摘要、自然语言理解等方面都具有非常广泛的应用。最近大家关注的ChatGPT,就是专门用于聊天和对话的语言模型。ChatGPT是基于GPT-3开发的,具有强大的对话能力,能够理解语言上下文,并能够生成富有表现力和连贯的响应。所谓GPT,全称是Generative Pre-trained Transformer,这是一种基于Transformer的语言模型。
Transformer又是什么呢?它是一种用于自然语言处理和其他序列到序列(sequence-to-sequence)任务的神经网络架构。它于2017年由谷歌的研究人员提出,被认为是自然语言处理领域的一项重大突破。
Transformer基于注意力机制(Attention Mechanism)构建,其核心思想是在序列中进行全局信息的交互和捕捉,而不是像以往的循环神经网络(RNN)一样在序列中逐个位置处理信息。Transformer通过多个自注意力层(Self-Attention Layer)进行信息的交互和表示,而每个自注意力层包含了注意力机制的三个部分:查询(query)、键(key)和值(value)。

具体来说,对于一个输入序列,Transformer将其转换为多个词向量(word embeddings),然后通过自注意力层进行特征提取。在自注意力层中,查询向量通过与所有键向量的相似度计算来计算注意力分数,这些分数用于加权求和值向量,最终得到每个位置的输出向量。然后,这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。
相比于传统的序列模型,Transformer的优点在于可以并行处理输入序列,从而加速模型的训练和推断。此外,Transformer还能够有效地处理长序列,因为它可以在不受时间限制的情况下一次性处理整个序列,而不需要像RNN那样进行逐个位置的处理。
更多技术方面的内容可以期待一下邱锡鹏教授的报告,报告里,邱教授将以ChatGPT为例介绍其强大的意图理解能力、流畅的对话能力和丰富的世界知识,并讲解通用人工智能助手广阔的研究和应用前景。同时,阐述对话式大型语言模型的能力评测、能力演化路线分析以及如何在下游任务中更高效利用大模型的能力。欢迎感兴趣的同学参加!
3.3 文档图像处理中的底层视觉技术

- 嘉宾介绍:上海交通大学模式识别与智能系统博士。长期从事文字识别(包括手写/OCR),图像处理研究,CSIG文档图像分析与识别专委会常务委员。近年来,带领团队获得过ICDAR19大会表格检测竞赛冠军,中国图象图形学会2021年度科技进步二等奖等奖项,现任合合信息图像算法研发总监。
- 报告题目:《文档图像处理中的底层视觉技术》
底层视觉(Low-level vision)主要研究如何提高或恢复各类场景下的图像/视频内容,如
- 图像去噪:主要解决图像中存在的噪声问题,使图像更加清晰和易于处理,广泛应用于图像处理、计算机视觉、医学成像、遥感图像处理等领域。
- 图像超分辨率:指通过一系列的算法和技术将低分辨率图像转换为高分辨率图像的过程。超分辨率技术的原理可以简单地概括为利用算法将低分辨率图像转换为高分辨率图像。这个过程中,需要根据一些规则和约束条件来进行图像重建,以尽可能地提高重建后图像的质量。如下图所示

超分辨率也是近年来视觉方向非常热门的话题。在实际应用中,超分辨率技术的实现通常分为两个步骤:训练阶段——利用大量的低分辨率和高分辨率图像对来训练一个神经网络模型,以学习图像间的映射关系;测试阶段——输入低分辨率图像后,通过训练好的模型进行重建,输出高分辨率图像。
超分辨率技术还包含大量的图像处理方法,例如
-
图像插值
图像插值是超分辨率技术中最基本的方法,它通过在像素之间插值来增加图像的分辨率。常见的插值算法包括双线性插值、双三次插值等,它们可以通过计算周围像素的加权平均值来填充新的像素值。虽然图像插值可以增加图像的分辨率,但是它并不能提高图像的质量,只是增加了图像的大小。
-
图像重建
图像重建是超分辨率技术中更高级的方法,它利用多张低分辨率图像来重建出一张高分辨率图像。常见的图像重建算法包括基于插值的重建、基于统计的重建、基于边缘的重建等。这些算法利用低分辨率图像中的一些特征来推断高分辨率图像中的信息,从而实现图像的重建。
-
神经网络
近年来,神经网络模型成为超分辨率技术中最常用的方法。通过训练神经网络模型,可以学习到图像之间的映射关系,从而实现低分辨率图像到高分辨率图像的转换。常见的神经网络模型包括卷积神经网络(CNN)、循环神经网络(RNN)等。这些模型可以通过反向传播算法进行训练,并在测试阶段进行图像重建。
更多相关的技术理论将在郭丰俊博士的报告中展开,同时,郭丰俊博士将分享合合信息在文档图像处理系统中所做的底层视觉技术研发工作,从技术本身的应用和对下游任务的影响的角度,阐述底层视觉技术的价值与思考。
4 观看入口
合合信息视频号18号下午14:00直播,欢迎感兴趣的同学来交流

议程
| 时间 | 议题 | 发言人 |
|---|---|---|
| 14:00-14:05 | 《合合信息 欢迎致词》 | 合合信息 领导 Micheal |
| 14:05-14:10 | 《CSIG文档图像分析与识别专委会主任 致词》 | 华南理工大学 金连文教授 |
| 14:10-14:40 | 《生成式人工智能》 | 上海交通大学 杨小康教授 |
| 14:40-15:10 | 《对话式大型语言模型》 | 复旦大学 邱锡鹏教授 |
| 15:10-15:40 | 《复杂跨媒体数据协同分析与应用》 | 厦门大学 纪荣嵘教授 |
| 15:40-16:10 | 《面向图像文档的复杂结构建模研究》 | 中国科学技术大学 杜俊 |
| 16:10-16:40 | 《文档图像处理中的底层视觉技术》 | 合合信息 郭丰俊 |
| 16:40-17:15 | 15分钟答疑 |
相关文章:
ChatGPT背后有哪些关键技术?CSIG企业行带你一探究竟
目录1 ChatGPT的时代2 CSIG企业行3 议题&嘉宾介绍3.1 对生成式人工智能的思考3.2 对话式大型语言模型研究3.3 文档图像处理中的底层视觉技术4 观看入口1 ChatGPT的时代 2015年,马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始…...
C#基础之面向对象编程(二)
总目录 文章目录总目录前言一、概述1. 定义2. 面向对象的三大特性二、封装1. 定义2. 属性三、继承1. 定义2. 继承的使用3. base 和this四、多态1. 定义2. 重写和重载3. 多态性的实现1、静态多态性2、动态多态性4. 向上转型和向下转型1、定义2、语法格式3、案例结语前言 本文主…...
蓝桥杯刷题冲刺 | 倒计时25天
作者:指针不指南吗 专栏:蓝桥杯倒计时冲刺 🐾马上就要蓝桥杯了,最后的这几天尤为重要,不可懈怠哦🐾 文章目录1.完全二叉树1.完全二叉树 题目 链接: 完全二叉树的权值 - 蓝桥云课 (lanqiao.cn) 给…...
c语言—动态内存管理
一.为什么存在动态内存开辟开辟空间的特点:空间开辟大小是固定的数组在申明时,必须指定数组长度,她所需要的内存在编译时分配但是对于空间的需求,不仅仅是上述的情况。有时候我们需要的空间大小在程序运行的时候才能知道ÿ…...
请说明Ajax、Fetch、Axios三者的区别
相同点: 1、三者都用于网络请求,但是不同维度 2、 Ajax(Asynchronous Javascript and XML),一种技术的统称,并不是实际的API 3、Fetch是一个具体的API,浏览器里面直接有一个API就叫Fetch 4、 Axios是一个第三方库&…...
阿里p8测试总监,让我们用这份《测试用例规范》,再也没加班过
经常看到无论是刚入职场的新人,还是工作了一段时间的老人,都会对编写测试用例感到困扰?例如: 固然,编写一份好的测试用例需要:充分的需求分析能力 理论及经验加持,作为测试职场摸爬打滚的老人&…...
【Unity】数据持久化路径Application.persistentDataPath
今天突然想到这个路径Application.persistentDataPath,热更的重要路径,该文件夹可读可写,在移动端唯一一个可读写操作的文件夹。移动端可以将本地的资源(资源MD5值配置表)等一些文件放到StreamingAssets文件夹下&#…...
华为OD机试 - 插队(Java JS Python)
题目描述 某银行将客户分为了若干个优先级, 1 级最高, 5 级最低,当你需要在银行办理业务时,优先级高的人随时可以插队到优先级低的人的前面。 现在给出一个人员到来和银行办理业务的时间序列,请你在每次银行办理业务时输出客户的编号。 如果同时有多位优先级相同且最高…...
MongoDB数据库从入门到精通系列之八:调整oplog大小
MongoDB数据库从入门到精通系列之八:调整oplog大小 一、oplog的概念二、oplog大小三、调整oplog大小详细步骤一、oplog的概念 操作日志oplog包含了主节点执行的每一次写操作。oplog是存在于主节点local数据库中的一个固定集合。从节点通过查询此集合以获取需要复制的操作。每个…...
PCL 间接平差法拟合二维直线
目录 一、算法原理二、代码实现三、结果展示四、相关链接一、算法原理 通过传统最小二乘法对点云数据进行二维直线拟合时,可将误差只归因于一个方向上,本文假设误差只存在于 y y y轴方向上,设点云拟合的二维直线方程为: y =...
进程调度的基本过程
这里写目录标题什么是进程进程管理结构体或类的主要属性pid内存指针文件描述符表辅助进程调度的属性并发并行并发什么是进程 进程是操作系统对一个正在运行的程序的一种抽象,也就是说,一个运行起来的程序就是一个进程。 进程又是操作系统进行资源分配的…...
python自动化办公(二)
上接python自动化办公(一) 文章目录文件和目录操作使用shutil库文件查找globfnmatchhashlib文件和目录操作 使用shutil库 shutil库也是Python标准库,它可以处理文件、文件夹、压缩包,能实现文件复制、移动、压缩、解压缩等功能。…...
Qt Quick - GridLayout 网格布局
GridLayout 理论总结一、概述二、依赖属性三、例子1. 不含跨行的2. 带跨行列的3. 从右到左一、概述 GridLayout 是最常用的布局器,也叫网格布局器,如果网格布局被调整大小,布局中的所有 Item 将被重新排列。它类似于基于widget的QGridLayout…...
安卓手机也可以使用新必应NewBing
没有魔法安卓手机也可以使用新必应NewBing 目前知道的是安卓手机 安卓手机先安装一个猴狐浏览器 打开手机自带浏览器,搜索关键词:猴狐浏览器,找到官网 也可以直接复制这个网址 狐猴浏览器 lemurbrowser CoolAPK 我的手机是荣耀安卓手机…...
支付系统设计:消息重试组件封装
文章目录前言一、重试场景分析一、如何实现重试1. 扫表2. 基于中间件自身特性3. 基于框架4. 根据公司业务特性自己实现的重试二、重试组件封装1. 需求分析2. 模块设计2.1 持久化模块1. 表定义2. 持久化接口定义3. 持久化配置类2.2 重试模块1.启动2.重试3. 业务端使用1. 引入依赖…...
Visual Studio 2022 c#中很实用的VS默认快捷键和原生功能
常常使用VS感觉还是有必要掌握其默认的快捷键,我这个人比较懒,不喜欢动不动就去设置快捷键,系统有就用,记住了就可以到处用,问题是像我们这种有很多个工作场所的人不可能每台电脑都去配置一下快键键。实际上我使用3dma…...
Python的30个编程技巧
1. 原地交换两个数字 Python 提供了一个直观的在一行代码中赋值与交换(变量值)的方法,请参见下面的示例: x,y 10,20 print(x,y) x,y y,x print(x,y) #1 (10, 20) #2 (20, 10) 赋值的右侧形成了一个新的元组,左侧立即解…...
MySQL:JDBC
什么是JDBC? JDBC( Java DataBase Connectivity ) 称为 Java数据库连接 ,它是一种用于数据库访问的应用程序 API ,由一组用Java语言编写的类和接口组成,有了JDBC就可以 用统一的语法对多种关系数据库进行访问,而不用担…...
C++【list容器模拟实现函数解析】
list容器&&模拟实现函数解析 文章目录list容器&&模拟实现函数解析一、list容器使用介绍二、list容器模拟实现及函数解析2.1 list结构体创建2.2 迭代器封装2.21 构造函数:2.22 前置和后置及- -2.23 解引用2.24 判断相等2.25 箭头重载2.26 第二个和第…...
(Java)试题 算法提高 约数个数
一、题目 (1)资源限制 内存限制:512.0MB C/C时间限制:1.0s Java时间限制:3.0s Python时间限制:5.0s (2)输入 输入一个正整数N (3)输出 N有几个约数 &a…...
从WWDC看苹果产品发展的规律
WWDC 是苹果公司一年一度面向全球开发者的盛会,其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具,对过去十年 WWDC 主题演讲内容进行了系统化分析,形成了这份…...
1688商品列表API与其他数据源的对接思路
将1688商品列表API与其他数据源对接时,需结合业务场景设计数据流转链路,重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点: 一、核心对接场景与目标 商品数据同步 场景:将1688商品信息…...
数据链路层的主要功能是什么
数据链路层(OSI模型第2层)的核心功能是在相邻网络节点(如交换机、主机)间提供可靠的数据帧传输服务,主要职责包括: 🔑 核心功能详解: 帧封装与解封装 封装: 将网络层下发…...
JUC笔记(上)-复习 涉及死锁 volatile synchronized CAS 原子操作
一、上下文切换 即使单核CPU也可以进行多线程执行代码,CPU会给每个线程分配CPU时间片来实现这个机制。时间片非常短,所以CPU会不断地切换线程执行,从而让我们感觉多个线程是同时执行的。时间片一般是十几毫秒(ms)。通过时间片分配算法执行。…...
css3笔记 (1) 自用
outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size:0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格ÿ…...
RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)
RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发,后来由Pivotal Software Inc.(现为VMware子公司)接管。RabbitMQ 是一个开源的消息代理和队列服务器,用 Erlang 语言编写。广泛应用于各种分布…...
NPOI操作EXCEL文件 ——CAD C# 二次开发
缺点:dll.版本容易加载错误。CAD加载插件时,没有加载所有类库。插件运行过程中用到某个类库,会从CAD的安装目录找,找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库,就用插件程序加载进…...
【SpringBoot自动化部署】
SpringBoot自动化部署方法 使用Jenkins进行持续集成与部署 Jenkins是最常用的自动化部署工具之一,能够实现代码拉取、构建、测试和部署的全流程自动化。 配置Jenkins任务时,需要添加Git仓库地址和凭证,设置构建触发器(如GitHub…...
nnUNet V2修改网络——暴力替换网络为UNet++
更换前,要用nnUNet V2跑通所用数据集,证明nnUNet V2、数据集、运行环境等没有问题 阅读nnU-Net V2 的 U-Net结构,初步了解要修改的网络,知己知彼,修改起来才能游刃有余。 U-Net存在两个局限,一是网络的最佳深度因应用场景而异,这取决于任务的难度和可用于训练的标注数…...
jdbc查询mysql数据库时,出现id顺序错误的情况
我在repository中的查询语句如下所示,即传入一个List<intager>的数据,返回这些id的问题列表。但是由于数据库查询时ID列表的顺序与预期不一致,会导致返回的id是从小到大排列的,但我不希望这样。 Query("SELECT NEW com…...
