一本了解生成式人工智能
上周,发了一篇关于大语言模型+图数据库技术相结合的文章,引起了很多朋友的兴趣。当然了,这项技术本身就让俺们很兴奋,比如我就是从事图研发的,当然会非常关注它在图领域的应用与相互促就啦。
纵观人类文明历史,从第一次工业革命之后,技术成为了改变世界进程的引擎,生产力和生产关系进入了一个全新的时期。如从美索不达比亚第一株被驯服的小麦,人类从原始狩猎采集转为种植和定居,蒸汽机改变了人类对能源的依赖模式,人类从此步入城市化和工业化。时至今日,我们又在经历一个新的创新周期——人工智能驱动的数字化时代(虽然很多人都在担心智能伦理方面的问题,但并没有影响各界对该技术的热情和关注。)
本文围绕以下几点聊聊,当是对前一篇文章《LLM+Graph:大语言模型与图数据库技术的协同》的一个前传吧。
· 啥是生成式人工智能
· 生成式人工智能的历史
· 法学硕士又是神马东西?
· 生成式人工智能都有啥类型和关键特征?
· 有什么局限性? 和图数据库技术的结合
一、啥是生成式人工智能
生成式人工智能是一种先进技术,能够生成文本、语音、视觉甚至合成数据形式的内容。
它利用深度学习模型和大型语言模型来完成创建新颖内容的任务。
它绝对不仅仅是进行上下文对话,还包括定制建议、直观的解决方案等等。其应用广泛分布在从高科技到农业和消费品的各个行业。
Gartner将生成式 AI 置于 2023 年新兴技术成熟度曲线期望最高的位置
德勤估计,到 2032 年,生成式人工智能的市场规模将达到 200B 美元。这占人工智能总支出的约 20%,高于目前的约 5%
二、生成式人工智能的历史
其历史至少可以追溯到 70 年前,当时人类真正开始怀疑机器是否有能力像人类一样思考和处理。
20 世纪 50 年代:文本分析 — 人工智能的黎明
20世纪50年代至60年代初,人工智能(AI)领域仍处于起步阶段。研究人员正在探索创造能够模拟人类智能的机器的可能性。这个方向最早的努力之一是文本分析。这个时代见证了用于处理和分析文本数据的基本计算机程序的发展。早期的文本分析系统主要专注于信息检索和关键字提取等简单任务。这个想法是让计算机能够以类似于人类理解的方式理解和操作文本。虽然这些努力在当时具有开创性,但它们的能力有限,并且缺乏我们今天与人工智能相关的复杂程度。
20 世纪 60 年代:基于规则的系统和知识库
在 20 世纪 60 年代后半叶和整个 70 年代,人工智能研究转向基于规则的系统和知识库。研究人员试图使用明确的规则和逻辑推理将人类知识和专业知识编码到计算机程序中。这种方法导致了专家系统的发展,该系统能够通过遵循预定义的规则来解决特定问题。专家系统标志着人工智能向前迈出了重要一步,因为它们证明计算机可以执行需要人类专业知识的任务。然而,它们受到大量手动规则编写的需要和对新领域的有限适应性的限制。
20 世纪 80 年代:自然语言处理出现
20 世纪 80 年代和 90 年代见证了自然语言处理 (NLP) 的出现,这是人工智能中的一个关键领域,旨在使机器能够理解和生成人类语言。研究人员开始开发更先进的技术来解析和分析文本,为机器翻译、语音识别和情感分析等应用铺平道路。NLP 系统在很大程度上仍然是基于规则的,依赖于语法和句法规则。这些系统能够处理比早期文本分析更复杂的语言任务,但它们距离实现人类水平的语言理解还很远。
2000 年代:机器学习和大数据革命
世纪之交标志着随着机器学习的兴起和大量数字数据的出现,人工智能研究发生了重大转变。事实证明,机器学习算法,特别是神经网络,在解决各种人工智能任务(包括与文本和语言相关的任务)方面非常有效。这个时代催生了“大数据”的概念和大规模数据分析的发展。随着深度学习等技术的出现和海量数据集的出现,人工智能模型越来越能够理解和生成人类语言。
2020 年代:GPT-3 和生成式 AI 的突破
2020年代,世界见证了GPT-3(生成式预训练变压器3),这是一种革命性的人工智能模型,标志着人工智能和自然语言处理领域的一个重要里程碑。GPT-3 在大量文本数据上进行了预训练,可以生成高度连贯且上下文相关的文本。
GPT 的发展仍在继续,推出了运行 ChatGPT 的 GPT 3.5 和最新版本的 GPT 4。
三、法学硕士又是神马东西?
如果不了解大型语言模型,那么关于生成式人工智能的讨论就是不完整的,人们简称为法学硕士。大型语言模型是在具有大量参数的大型未标记数据集上进行训练的。GPT-3 经过超过 1750 亿个参数的训练!
值得一提的是,LLM(语言模型)和生成式人工智能是相关的概念,但它们在侧重点、能力和应用方面存在明显差异。
一些众所周知的法学硕士是:
Open AI 的 GPT 3、3.5 和 4
谷歌的 LaMDA 和 PaLM
Meta 的 LLaMA
NVidia 的 NeMO 法学硕士
在这个列表中,Meta 的 LLaMA 是一个开源 LLM,世界各地的开发人员都可以利用它来创建可定制的私有模型。
四、生成式人工智能都有啥类型和关键特征?
生成式 AI 模型是人工智能 (AI) 模型的一个子集,旨在生成与现有数据相似或遵循现有数据中的模式的新数据。生成式 AI 模型不同于其他专注于分类、预测或强化学习的 AI 模型。
以下是生成式人工智能模型的一些关键特征和类型:
数据生成:生成式人工智能模型能够创建模仿训练数据中观察到的模式或风格的新内容。该内容可以采用多种形式,包括文本、图像、音乐等。
无监督学习:许多生成模型采用无监督学习技术,模型在没有明确标签或目标的情况下学习数据中的模式和结构。这使它们能够生成数据,而不需要应生成的具体示例。
可变性:生成模型通常以其产生不同输出的能力为特征。如它们可以生成不同风格的艺术,以不同方式重新表述相同的文本段落,或者图像的多个版本。
一些常见类型的生成人工智能模型:
生成对抗网络(GAN):GAN 由两个处于竞争关系的神经网络(生成器和判别器)组成。生成器创建数据,而鉴别器评估该数据的真实性。这种对抗性过程导致生成器提高了创建真实数据的能力。GAN 已广泛用于图像生成、风格迁移和内容创建。
变分自动编码器 (VAE):VAE 是基于概率建模原理的生成模型。他们的目标是了解数据的潜在概率分布。VAE 通常用于图像生成、数据压缩和图像重建。
循环神经网络 (RNN):RNN 是一种专门为序列数据(例如文本和时间序列数据)设计的神经网络架构。它们用于文本生成、机器翻译和语音识别。然而,传统的 RNN 在捕获长期依赖性方面存在局限性。
长短期记忆 (LSTM) 网络:LSTM 是一种特殊类型的 RNN,可以捕获顺序数据中的长程依赖性。事实证明,它们在自然语言处理任务中非常有效,包括语言建模、文本生成和情感分析。
生成式预训练 Transformer (GPT):GPT 模型是生成人工智能领域的最新突破。这些模型利用 Transformer 架构和对文本数据的大规模预训练来生成连贯且上下文相关的文本。他们擅长各种自然语言理解和生成任务,包括聊天机器人、内容生成、翻译等。
五、有什么局限性? 和图数据库技术怎么结合?
以下是大模型局限性的几个表现列举:
模型的知识受限于它所训练的数据。见下图:
黑盒化,不可解释性:大模型作为黑盒模型,它们以参数的形式隐式地表示知识。由于大模型生成的结果中没有包含任何来源或参考,我们很难解释或验证其可信度。这严重影响了大模型的应用,尤其是在医疗诊断、金融咨询和法律判断等高风险的场景中。另一个挑战在于,大模型是为了一般用途而训练的,企业专有、保密或敏感的未公开数据并不在它们的知识范围内。
……
下面的配图直观的展示了现有大模型的局限性,以及图数据库如何增强大模型。
大模型无法实现(或替代)图数据库的深层检索
图数据库的海量结构化(深度、精准、白盒化)查询可以直接增强 LLM大模型能力
与Graph相协同后,这个关联成吉思汗和牛顿的4跳因果关系横跨东西方,跨越了400年的历史。通过图的深度穿透和因果关系搜索,生动地呈现在我们眼前了,见下图:
时至今日,很多研究人员已经认识到大模型和图技术之间固有的互补性。通过结合大模型的文本理解能力和图的结构化推理能力,能够整体增强AI系统的功能性、智能性和可解释性。 更多大模型与“图”的实践应用,本文不多赘述,感兴趣的盆友,可以阅读文章——嬴图 | LLM+Graph:大语言模型与图数据库技术的协同 - Ultipa Graph
文/Emma
相关文章:

一本了解生成式人工智能
上周,发了一篇关于大语言模型图数据库技术相结合的文章,引起了很多朋友的兴趣。当然了,这项技术本身就让俺们很兴奋,比如我就是从事图研发的,当然会非常关注它在图领域的应用与相互促就啦。 纵观人类文明历史ÿ…...

git 相关指令总结(持续更新中......)
文章目录 一、git clone 相关指令1.1 clone 指定分支的代码 一、git clone 相关指令 1.1 clone 指定分支的代码 git clone -b 分支名 仓库地址...

windows 安装 Oracle Database 19c
目录 什么是 Oracle 数据库 下载 Oracle 数据库 解压文件 运行安装程序 测试连接 什么是 Oracle 数据库 Oracle数据库是由美国Oracle Corporation(甲骨文公司)开发和提供的一种关系型数据库管理系统,它是一种强大的关系型数据库管理系统…...

【数据结构】图的存储结构(邻接矩阵)
一.邻接矩阵 1.图的特点 任何两个顶点之间都可能存在边,无法通过存储位置表示这种任意的逻辑关系。 图无法采用顺序存储结构。 2.如何存储图? 将顶点与边分开存储。 3.邻接矩阵(数组表示法) 基本思想: 用一个一维数…...

kubernetes--Pod控制器详解
目录 一、Pod控制器及其功用: 二、pod控制器的多种类型: 1、ReplicaSet: 1.1 ReplicaSet主要三个组件组成: 2、Deployment: 3、DaemonSet: 4、StatefulSet: 5、Job: 6、Cronjob: …...

九、Linux用户管理
1.基本介绍 Linux系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,让后以这个账号的身份进入系统 2.添加用户 基本语法 useradd 用户名 应用案例 案例1:添加一个用户 m…...

springboot项目中没有识别到yml文件解决办法
springboot项目中没有识别到yml文件解决办法 ![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传] 1、这个意思就是没有配置数据库的数据源路径。所以需要配置数据源,比如mysql的驱动和路径。检查是否在properties或者yml文件中是否已经配置好。…...

[管理与领导-125]:一个IT人的思考:职场中、人际交往中,不要为他人的不良行为和言语买单,不要让自己的情绪被外界影响或掌控。
目录 前言: 一、是什么What 二、为什么Why? 三、怎么办How? 前言: 无论是职场中,还是人际交往中,我们的难免受到他人的影响,有积极正面的情绪影响,有消极负面的情绪影响。为什么我们自身的情绪会受到…...

【FPGA】IP核
一.IP核是什么 IP:知识产权,半导体产业中:在ASIC和FPGA中定义为预先设计好的电路功能模块。 在使用的时候其他用户可以直接调用IP核心。 二. 为什么要是有IP核 提高开发效率,减小设计和调试的时间,加速开发进程&am…...

吾爱破解置顶的“太极”,太好用了吧!
日常工作和娱乐,都需要用到不同类型的软件,哪怕软件体积不大,也必须安装,否则到用时找不到就非常麻烦了。 其实,很多软件不一定一样不剩地全部安装一遍,一方面原因是用的不多,另一方面多少有点…...

Postman接收列表、数组参数@RequestParam List<String> ids
示例如下: 接口定义如下: GetMapping(value "/queryNewMoviePath")public List<Map<String, Object>> queryNewMoviePath(RequestParam List<String> ids ) {return service.queryNewMoviePath(ids);}postman中测试如下: http://loc…...

qemu + busybox + 内核实验环境搭建(2023-11)
主要是参考网上的例子,网上的一些例子可能用的busybox 老旧,编译各种问题,以及rootfs hda的方式或者ramfs的方式。可能有些概念还是不清楚,以下是最终完成测试成功的案例。 下载kernel https://cdn.kernel.org/pub/linux/kernel…...

JavaScript管理HTMLDOM元素(增删改查)
本文主要讲解JavaScript如何通过管理HTML上的DOM元素,其中包括如何查询、创建、修改以及删除具体功能和源码讲解。 增加 首先我们准备一个HTML框架和简单CSS样式,我对其中元素作用和关系进行一个简单说明。 <!DOCTYPE html> <html><he…...

RE2文本匹配实战
引言 今天我们来实现RE2进行文本匹配,模型实现参考了官方代码https://github.com/alibaba-edu/simple-effective-text-matching-pytorch。 模型实现 RE2模型架构如上图所示。它的输入是两个文本片段,所有组件参数除了预测层和对齐层外都是共享的。上图…...

实在智能携手中国电信翼支付,全球首款Agent智能体亮相2023数字科技生态大会
11月10日-13日,中国电信与广东省人民政府联合主办的“2023数字科技生态大会”在广州隆重举行。本届大会以“数字科技焕新启航”为主题,邀请众多生态合作伙伴全方位展示数字科技新成果,包括数字新消费、产业数字化、智能电子、人工智能大模型等…...

安全框架springSecurity+Jwt+Vue-1(vue环境搭建、动态路由、动态标签页)
一、安装vue环境,并新建Vue项目 ①:安装node.js 官网(https://nodejs.org/zh-cn/) 2.安装完成之后检查下版本信息: ②:创建vue项目 1.接下来,我们安装vue的环境 # 安装淘宝npm npm install -g cnpm --registryhttps:/…...

React整理总结(三)
1.props和state的更新 父组件重新render时,所有的子组件也会调用render()函数。shouldComponentUpdate(nextProp, nextState) shouldComponentUpdate(nextProps, nextState) {if (equal(nextProps, this.props) && equa…...

天气这么好,都外出了。顺便了解一下漏桶算法
看到标题,你想到了些什么呢? 又是一个阳光明媚的周末,大家都外出了,路上到处堵车,尤其是各桥梁、隧道入口处,很多车排队等着进入,而出口处就像一个漏桶一样,一辆车接着一辆车有序且…...

【FPGA】Verilog:实现 RS 触发器 | Flip-Flop | 使用 NOR 的 RS 触发器 | 使用 NAND 的 RS 触发器
目录 0x00 RS 触发器(RS Flip-Flop) 0x01 实现 RS 触发器 0x02 使用 NOR 的 RS 触发器 0x03 使用 NAND 的 RS 触发器 0x00 RS 触发器(RS Flip-Flop) 触发器(Flip-Flop)是一种带有时钟的二进制存储设备…...

【技术追踪】SAM(Segment Anything Model)代码解析与结构绘制之Mask Decoder
论文:Segment Anything 代码:https://github.com/facebookresearch/segment-anything 系列篇: (1)【技术追踪】SAM(Segment Anything Model)代码解析与结构绘制之Image Encoder &am…...

认识Tomcat
文章目录 什么是tomcat?tomcat的使用tomcat的下载tomcat的目录结构tomcat的启动在tomcat上部署页面通过浏览器访问部署的页面 学习servlet的原因 什么是tomcat? 盖棺定论:Tomcat是一个HTTP服务器。 我们接下来要长期学习的东西都是关于前后…...

c语言通信之串口通信
在C语言中,可以使用串口通信、网络通信等多种方式实现计算机之间的通信。其中,串口通信通常用于近距离、低速率的通信,而网络通信则适用于远距离、高速率的通信。 下面以串口通信为例,介绍在C语言中如何实现串口通信。 1.打开串…...

软考-高级-系统架构设计师教程(清华第2版)【第16章 嵌入式系统架构设计理论与实践(P555~613)-思维导图】
软考-高级-系统架构设计师教程(清华第2版)【第16章 嵌入式系统架构设计理论与实践(P555~613)-思维导图】 课本里章节里所有蓝色字体的思维导图...

2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-B卷
2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-B卷 2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-B卷A模块基础设施设置/安全加固(200分)A-1:登录安全加固(Windows, Linux)A-2&#…...

【Python数据结构与算法】——(线性结构)精选好题分享,不挂科必看系列
🌈个人主页: Aileen_0v0🔥系列专栏:<<Python数据结构与算法专栏>>💫个人格言:"没有罗马,那就自己创造罗马~" 时间复杂度大小比较 1.time complexity of algorithm A is O(n^3) while algorithm B is O(2^n). Which o…...

大数据-之LibrA数据库系统告警处理(ALM-12054 证书文件失效)
告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢…...

Linux 之 journalctl 查看系统与 kernel 日志
目录 1. Linux 之 journalctl 查看系统与 kernel 日志 1. Linux 之 journalctl 查看系统与 kernel 日志 1 概述 日志管理工具 journalctl 是 centos7 上专有的日志管理工具, 该工具是从 message 这个文件里读取信息。Systemd 统一管理所有 Unit 的启动日志。带来的好处就是, …...

【PTA题目】7-3 冰雹猜想。 分数 10
7-3 冰雹猜想。 分数 10 全屏浏览题目 切换布局 作者 赵静静 单位 浙江工贸职业技术学院 冰雹猜想的内容是:任何一个大于1的整数n,按照n为偶数则除等2,n为奇数则乘3后再加1的规则不断变化,最终都可以变化为1。 例如ÿ…...

springBoot 配置druid多数据源 MySQL+SQLSERVER
1:pom 文件引入数据 <dependency> <groupId>com.alibaba</groupId> <artifactId>druid-spring-boot-starter</artifactId> <version>1.1.0</version> </dependency>…...

二叉树的创建与遍历
目录 前言: 二叉树的概念与结构 二叉树的链式存储 二叉树的创建 二叉树的销毁 二叉树结点个数计算 二叉树叶子结点个数计算 二叉树第k层节点个数的计算 二叉树高度的计算 二叉树查找值为x的结点 二叉树的遍历 二叉树的前序遍历 二叉树的中序遍历 二叉树…...