当前位置: 首页 > news >正文

图数据库 vs 向量数据库

最近大模型出来之后,向量数据库重新翻红,业界和市场上有不少声音认为向量数据库会极大的影响图数据库,图数据库市场会萎缩甚至消失,今天就从技术原理角度来讨论下图数据库和向量数据库到底差别在哪里,适合什么场景,图数据库会不会消失。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

人工智能思路之争

讨论图、向量,大模型之前先简单说下人工智能发展过程中出现的主义之争。人工智能在过去几十年的发展中,出现了好几种思路,也就分为几大学派,或者主义。分别是:

  • 符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,主要就是基于逻辑推理的智能模拟方法,对应到人类智能就是认知能力(学习能力、推理能力、专家能力),知识图谱就是源于符号主义。

  • 连接主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法,深度神经网络解决的就是感知智能(人类的眼、耳、鼻、舌、身对环境的感知能力),现在的大模型就是连接主义的产物,但同时因为模型参数足够大,从感知智能又突破到了认知智能,甚至未来会走向 AGI(通用人工智能)。

  • 行为主义(actionism),又称为进化主义或控制论学派,其原理为控制论及感知-动作型控制系统,这一派主要搞机器人。比如机器人的操控,要求机器人不光要认知和感知,还要操作和行动。nvidia的黄教主最近就各种场合讲未来是机器人的时代。

图片

这三种主义是思路之争,其实也代表了对人工智能模拟的三个路径。未来可能会走向大一统和融合。

图数据库适合什么场景

图数据库比起传统的信息存储和组织模式,图数据库能够很清晰揭示复杂的模式,尤其在错综复杂的社交,物流,金融风控行业效果更为明显。典型场景有:

  • 社交网络:数十亿关系查询,传统关系型数据库无法胜任低时延,以及超过 3 层好友关系的查询。

  • 推荐引擎:通过用户的兴趣、好友和阅读历史记录等信息之间的关系,向用户提供推荐。典型用在电商、短视频、新零售场景。

  • 网络&IT 运维:基础设备规模庞大,结构复杂,帮助深入了解设备状态,设备之间的关系,实现网络设备智能监控和管理。

  • 金融风控:提供实时的用户行为检测,识别敏感用户,及时识别欺诈风险,错综复杂的人物关系分析,进行用户分群,识别异常群体等。

图片

向量数据库适合什么场景

向量数据库最早解决非结构化数据相似度检索问题。通过把非结构化数据 embedding 成向量,通过向量的相似度检索来实现非结构化数据的相似度搜索。电销场景有:

  • 相似度检索:可以做多模态检索(文本、图片、音频、视频),推荐系统,分类系统等。典型用在

    • 互联网,如电商的推荐。

    • 政企,如公安的图谱搜索

    • 自动驾驶,质检图谱的搜索等

  • 语义检索:利用文本,向量的混合搜索,实现多路召回,再加上reRanker模型实现语义排序。常用于企业的搜索,实现高质量的搜索

  • RAG:大模型活了,搭配大模型使用,把检索结果给到大模型,实现高质量的总结。最常用的是知识库,客服,大模型记忆问答等场景。这块各行各业都在实验和创新的 copilot 就是用到了 RAG 技术。

用一张表格总结如下:

分类

说明

能做什么业务

典型场景和行业

相似度检索

向量传统应用场景,向量检索为主

  • 多模态检索(文本、图片、音频、视频)

  • 推荐系统

  • 分类系统

  • 互联网,电商的推荐

  • 政企,如公安的图片搜索

  • 网盘,自动驾驶里面的图片搜索

语义搜索

文本和向量混合索引

替代 ES 的一些搜索场景

  • 文档,向量混合搜索,多路召回

  • reranker 模型一般有Cohere Rerank(闭源)和BGE-Reranker(开源)

  • 企业搜索,行业不限

RAG

搭配大模型使用,检索结果给大模型总结

  • 知识库

  • 客服

  • 大模型记忆问答

  • 各种copilot,行业不限

图片

两者对比

图数据库擅长推理能力,但是图实体模型建立本身门槛高,需要大量专业人员。向量数据库人工介入较少,但是结果准确度就差一些,各有各合适空间。下面是两者的对比:

向量数据库+大模型

图数据库+知识图谱

性能

数据量大,性能更好

数据量大,性能受挑战

复杂问题

复杂问题,查询结果不一定完整

复杂问题,可以取得更可靠的内容

建模难度

适合处理非结构化数据,文本转换成高维向量

实体关系建模,构建知识图谱

建模工作难度和工作量很大

适合场景

智能推荐系统:找出相似的,不需要精确

决策支持系统,需要梳理特定关系,保证逻辑关系正确性

因此我们可以看出,向量和知识图谱还是有各自适合的范围。

选型考虑条件

如果一个业务到底要选型向量还是知识图谱,就要从多个维度去考虑,下面是建议参考和选型的维度:

向量数据库

知识图谱

问题复杂度

非结构化,无复杂关系的选向量

大量相互关联知识实体

使用场景

简单相似度搜索,用向量数据库

基于实体关系的,复杂推理

数据量考量

扩展性高,数据量大

数据增长,关系复杂,维护难度会变高

团队能力

人力缺乏,选向量

事件建模,开发,算法技能

未来趋势

目前市面上看到各个厂家都在纷纷探索向量+图的融合演进,可见的未来,大概率两者会取各自长处,进行融合解决更复杂的问题。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

相关文章:

图数据库 vs 向量数据库

最近大模型出来之后,向量数据库重新翻红,业界和市场上有不少声音认为向量数据库会极大的影响图数据库,图数据库市场会萎缩甚至消失,今天就从技术原理角度来讨论下图数据库和向量数据库到底差别在哪里,适合什么场景&…...

企业品牌出海第一站 维基百科词条创建

维基百科是一部内容开放、自由的网络百科全书,旨在创造一个涵盖所有领域知识,服务所有互联网用户的知识性百科全书。其在国外应用非常广泛且认可度很高,国内品牌出海或国际品牌都很有必要创建企业自己的维基百科页面,以及企业高管的个人维基百科页面。 如…...

Windows下activemq集群配置(broker-network)

1.activemq版本信息 activemq:apache-activemq-5.18.4 2.activemq架构 3.activemq集群配置 activemq集群配置基于Networks of Brokers 这种HA方案的优点:是占用的节点数更少(只需要2个节点),而且2个broker都可以响应消息的接收与发送。不足&#xff…...

心理辅导平台系统

摘 要 中文本论文基于Java Web技术设计与实现了一个心理辅导平台。通过对国内外心理辅导平台发展现状的调研,本文分析了心理辅导平台的背景与意义,并提出了论文研究内容与创新点。在相关技术介绍部分,对Java Web、SpringBoot、B/S架构、MVC模…...

代理IP对SEO影响分析:提升网站排名的关键策略

你是否曾经为网站排名难以提升而苦恼?代理服务器或许就是你忽略的关键因素。在竞争激烈的互联网环境中,了解代理服务器对SEO的影响,有助于你采取更有效的策略,提高网站的搜索引擎排名。本文将为你详细分析代理服务器在SEO优化中的…...

【leetcode--三数之和】

这道题记得之前做过,但是想不起来了。。总结一下: 函数的主要步骤和关键点: 排序:对输入的整数数组nums进行排序。这是非常重要的,因为它允许我们使用双指针技巧来高效地找到满足条件的三元组。初始化:定…...

解决Java中的ClassCastException问题

解决Java中的ClassCastException问题 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 在Java编程中,ClassCastException是一个常见的运行时异常&am…...

【TensorFlow深度学习】混合生成模型:结合AR与AE的创新尝试

混合生成模型:结合AR与AE的创新尝试 引言自回归模型与自动编码器的简述混合模型的创新尝试组合AR与AE:MADE混合模型在图学习中的应用 结论与展望 在自我监督学习的广阔天地里,混合生成模型以其独特的魅力,跨越了自回归&#xff08…...

Spring:Spring中分布式事务解决方案

一、前言 在Spring中,分布式事务是指涉及多个数据库或系统的事务处理,其中事务的参与者、支持事务的服务器、资源管理器以及事务管理器位于分布式系统的不同节点上。这样的架构使得两个或多个网络计算机上的数据能够被访问并更新,同时将这些操…...

音视频开发32 FFmpeg 编码- 视频编码 h264 参数相关

1. ffmpeg -h 这个命令总不会忘记,用这个先将ffmpeg所有的help信息都list出来 C:\Users\Administrator>ffmpeg -h ffmpeg version 6.0-full_build-www.gyan.dev Copyright (c) 2000-2023 the FFmpeg developersbuilt with gcc 12.2.0 (Rev10, Built by MSYS2 pro…...

标准版小程序订单中心path审核不通过处理教程

首先看自己小程序是不是已经审核通过并上线状态才在站内信里面提醒的? 如果没有提交过审核,请在提交的时候填写。path地址为:pages/goods/order_list/index 如果是已经上线的小程序,当时没要求填这个,但新的政策要求填…...

移植对话框MFC

VC版 MFC程序对话框资源移植 以下均拷贝自上面,仅用来记录 (部分有删除) 法1: Eg:将B工程调试好的对话框移植到A工程中 1.资源移植 1.1 在2017打开B工程,在工作区Resource标签页中选中Dialog文件夹下的资源文件,按…...

【开源的字典项目】【macOS】:在macOS上能打开mdd and mdx 的github开源项目

【开源的字典项目】【macOS】 在macOS上能打开mdd and mdx 的github开源项目 Here are some GitHub repositories that provide code for opening and reading mdd and mdx files in macOS: 1. MdxEdit: Repository: https://github.com/mdx-editorDescription: A free and …...

已解决javax.security.auth.login.LoginException:登录失败的正确解决方法,亲测有效!!!

已解决javax.security.auth.login.LoginException:登录失败的正确解决方法,亲测有效!!! 目录 问题分析 出现问题的场景 报错原因 解决思路 解决方法 1. 检查用户名和密码 用户名和密码验证 2. 验证配置文件 …...

2741. 特别的排列 Medium

给你一个下标从 0 开始的整数数组 nums &#xff0c;它包含 n 个 互不相同 的正整数。如果 nums 的一个排列满足以下条件&#xff0c;我们称它是一个特别的排列&#xff1a; 对于 0 < i < n - 1 的下标 i &#xff0c;要么 nums[i] % nums[i1] 0 &#xff0c;要么 nums[…...

读AI新生:破解人机共存密码笔记15辅助博弈

1. 辅助博弈 1.1. assistance game 1.2. 逆强化学习如今已经是构建有效的人工智能系统的重要工具&#xff0c;但它做了一些简化的假设 1.2.1. 机器人一旦通过观察人类学会了奖励函数&#xff0c;它就会采用奖励函数&#xff0c;这样它就可以执行相同的任务 1.2.1.1. 解决这…...

C++ 因项目需求,需要将0~2的32次方这个区间的数字保存到内存当中(内存大小为4G),并且可以实现对任意一个数字的增删。(先叙述设计思路,再写岀代码)

问题&#xff1a; C 因项目需求&#xff0c;需要将0~2的32次方这个区间的数字保存到内存当中(内存大小为4G),并且可以实现对任意一个数字的增删。(先叙述设计思路&#xff0c;再写岀代码) 解答 设计思路代码实现说明 为了在有限的内存&#xff08;4GB&#xff09;中存储和操作 …...

Linux 下的性能监控与分析技巧

在日常的服务器管理和问题诊断过程中&#xff0c;Linux 命令行工具提供了强大的支持。本文通过几个常用的示例&#xff0c;介绍如何快速定位问题、监控服务器性能。 无论你是编程新手还是有一定经验的开发者&#xff0c;理解和掌握这些命令&#xff0c;都将在你的工作中大放异…...

不可复制网站上的文字——2种方法

禁用javascript或Console控制台代码 &#xff08;1&#xff09;F12键——设置——勾选禁用javascript &#xff08;2&#xff09;Console控制台敲如下代码&#xff1a; var allowPaste function(e){ e.stopImmediatePropagation(); return true; }; document.addEventListe…...

Ubuntu 22.04上编译安装c++ spdlog library

Very fast, header-only/compiled, C logging library. 请以root身份或sudo执行。 1. 安装必需的依赖项&#xff1a; sudo apt-get update sudo apt-get install git g cmake 2. 克隆 spdlog 仓库&#xff1a; cd /opt git clone https://github.com/gabime/spdlog.git …...

[小红书AI自动化教程]凌晨2点我在睡觉,AI偷偷发了篇小红书爆款:醒来99+点赞,人类社媒苦役终结?

我把小红书交给 OpenClaw&#xff0c;它开始自己干活了 凌晨两点&#xff0c;我在睡觉&#xff0c;它却偷偷发了一篇爆款。 醒来点赞99&#xff0c;评论全是“姐妹求链接”。这不是科幻。去年我还为追热点熬夜秃头&#xff0c;如今一句“今天发什么”&#xff0c;AI 就能完成选…...

从时频分析到信号净化:小波变换的降噪实战指南

1. 小波变换基础&#xff1a;从傅里叶到时频分析 第一次接触小波变换时&#xff0c;我和大多数工程师一样&#xff0c;脑子里全是傅里叶变换的影子。记得当时处理一组振动传感器数据&#xff0c;傅里叶变换告诉我信号里存在30Hz和50Hz的成分&#xff0c;但就是找不到这些频率具…...

LFM2.5-1.2B-Thinking-GGUF多轮对话效果展示:复杂任务规划与分解

LFM2.5-1.2B-Thinking-GGUF多轮对话效果展示&#xff1a;复杂任务规划与分解 1. 开场亮点 当被问到"帮我策划一次团队建设活动"时&#xff0c;LFM2.5-1.2B-Thinking-GGUF模型展现出了令人惊喜的"思考"能力。不同于简单的一问一答&#xff0c;这个模型能够…...

Jupyter Notebook快速入门:从安装到高效编码

1. 为什么你需要Jupyter Notebook&#xff1f; 第一次听说Jupyter Notebook时&#xff0c;我也觉得这不过是个普通的代码编辑器。直到真正用起来才发现&#xff0c;它完全改变了我的编程工作流。想象一下&#xff0c;你正在写一个数据分析脚本&#xff0c;传统方式需要反复运行…...

LFM2.5-1.2B-Thinking-GGUF开源大模型:低成本GPU算力高效利用实践指南

LFM2.5-1.2B-Thinking-GGUF开源大模型&#xff1a;低成本GPU算力高效利用实践指南 1. 模型概述 LFM2.5-1.2B-Thinking-GGUF是Liquid AI推出的轻量级文本生成模型&#xff0c;专为低资源环境优化设计。这个1.2B参数的模型采用GGUF格式&#xff0c;能够在消费级GPU甚至CPU上高效…...

2PG450x500双齿辊破碎机CAD装配图

2PG450x500双齿辊破碎机CAD装配图是机械设计领域中用于呈现设备整体结构的关键学习资料。该设备通过两个同步旋转的齿辊实现物料的破碎功能&#xff0c;其核心作用在于将大块物料均匀破碎至指定粒度&#xff0c;满足后续加工或输送需求。装配图以二维工程语言精准描述各部件的相…...

AI教材生成法宝!低查重完成教材编写,快来获取高性价比方案!

选择AI教材生成工具&#xff0c;摆脱创作难题 在编写教材的过程中&#xff0c;选择合适的工具真是个让人头疼的问题&#xff01;如果用办公软件&#xff0c;功能局限&#xff0c;很多格式和框架都需要自己手动调整&#xff1b;而如果试图使用一些专业的AI写教材工具&#xff0…...

免费领取《MapleSim卷材加工和卷绕系统建模仿真教程》

在薄膜、纸张、电池极片、电子材料等卷对卷加工中&#xff0c;你是否还在为张力波动、卷材打滑、收放卷不稳而头疼&#xff1f;物理样机调试成本高、风险大&#xff0c;单纯依靠经验难以解决复杂的动态耦合问题。 Maplesoft 中国技术团队近期发布了 MapleSim 卷材处理库&#…...

RTX 4090D深度学习镜像效果展示:PyTorch 2.8实测Wan2.2-T2V高清视频生成

RTX 4090D深度学习镜像效果展示&#xff1a;PyTorch 2.8实测Wan2.2-T2V高清视频生成 1. 开箱即用的专业级深度学习环境 当拿到这台搭载RTX 4090D显卡的工作站时&#xff0c;我首先被它的硬件配置震撼了。24GB显存加上120GB内存的组合&#xff0c;在本地运行大型视频生成模型不…...

Python金融计算提速迫在眉睫!(仅剩3类未公开的底层优化手段,第3种已被高盛2023年专利覆盖)

第一章&#xff1a;Python金融计算提速迫在眉睫&#xff01;&#xff08;仅剩3类未公开的底层优化手段&#xff0c;第3种已被高盛2023年专利覆盖&#xff09;高频回测、实时风险敞口计算与蒙特卡洛期权定价正面临Python原生执行效率的严峻瓶颈。当单次万标的风险因子矩阵运算耗…...