当前位置: 首页 > article >正文

9-Oracle 23 ai Vector Search 特性 知识准备

很多小伙伴是不是参加了 免费认证课程(限时至2025/5/15)
Oracle AI Vector Search 1Z0-184-25考试,都顺利拿到certified了没。
各行各业的AI 大模型的到来,传统的数据库中的SQL还能不能打,结构化和非结构的话数据如何和AI交互,是否有一套SQL既可以兼容传统sql同时集成vector。
如何将企业中使用的数据保存成向量、是否有集成嵌入模型的引擎,同时给于RAG提供原料时,可以做到数据不离场、不离安全域,符合数据安全要求么。
在开始AI之前,先了解下基础概念,包括初高中几何、物理中的函数知识。

基本概念:

  1. 向量(Vector)​​:一种数据类型,用于表示嵌入(embedding)。在Oracle 23ai中,使用VECTOR数据类型存储。
  2. 向量嵌入(Vector Embedding)​​:将非结构化数据(如文本、图像)转换为向量表示的过程。
  3. 相似性搜索(Similarity Search)​​:通过计算向量之间的距离来查找相似的数据。支持精确搜索(Exact)和近似搜索(Approximate)。
  4. 向量索引(Vector Index)​​:加速相似性搜索的索引类型。包括:
  • In-Memory Neighbor Graph (HNSW)​​:基于图的索引,适用于高精度搜索。
  • Neighbor Partition (IVF)​​:基于分区的索引,适用于大规模数据。
  1. 混合向量索引(Hybrid Vector Index)​​:结合全文搜索(Oracle Text)和向量搜索的索引。
  2. 距离度量(Distance Metrics)​​:用于计算向量之间距离的函数,包括:
  • 欧几里得距离(Euclidean)
  • 余弦相似度(Cosine)
  • 点积(Dot Product)
  • 曼哈顿距离(Manhattan)
  • 汉明距离(Hamming) - 用于二进制向量
  • Jaccard距离 - 用于二进制向量

    L1_DISTANCE(曼哈顿距离)

    别名:城市街区距离、Taxicab距离
    定义:两点在标准坐标系上各维度绝对差之和,模拟网格路径(如城市街道)的行走距离。
    公式:d(x,y)=∑i=1n∣xi−yi∣
    特点:对异常值敏感,计算高效(无平方运算)。
    应用:棋盘游戏路径规划、稀疏高维数据(如文本分类)。

    L2_DISTANCE(欧几里得距离)

    别名:直线距离、欧氏距离定义:n维空间中两点间的直线最短距离,勾股定理的多维推广。
    公式:d(x,y)=∑i=1n(xi−yi)2
    几何意义:绿色线段为两点间最短路径。
    特点:对数据分布均匀性要求高,方向信息敏感。
    应用:物理空间测量、聚类分析(如K-Means)、图像相似性。

    COSINE_DISTANCE(余弦距离)

    别名:余弦相似度的补(1 - 余弦相似度)
    定义:两向量夹角余弦值的反度量,关注方向差异而非长度。
    公式:\text{cos_dist} = 1 - \frac{\mathbf{x} \cdot \mathbf{y}}{|\mathbf{x}| \cdot |\mathbf{y}|} = 1 - \cos \theta
    几何意义:夹角θ越小,余弦相似度越大,距离越小。
    特点:对幅度不敏感,适合文本、图像等高维稀疏数据。
    应用:文档相似度检索、推荐系统(如用户兴趣方向匹配)。

    INNER_PRODUCT(点积)

    别名:数量积、标量积
    定义:两向量对应分量乘积之和,结果为一标量。
    公式:x⋅y=∑i=1nxiyi几何意义:x⋅y=∥x∥∥y∥cosθ,即模长积与夹角余弦的乘积。
    物理意义:力F在位移s方向做的功 W=F⋅s。
    应用:机器学习特征组合(如神经网络权重计算)、投影分析。

    HAMMING_DISTANCE(汉明距离)

    定义:等长字符串/二进制串中,对应位置字符不同的数量。
    公式:dham(s1,s2)=∑i=1nI(s1[i]\=s2[i])比如:二进制串 10110 与 11010 的汉明距离 = 第2、4位不同 → 2。DNA序列 GAGC 与 GATC 的汉明距离 = 第3位不同 → 1。
    特点:仅适用于等长序列,计算高效(位运算)。
    应用:错误检测编码(如CRC)、密码学、基因序列比对。

    JACCARD_DISTANCE(Jaccard距离)

    别名:Jaccard相异度定义:1减去Jaccard相似系数,衡量集合差异度。
    公式:djaccard(A,B)=1−∣A∪B∣∣A∩B∣
    特点:忽略元素频次,仅关注存在性(适合布尔特征)。
    应用:集合相似性(如文档去重)、购物车分析(剁手党的商品交集)。

    关键函数:

    1. 向量构造函数​:

    • TO_VECTOR:将字符串或数值数组转换为向量。
    • VECTOR:是TO_VECTOR的别名。

    2. ​距离函数​:

    • VECTOR_DISTANCE(vector1, vector2, metric):计算两个向量之间的距离,支持多种度量标准。
    • 简写函数:L1_DISTANCE(曼哈顿距离),L2_DISTANCE(欧几里得距离),COSINE_DISTANCE(余弦距离),INNER_PRODUCT(点积),HAMMING_DISTANCE(汉明距离),JACCARD_DISTANCE(Jaccard距离)。

    3. ​向量生成函数​:

    • VECTOR_EMBEDDING(model_name USING data AS data):使用指定的嵌入模型将数据转换为向量。

    4. ​分块函数​:

    • VECTOR_CHUNKS:将文本分块。

    5. ​向量属性函数​:

    • VECTOR_NORM(vector):计算向量的范数(模长)。
    • VECTOR_DIMENSION_COUNT(vector):返回向量的维度数。
    • VECTOR_DIMS(vector):同上。
    • VECTOR_DIMENSION_FORMAT(vector):返回向量维度的格式(如FLOAT32, BINARY等)。

    6. 聚合函数​:

    • AVG:计算向量的平均值(仅适用于浮点向量)。
    • SUM:计算向量的和(仅适用于浮点向量)。

    7. 混合搜索函数​:

    • DBMS_HYBRID_VECTOR.SEARCH:执行混合搜索。

    是不是分分钟回到了初高中几何时代,浮现“数学最美公式”之一的欧拉公式。

    相关文章:

    9-Oracle 23 ai Vector Search 特性 知识准备

    很多小伙伴是不是参加了 免费认证课程(限时至2025/5/15) Oracle AI Vector Search 1Z0-184-25考试,都顺利拿到certified了没。 各行各业的AI 大模型的到来,传统的数据库中的SQL还能不能打,结构化和非结构的话数据如何和…...

    十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建

    【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建 前言准备工作第一部分:回顾 Django 内置的 `User` 模型第二部分:设计并创建 `Role` 和 `UserProfile` 模型第三部分:创建 Serializers第四部分:创建 ViewSets第五部分:注册 API 路由第六部分:后端初步测…...

    离线语音识别方案分析

    随着人工智能技术的不断发展,语音识别技术也得到了广泛的应用,从智能家居到车载系统,语音识别正在改变我们与设备的交互方式。尤其是离线语音识别,由于其在没有网络连接的情况下仍然能提供稳定、准确的语音处理能力,广…...

    SQL Server 触发器调用存储过程实现发送 HTTP 请求

    文章目录 需求分析解决第 1 步:前置条件,启用 OLE 自动化方式 1:使用 SQL 实现启用 OLE 自动化方式 2:Sql Server 2005启动OLE自动化方式 3:Sql Server 2008启动OLE自动化第 2 步:创建存储过程第 3 步:创建触发器扩展 - 如何调试?第 1 步:登录 SQL Server 2008第 2 步…...

    mac:大模型系列测试

    0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何,是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试,是可以跑通文章里面的代码。训练速度也是很快的。 注意…...

    DBLP数据库是什么?

    DBLP(Digital Bibliography & Library Project)Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高,数据库文献更新速度很快,很好地反映了国际计算机科学学术研…...

    redis和redission的区别

    Redis 和 Redisson 是两个密切相关但又本质不同的技术,它们扮演着完全不同的角色: Redis: 内存数据库/数据结构存储 本质: 它是一个开源的、高性能的、基于内存的 键值存储数据库。它也可以将数据持久化到磁盘。 核心功能: 提供丰…...

    c# 局部函数 定义、功能与示例

    C# 局部函数:定义、功能与示例 1. 定义与功能 局部函数(Local Function)是嵌套在另一个方法内部的私有方法,仅在包含它的方法内可见。 • 作用:封装仅用于当前方法的逻辑,避免污染类作用域,提升…...

    Xela矩阵三轴触觉传感器的工作原理解析与应用场景

    Xela矩阵三轴触觉传感器通过先进技术模拟人类触觉感知,帮助设备实现精确的力测量与位移监测。其核心功能基于磁性三维力测量与空间位移测量,能够捕捉多维触觉信息。该传感器的设计不仅提升了触觉感知的精度,还为机器人、医疗设备和制造业的智…...

    pycharm 设置环境出错

    pycharm 设置环境出错 pycharm 新建项目,设置虚拟环境,出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...

    Docker拉取MySQL后数据库连接失败的解决方案

    在使用Docker部署MySQL时,拉取并启动容器后,有时可能会遇到数据库连接失败的问题。这种问题可能由多种原因导致,包括配置错误、网络设置问题、权限问题等。本文将分析可能的原因,并提供解决方案。 一、确认MySQL容器的运行状态 …...

    vue3 daterange正则踩坑

    <el-form-item label"空置时间" prop"vacantTime"> <el-date-picker v-model"form.vacantTime" type"daterange" start-placeholder"开始日期" end-placeholder"结束日期" clearable :editable"fal…...

    深度剖析 DeepSeek 开源模型部署与应用:策略、权衡与未来走向

    在人工智能技术呈指数级发展的当下&#xff0c;大模型已然成为推动各行业变革的核心驱动力。DeepSeek 开源模型以其卓越的性能和灵活的开源特性&#xff0c;吸引了众多企业与开发者的目光。如何高效且合理地部署与运用 DeepSeek 模型&#xff0c;成为释放其巨大潜力的关键所在&…...

    DeepSeek源码深度解析 × 华为仓颉语言编程精粹——从MoE架构到全场景开发生态

    前言 在人工智能技术飞速发展的今天&#xff0c;深度学习与大模型技术已成为推动行业变革的核心驱动力&#xff0c;而高效、灵活的开发工具与编程语言则为技术创新提供了重要支撑。本书以两大前沿技术领域为核心&#xff0c;系统性地呈现了两部深度技术著作的精华&#xff1a;…...

    用鸿蒙HarmonyOS5实现中国象棋小游戏的过程

    下面是一个基于鸿蒙OS (HarmonyOS) 的中国象棋小游戏的实现代码。这个实现使用Java语言和鸿蒙的Ability框架。 1. 项目结构 /src/main/java/com/example/chinesechess/├── MainAbilitySlice.java // 主界面逻辑├── ChessView.java // 游戏视图和逻辑├──…...

    MFE(微前端) Module Federation:Webpack.config.js文件中每个属性的含义解释

    以Module Federation 插件详为例&#xff0c;Webpack.config.js它可能的配置和含义如下&#xff1a; 前言 Module Federation 的Webpack.config.js核心配置包括&#xff1a; name filename&#xff08;定义应用标识&#xff09; remotes&#xff08;引用远程模块&#xff0…...

    stm32wle5 lpuart DMA数据不接收

    配置波特率9600时&#xff0c;需要使用外部低速晶振...

    Unity中的transform.up

    2025年6月8日&#xff0c;周日下午 在Unity中&#xff0c;transform.up是Transform组件的一个属性&#xff0c;表示游戏对象在世界空间中的“上”方向&#xff08;Y轴正方向&#xff09;&#xff0c;且会随对象旋转动态变化。以下是关键点解析&#xff1a; 基本定义 transfor…...

    Java求职者面试指南:Spring、Spring Boot、Spring MVC与MyBatis技术解析

    Java求职者面试指南&#xff1a;Spring、Spring Boot、Spring MVC与MyBatis技术解析 一、第一轮基础概念问题 1. Spring框架的核心容器是什么&#xff1f;它的作用是什么&#xff1f; Spring框架的核心容器是IoC&#xff08;控制反转&#xff09;容器。它的主要作用是管理对…...

    SpringAI实战:ChatModel智能对话全解

    一、引言&#xff1a;Spring AI 与 Chat Model 的核心价值 &#x1f680; 在 Java 生态中集成大模型能力&#xff0c;Spring AI 提供了高效的解决方案 &#x1f916;。其中 Chat Model 作为核心交互组件&#xff0c;通过标准化接口简化了与大语言模型&#xff08;LLM&#xff0…...

    Python 高效图像帧提取与视频编码:实战指南

    Python 高效图像帧提取与视频编码:实战指南 在音视频处理领域,图像帧提取与视频编码是基础但极具挑战性的任务。Python 结合强大的第三方库(如 OpenCV、FFmpeg、PyAV),可以高效处理视频流,实现快速帧提取、压缩编码等关键功能。本文将深入介绍如何优化这些流程,提高处理…...

    Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合

    作者&#xff1a;来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布&#xff0c;Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明&#xff0c;Elastic 作为 …...

    Python竞赛环境搭建全攻略

    Python环境搭建竞赛技术文章大纲 竞赛背景与意义 竞赛的目的与价值Python在竞赛中的应用场景环境搭建对竞赛效率的影响 竞赛环境需求分析 常见竞赛类型&#xff08;算法、数据分析、机器学习等&#xff09;不同竞赛对Python版本及库的要求硬件与操作系统的兼容性问题 Pyth…...

    华为OD最新机试真题-数组组成的最小数字-OD统一考试(B卷)

    题目描述 给定一个整型数组,请从该数组中选择3个元素 组成最小数字并输出 (如果数组长度小于3,则选择数组中所有元素来组成最小数字)。 输入描述 行用半角逗号分割的字符串记录的整型数组,0<数组长度<= 100,0<整数的取值范围<= 10000。 输出描述 由3个元素组成…...

    MySQL的pymysql操作

    本章是MySQL的最后一章&#xff0c;MySQL到此完结&#xff0c;下一站Hadoop&#xff01;&#xff01;&#xff01; 这章很简单&#xff0c;完整代码在最后&#xff0c;详细讲解之前python课程里面也有&#xff0c;感兴趣的可以往前找一下 一、查询操作 我们需要打开pycharm …...

    渗透实战PortSwigger靶场:lab13存储型DOM XSS详解

    进来是需要留言的&#xff0c;先用做简单的 html 标签测试 发现面的</h1>不见了 数据包中找到了一个loadCommentsWithVulnerableEscapeHtml.js 他是把用户输入的<>进行 html 编码&#xff0c;输入的<>当成字符串处理回显到页面中&#xff0c;看来只是把用户输…...

    API网关Kong的鉴权与限流:高并发场景下的核心实践

    &#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言 在微服务架构中&#xff0c;API网关承担着流量调度、安全防护和协议转换的核心职责。作为云原生时代的代表性网关&#xff0c;Kong凭借其插件化架构…...

    [论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

    TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码&#xff1a;HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...

    水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关

    在水泥厂的生产流程中&#xff0c;工业自动化网关起着至关重要的作用&#xff0c;尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关&#xff0c;为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多&#xff0c;其中不少设备采用Devicenet协议。Devicen…...

    Linux中《基础IO》详细介绍

    目录 理解"文件"狭义理解广义理解文件操作的归类认知系统角度文件类别 回顾C文件接口打开文件写文件读文件稍作修改&#xff0c;实现简单cat命令 输出信息到显示器&#xff0c;你有哪些方法stdin & stdout & stderr打开文件的方式 系统⽂件I/O⼀种传递标志位…...