快速实现AI搜索!Fivetran 支持 Milvus 作为数据迁移目标


Fivetran 现已支持 Milvus 向量数据库作为数据迁移的目标,能够有效简化 RAG 应用和 AI 搜索中数据源接入的流程。
数据是 AI 应用的支柱,无缝连接数据是充分释放数据潜力的关键。非结构化数据对于企业搜索和检索增强生成(RAG)聊天机器人等 AI 应用有着巨大价值。随着数据量的增长,像 Milvus 这样的可扩展向量数据库对于高效搜索组织信息至关重要。
用于搜索的数据通常存储在各种地方,如云存储、商业应用和关系型数据库中。常见的方法是将这些不同来源的数据合并到同一个存储库中,将非结构化数据(如文本)转换为 Embedding 向量,同时将元数据也一同存储在向量数据库中。这样一来,AI 应用能够访问多种数据集并适应数据源的变化。
Fivetran 现已支持 Milvus 向量数据库作为数据迁移的目标,有效简化了上述流程,用户无需构建、维护和监控复杂的数据管道(Data Pipeline)。数据工程师只需轻击几下鼠标,便可以创建快速、高效且可扩展的 AI 搜索解决方案,更专注于创造业务价值,而不是管理复杂的基础设施。

01.
Milvus 和 Fivetran 如何为 AI 构建基础
Milvus 是一款高性能、高度可扩展的开源向量数据库。在 Kubernetes 上部署的单个 Milvus 集群可以处理数十亿向量数据。Zilliz Cloud 是全托管的 Milvus 服务,增加了企业级特性(如 RBAC 和 SOC2 安全合规认证),并且自带专有的 Cardinal 向量搜索引擎,性能更出色。Milvus 和 Zilliz Cloud 被广泛应用于语义搜索、RAG 和多模态搜索等应用中。构建 AI 搜索解决方案的一个挑战是如何将来自各种来源的数据 Ingest 到 Milvus 中,以实现实时搜索。Fivetran 支持 Milvus 向量数据库作为数据迁移的目标,简化了将任何来源的数据 Ingest 到 Milvus 的流程,帮助企业免去管理传输的麻烦,更高效地分析数据。通过利用 Milvus 的高级向量搜索功能和简化的数据传输流程,开发者可以快速构建AI 应用,充分利用其组织来自多样数据源的数据 。
使用 Fivetran 的 Milvus 目标,您可以:
通过 Fivetran 连接器(Connector)将超过 500 个数据来源的数据 Ingest 到 Milvus/Zilliz Cloud 中。
使用 OpenAI Embedding 模型简化非结构化数据的提取、加载和向量化流程。
通过结构化数据列,实现在向量搜索过程中进行元数据过滤。
构建近实时的搜索功能,支持增量数据同步。
02.
Fivetran 的 Partner SDK:构建自定义连接器和目标
Fivetran 的 Partner SDK 使技术供应商能够为其服务创建源或目标连接器,并与 Fivetran 的自动化数据移动平台无缝集成。Partner SDK 的关键优势包括:
灵活的开发语言:基于 gRPC 的 SDK 允许使用任何支持的编程语言编写源和目标连接器,为开发者提供灵活性,以便在他们选择的语言中重用或编写新代码。
降低复杂性:通过模板和本地测试环境,第三方供应商可以轻松测试和部署连接器。
数据平台的新机遇:SDK 为产品开辟了新渠道,允许数据仓库、数据湖和存储平台轻松访问 Fivetran 的 500 多个连接器。
Zilliz 是 Milvus 背后的原厂,通过将其向量数据库操作紧密映射到 Fivetran 的关系型更新模型,构建了与 Fivetran 的集成。他们还简化了第三方解决方案的使用流程,例如通过 OpenAI Embedding 服务,在 Ingestion 过程中生成向量。
03.
AI 搜索演示
非结构化数据虽然通常最有价值,但也是最具挑战性的数据类型。借助 Fivetran 和 Milvus,企业可以快速且轻松地构建 AI 驱动的搜索工具,从丰富的数据集中获取洞察。
Fivetran 的全托管连接器可以自动、可靠且安全从主要的商业应用中传输数据,且支持 Schema 迁移。例如,一家公司想要为其 Slack 消息构建一个内部搜索工具。使用 Fivetran 的 Slack 连接器,数据首先被复制并以规范化格式存储在数仓或 data lakehouse(如 Snowflake)中。然后,可以反范式化、连接、分块和转换这些数据,之后可以通过 Fivetran 的 Snowflake 源连接器连接到 Milvus。只需将文本块存储在名为 original_text 的列中,Milvus 目标就会自动调用 OpenAI Embedding 服务为文本生成向量。向量与所有其他标签一起作为标量字段存储在 Milvus 中,随后通过向量相似性搜索和元数据过滤实现高效的语义搜索。

04.
总结
新推出的 Fivetran 的 Milvus 目标连接器进一步扩展了 AI 领域中的数据范围,实现了对多种数据源数据进行语义搜索。通过将来自多种数据库/数仓和商业应用的源数据 Ingest 到 Milvus 向量数据库,这种集成使得 AI 工作流变得更加轻松高效。欢迎根据设置说明使用 Fivetran 的 Milvus 目标连接器。
作者介绍

陈将
Zilliz 生态和 AI 平台负责人
推荐阅读




相关文章:
快速实现AI搜索!Fivetran 支持 Milvus 作为数据迁移目标
Fivetran 现已支持 Milvus 向量数据库作为数据迁移的目标,能够有效简化 RAG 应用和 AI 搜索中数据源接入的流程。 数据是 AI 应用的支柱,无缝连接数据是充分释放数据潜力的关键。非结构化数据对于企业搜索和检索增强生成(RAG)聊天…...
css的页面布局属性
CSS Flexbox(Flexible Box Layout)是一种用于页面布局的CSS3规范,它提供了一种更加高效的方式来布置、对齐和分配容器内元素的空间,即使它们的大小是未知或者动态变化的。Flexbox很容易处理一维布局,即在一个方向上&am…...
RTE 大会报名丨AI 时代新基建:云边端架构和 AI Infra ,RTE2024 技术专场第二弹!
所有 AI Infra 都在探寻规格和性能的最佳平衡,如何构建高可用的云边端协同架构? 语音 AI 实现 human-like 的最后一步是什么? AI 视频的爆炸增长,给新一代编解码技术提出了什么新挑战? 当大模型进化到实时多模态&am…...
【React】入门Day01 —— 从基础概念到实战应用
目录 一、React 概述 二、开发环境创建 三、JSX 基础 四、React 的事件绑定 五、React 组件基础使用 六、组件状态管理 - useState 七、组件的基础样式处理 快速入门 – React 中文文档 一、React 概述 React 是什么 由 Meta 公司开发,是用于构建 Web 和原生…...
<<机器学习实战>>10-11节笔记:生成器与线性回归手动实现
10生成器与python实现 如果是曲线规律的数据集,则需要把模型变复杂。如果是噪音较大,则需要做特征工程。 随机种子的知识点补充: 根据不同库中的随机过程,需要用对应的随机种子: 比如 llist(range(5)) random.shuf…...
链表OJ经典题目及思路总结(一)
目录 前言1.移除元素1.1 链表1.2 数组 2.双指针2.1 找链表的中间结点2.2 找倒数第k个结点 总结 前言 解代码题 先整体:首先数据结构链表的题一定要多画图,捋清问题的解决思路; 后局部:接着考虑每一步具体如何实现,框架…...
初识chatgpt
GPT到底是什么 首先,我们需要了解GPT的全称:Generative Pre-trained Transformer,即三个关键词:生成式 预训练 变换模型。 (1)什么是生成式? 即能够生成新的文本序列。 (2&#…...
【60天备战2024年11月软考高级系统架构设计师——第33天:云计算与大数据架构——大数据处理框架的应用场景】
随着大数据技术的发展,越来越多的企业开始采用大数据处理框架来解决实际问题。理解这些框架的应用场景对于架构师来说至关重要。 大数据处理框架的应用场景 实时数据分析:使用Apache Kafka与Apache Spark结合,可以实现对实时数据流的处理与…...
如何设计具体项目的数据库管理
### 例三:足协的数据库管理算法 #### 角色: - **ESFP学生**:小明 - **ENTP老师**:张老师 #### 主题:足协的数据库管理算法 --- **张老师**:小明,今天我们来讨论一下足协的数据库管理算法。你…...
对于 Vue CLI 项目如何引入Echarts以及动态获取数据
🚀个人主页:一颗小谷粒 🚀所属专栏:Web前端开发 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 1、数据画卷—Echarts介绍 1.1 什么是Echarts? 1.2 Echarts官网地址 2、Vue CLI 项目…...
【Linux笔记】在VMware中,为基于NAT模式运行的CentOS虚拟机设置固定的网络IP地址
一、配置VMware虚拟网络 1、打开VMware虚拟网络编辑器: 点击VMware主界面上方的“编辑”菜单,选择“虚拟网络编辑器”。 2、选择NAT模式网络: 在虚拟网络编辑器中,选择VMnet8(或其他NAT模式的网络)。 取消勾…...
一文上手Kafka【中】
一、发送消息细节 在发送消息的特别注意: 在版本 3.0 中,以前返回 ListenableFuture 的方法已更改为返回 CompletableFuture。为了便于迁移,2.9 版本添加了一个方法 usingCompletableFuture(),该方法为 CompletableFu…...
Ubuntu如何如何安装tcpdump
在Ubuntu上安装tcpdump非常简单,可以通过以下步骤完成: 打开终端。 更新包列表: 首先,更新你的包管理器的包列表: sudo apt update 安装tcpdump: 使用以下命令安装tcpdump: sudo apt install …...
3-3 AUTOSAR RTE 对SR Port的作用
返回总目录->返回总目录<- 一、前言 RTE作为SWC和BSW之间的通信机构,支持Sender-Receiver方式实现ECU内及ECU间的通信。 对于Sender-Receiver Port支持三种模式: 显式访问:若运行实体采用显示模式的S/R通信方式,数据读写是即时的;隐式访问:当多个运行实体需要读取…...
hive/impala/mysql几种数据库的sql常用写法和函数说明
做大数据开发的时候,会在几种库中来回跳,同一个需求,不同库函数和写法会有出入,在此做汇总沉淀。 1. hive 1. 日期差 DATEDIFF(CURRENT_DATE(),wdjv.creation_date) < 30 30天内的数据 2.impala 3. spark 4. mysql 1.时间差…...
论文阅读:LM-Cocktail: Resilient Tuning of Language Models via Model Merging
论文链接 代码链接 Abstract 预训练的语言模型不断进行微调,以更好地支持下游应用。然而,此操作可能会导致目标领域之外的通用任务的性能显著下降。为了克服这个问题,我们提出了LM Cocktail,它使微调后的模型在总体上保持弹性。我们的方法以模型合并(Model Merging)的形…...
8640 希尔(shell)排序
### 思路 希尔排序是一种基于插入排序的排序算法,通过将待排序数组分割成多个子序列分别进行插入排序来提高效率。初始增量d为n/2,之后每次减半,直到d为1。 ### 伪代码 1. 读取输入的待排序关键字个数n。 2. 读取n个待排序关键字并存储在数组…...
Linux 安装redis主从模式+哨兵模式3台节点
下载 https://download.redis.io/releases/ 解压 tar -zxvf redis-7.2.4.tar.gz -C /opt chmod 777 -R /opt/redis-7.2.4/安装 # 编译 make # 安装, 一定是大写PREFIX make PREFIX/opt/redis-7.2.4/redis/ install配置为系统服务 cd /etc/systemd/system/主服务…...
[BCSP-X2024.小高3] 学习计划
题目描述 暑假共有 n 天,第 i 天的精力指数为 a[i],你想要利用假期依次(按 1,2,...,m 顺序)复习 m 门功课,第 i 门功课的重要程度为 b[i],且每门的复习时段必须连 续,并且不能有某天不干事。 …...
Android Debug Bridge(ADB)完全指南
文章目录 前言一、什么是ADB?二、ADB的工作原理ADB由三个部分组成: 三、如何安装ADBWindows系统:macOS和Linux系统: 四、ADB常用指令大全设备相关操作1. 查看连接的设备:2. 重启设备:3. 进入Bootloader模式…...
【机器视觉】单目测距——运动结构恢复
ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛…...
[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
ServerTrust 并非唯一
NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角 要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念 点说明authenticationMethodURLAuthenticationChallenge.protectionS…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
MySQL 8.0 事务全面讲解
以下是一个结合两次回答的 MySQL 8.0 事务全面讲解,涵盖了事务的核心概念、操作示例、失败回滚、隔离级别、事务性 DDL 和 XA 事务等内容,并修正了查看隔离级别的命令。 MySQL 8.0 事务全面讲解 一、事务的核心概念(ACID) 事务是…...
高抗扰度汽车光耦合器的特性
晶台光电推出的125℃光耦合器系列产品(包括KL357NU、KL3H7U和KL817U),专为高温环境下的汽车应用设计,具备以下核心优势和技术特点: 一、技术特性分析 高温稳定性 采用先进的LED技术和优化的IC设计,确保在…...
背包问题双雄:01 背包与完全背包详解(Java 实现)
一、背包问题概述 背包问题是动态规划领域的经典问题,其核心在于如何在有限容量的背包中选择物品,使得总价值最大化。根据物品选择规则的不同,主要分为两类: 01 背包:每件物品最多选 1 次(选或不选&#…...
免费批量Markdown转Word工具
免费批量Markdown转Word工具 一款简单易用的批量Markdown文档转换工具,支持将多个Markdown文件一键转换为Word文档。完全免费,无需安装,解压即用! 官方网站 访问官方展示页面了解更多信息:http://mutou888.com/pro…...
后端下载限速(redis记录实时并发,bucket4j动态限速)
✅ 使用 Redis 记录 所有用户的实时并发下载数✅ 使用 Bucket4j 实现 全局下载速率限制(动态)✅ 支持 动态调整限速策略✅ 下载接口安全、稳定、可监控 🧩 整体架构概览 模块功能Redis存储全局并发数和带宽令牌桶状态Bucket4j Redis分布式限…...
安宝特方案丨从依赖经验到数据驱动:AR套件重构特种装备装配与质检全流程
在高压电气装备、军工装备、石油测井仪器装备、计算存储服务器和机柜、核磁医疗装备、大型发动机组等特种装备生产型企业,其产品具有“小批量、多品种、人工装配、价值高”的特点。 生产管理中存在传统SOP文件内容缺失、SOP更新不及、装配严重依赖个人经验、产品装…...
