当前位置: 首页 > news >正文

LLM-阿里云 DashVector + ModelScope 多模态向量化实时文本搜图实战总结

文章目录

  • 前言
  • 步骤
    • 图片数据Embedding入库
    • 文本检索
  • 完整代码

前言

本文使用阿里云的向量检索服务(DashVector),结合 ONE-PEACE多模态模型,构建实时的“文本搜图片”的多模态检索能力。整体流程如下:
image.png

  1. 多模态数据Embedding入库。通过ONE-PEACE模型服务Embedding接口将多种模态的数据集数据转化为高维向量。
  2. 多模态Query检索。基于ONE-PEACE模型提供的多模态Embedding能力,我们可以自由组合不同模态的输入,例如单文本、文本+音频、音频+图片等多模态输入,获取Embedding向量后通过DashVector跨模态检索相似结果。

前提条件

  • 开通灵积模型服务,并获得API-KEY:开通DashScope并创建API-KEY
  • 开通向量检索服务:请参见开通服务。
  • 创建向量检索服务API-KEY:请参见API-KEY管理。

环境准备

# 安装 dashscope 和 dashvector sdk
pip3 install dashscope dashvector# 显示图片
pip3 install Pillow

数据准备

说明
由于DashScope的ONE-PEACE模型服务当前只支持URL形式的图片、音频输入,因此需要将数据集提前上传到公共网络存储(例如 oss/s3),并获取对应图片、音频的url地址列表。

步骤

图片数据Embedding入库

我使用了阿里云的 OSS 保存了图片,通过 OSS Browser 界面获取图片外部可以访问的 URL:
image.png
image.png
这个 URL 应该也可以通过接口的方式获取,这个还没有研究,感兴趣的小伙伴可以尝试用接口批量获取下,获取这个 URL 的目的是为了让阿里云的 DashScope 服务能够读取到该图片进行 embedding 保存到 DashVector 向量数据库中。
获取到该URL 后,就将该URL 写入到我们的 imagenet1k-urls.txt 文件中,等会我们的代码会读取该文件进行嵌入:
image.png
执行嵌入的代码如下(我在后边会将完整代码和目录结构贴出,这里只贴出嵌入的代码):

    def index_image(self):# 创建集合:指定集合名称和向量维度, ONE-PEACE 模型产生的向量统一为 1536 维collection = self.vector_client.get(self.vector_collection_name)if not collection:rsp = self.vector_client.create(self.vector_collection_name, 1536)collection = self.vector_client.get(self.vector_collection_name)if not rsp:raise DashVectorException(rsp.code, reason=rsp.message)# 调用 dashscope ONE-PEACE 模型生成图片 Embedding,并插入 dashvectorwith open(self.IMAGENET1K_URLS_FILE_PATH, 'r') as file:for i, line in enumerate(file):url = line.strip('\n')input = [{'image': url}]result = MultiModalEmbedding.call(model=MultiModalEmbedding.Models.multimodal_embedding_one_peace_v1,input=input,api_key=os.environ["DASHSCOPE_API_KEY"],auto_truncation=True)if result.status_code != 200:print(f"ONE-PEACE failed to generate embedding of {url}, result: {result}")continueembedding = result.output["embedding"]collection.insert(Doc(id=str(i),vector=embedding,fields={'image_url': url}))if (i + 1) % 100 == 0:print(f"---- Succeeded to insert {i + 1} image embeddings")
  • 读取 IMAGENET1K_URLS_FILE_PATH中的图片 URL,然后执行请求 DashScope 请求,将我们的图片向量化存储。
  • 在插入向量数据库的时候带上了图片的 URL 作为向量属性。

执行完毕后可以通过向量检索服务控制台,查看下向量数据:
image.png
image.png

文本检索

通过文本检索向量数据库中的数据,我输入cat检索出三张(我们代码中设置的 topk=3)图片, 可以查看下效果,两张是猫的照片,但是有一张是狗的照片:
image.png
这是因为这张狗和猫是存在相似性的,接下来我们将topk设置为2,理论上就检测不出这个狗了,我们看下效果,果然就没有狗了:
image.png
之所以会出现狗,是因为我往向量库中存入了4张动物图片,2张猫的,2张狗的,如果我们的 topk 设置为3,就会多检测出一张狗的。

完整代码

multi_model.py文件如下:

import osimport dashscope
from dashvector import Client, Doc, DashVectorException
from dashscope import MultiModalEmbedding
from dashvector import Client
from urllib.request import urlopen
from PIL import Imageclass DashVectorMultiModel:def __init__(self):# 我们需要同时开通 DASHSCOPE_API_KEY 和 DASHVECTOR_API_KEYos.environ["DASHSCOPE_API_KEY"] = ""os.environ["DASHVECTOR_API_KEY"] = ""os.environ["DASHVECTOR_ENDPOINT"] = ""dashscope.api_key = os.environ["DASHSCOPE_API_KEY"]# 由于 ONE-PEACE 模型服务当前只支持 url 形式的图片、音频输入,因此用户需要将数据集提前上传到# 公共网络存储(例如 oss/s3),并获取对应图片、音频的 url 列表。# 该文件每行存储数据集单张图片的公共 url,与当前python脚本位于同目录下self.IMAGENET1K_URLS_FILE_PATH = "imagenet1k-urls.txt"self.vector_client = self.init_vector_client()self.vector_collection_name = 'imagenet1k_val_embedding'def init_vector_client(self):return Client(api_key=os.environ["DASHVECTOR_API_KEY"],endpoint=os.environ["DASHVECTOR_ENDPOINT"])def index_image(self):# 创建集合:指定集合名称和向量维度, ONE-PEACE 模型产生的向量统一为 1536 维collection = self.vector_client.get(self.vector_collection_name)if not collection:rsp = self.vector_client.create(self.vector_collection_name, 1536)collection = self.vector_client.get(self.vector_collection_name)if not rsp:raise DashVectorException(rsp.code, reason=rsp.message)# 调用 dashscope ONE-PEACE 模型生成图片 Embedding,并插入 dashvectorwith open(self.IMAGENET1K_URLS_FILE_PATH, 'r') as file:for i, line in enumerate(file):url = line.strip('\n')input = [{'image': url}]result = MultiModalEmbedding.call(model=MultiModalEmbedding.Models.multimodal_embedding_one_peace_v1,input=input,api_key=os.environ["DASHSCOPE_API_KEY"],auto_truncation=True)if result.status_code != 200:print(f"ONE-PEACE failed to generate embedding of {url}, result: {result}")continueembedding = result.output["embedding"]collection.insert(Doc(id=str(i),vector=embedding,fields={'image_url': url}))if (i + 1) % 100 == 0:print(f"---- Succeeded to insert {i + 1} image embeddings")def show_image(self, image_list):for img in image_list:# 注意:show() 函数在 Linux 服务器上可能需要安装必要的图像浏览器组件才生效# 建议在支持 jupyter notebook 的服务器上运行该代码img.show()def text_search(self, input_text):# 获取上述入库的集合collection = self.vector_client.get('imagenet1k_val_embedding')# 获取文本 query 的 Embedding 向量input = [{'text': input_text}]result = MultiModalEmbedding.call(model=MultiModalEmbedding.Models.multimodal_embedding_one_peace_v1,input=input,api_key=os.environ["DASHSCOPE_API_KEY"],auto_truncation=True)if result.status_code != 200:raise Exception(f"ONE-PEACE failed to generate embedding of {input}, result: {result}")text_vector = result.output["embedding"]# DashVector 向量检索rsp = collection.query(text_vector, topk=2)image_list = list()for doc in rsp:img_url = doc.fields['image_url']img = Image.open(urlopen(img_url))image_list.append(img)return image_listif __name__ == '__main__':a = DashVectorMultiModel()# 执行 embedding 操作a.index_image()# 文本检索text_query = "Traffic light"a.show_image(a.text_search(text_query))
  • 开通 DashScope 和 DashVector 的 API KEY 后替换上边的DASHSCOPE_API_KEY,DASHVECTOR_API_KEY,DASHVECTOR_ENDPOINT

代码目录结构如下,将 txt 文件和py 文件放在同级目录下:
image.png


补充说明

  • 使用本地图片:我是将图片上传至 OSS 的,也可以使用本地的图片文件,将 txt 中的文件路径替换为本地图片路径,如下:

    image.png

  • 如果使用本地图片的话,我们就得修改下上边的代码了,修改下边的代码:

    # 将 img = Image.open(urlopen(img_url)) 替换为下边的代码
    img = Image.open(img_url)
    

相关文章:

LLM-阿里云 DashVector + ModelScope 多模态向量化实时文本搜图实战总结

文章目录 前言步骤图片数据Embedding入库文本检索 完整代码 前言 本文使用阿里云的向量检索服务(DashVector),结合 ONE-PEACE多模态模型,构建实时的“文本搜图片”的多模态检索能力。整体流程如下: 多模态数据Embedd…...

CentOS7安装部署git和gitlab

安装Git 在Linux系统中是需要编译源码的,首先下载所需要的依赖: yum install -y curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker方法一 下载: wget https://mirrors.edge.kernel.org/pub/s…...

《昇思25天学习打卡营第16天|基于MindNLP+MusicGen生成自己的个性化音乐》

MindNLP 原理 MindNLP 是一个自然语言处理(NLP)框架,用于处理和分析文本数据。 文本预处理:包括去除噪声、分词、词性标注、命名实体识别等步骤,使文本数据格式化并准备好进行进一步分析。 特征提取:将文…...

算法学习day10(贪心算法)

贪心算法:由局部最优->全局最优 贪心算法一般分为如下四步: 将问题分解为若干个子问题找出适合的贪心策略求解每一个子问题的最优解将局部最优解堆叠成全局最优解 一、摆动序列(理解难) 连续数字之间的差有正负的交替&…...

卡尔曼滤波Kalman Filter零基础入门到实践(上部)

参考视频:入门(秒懂滤波概要)_哔哩哔哩_bilibili 一、入门 1.引入 假设超声波距离传感器每1ms给单片机发数据。 理论数据为黑点, 测量数据曲线为红线,引入滤波后的数据为紫线 引入滤波的作用是过滤数据中的噪声&a…...

力扣-dfs

何为深度优先搜索算法? 深度优先搜索算法,即DFS。就是找一个点,往下搜索,搜索到尽头再折回,走下一个路口。 695.岛屿的最大面积 695. 岛屿的最大面积 题目 给你一个大小为 m x n 的二进制矩阵 grid 。 岛屿 是由一些相…...

keepalived高可用集群

一、keepalived: 1.keepalive是lvs集群中的高可用架构,只是针对调度器的高可用,基于vrrp来实现调度器的主和备,也就是高可用的HA架构;设置一台主调度器和一台备调度器,在主调度器正常工作的时候&#xff0…...

文献翻译与阅读《Integration Approaches for Heterogeneous Big Data: A Survey》

CYBERNETICS AND INFORMATION TECHNOLOGIES’24 论文原文下载地址:原文下载 目录 1 引言 2 大数据概述 3 大数据的异构性 4 讨论整合方法 4.1 大数据仓库(BDW) 4.2 大数据联盟(BDF) 5 DW 和 DF 方法的比较、分…...

应用最优化方法及MATLAB实现——第3章代码实现

一、概述 在阅读最优方法及MATLAB实现后,想着将书中提供的代码自己手敲一遍,来提高自己对书中内容理解程度,巩固一下。 这部分内容主要针对第3章的内容,将其所有代码实现均手敲一遍,中间部分代码自己根据其公式有些许的…...

django的增删改查,排序,分组等常用的ORM操作

Django 的 ORM(对象关系映射)提供了一种方便的方式来与数据库进行交互。 1. Django模型 在 myapp/models.py 中定义一个示例模型:python from django.db import modelsclass Person(models.Model):name models.CharField(max_length100)age…...

Leetcode Java学习记录——树、二叉树、二叉搜索树

文章目录 树的定义树的遍历中序遍历代码 二叉搜索树 常见二维数据结构:树/图 树和图的区别就在于有没有环。 树的定义 public class TreeNode{public int val;public TreeNode left,right;public TreeNode(int val){this.val val;this.left null;this.right nu…...

华为HCIP Datacom H12-821 卷30

1.单选题 以下关于OSPF协议报文说法错误的是? A、OSPF报文采用UDP报文封装并且端口号是89 B、OSPF所有报文的头部格式相同 C、OSPF协议使用五种报文完成路由信息的传递 D、OSPF所有报文头部都携带了Router-ID字段 正确答案:A 解析: OSPF用IP报文直接封装协议报文,…...

element el-table实现表格动态增加/删除/编辑表格行,带校验规则

本篇文章记录el-table增加一行可编辑的数据列,进行增删改。 1.增加空白行 直接在页面mounted时对form里面的table列表增加一行数据,直接使用push() 方法增加一列数据这个时候也可以设置一些默认值。比如案例里面的 产品件数 。 mounted() {this.$nextTi…...

QT调节屏幕亮度

1、目标 利用QT实现调节屏幕亮度功能:在无屏幕无触控时,将屏幕亮度调低,若有触控则调到最亮。 2、调节亮度命令 目标装置使用嵌入式Linux系统,调节屏幕亮度的指令为: echo x > /sys/class/backlight/backlight/…...

实变函数精解【3】

文章目录 点集求导集 闭集参考文献 点集 求导集 例1 E { 1 / n 1 / m : n , m ∈ N } 1. lim ⁡ n → ∞ ( 1 / n 1 / m ) 1 / m 2. lim ⁡ n , m → ∞ ( 1 / n 1 / m ) 0 3. E ′ { 0 , 1 , 1 / 2 , 1 / 3 , . . . . } E\{1/n1/m:n,m \in N\} \\1.\lim_{n \rightar…...

JVM:SpringBoot TomcatEmbeddedWebappClassLoader

文章目录 一、介绍二、SpringBoot中TomcatEmbeddedWebappClassLoader与LaunchedURLClassLoader的关系 一、介绍 TomcatEmbeddedWebappClassLoader 是 Spring Boot 在其内嵌 Tomcat 容器中使用的一个类加载器(ClassLoader)。在 Spring Boot 应用中&#…...

蜂窝互联网接入:连接世界的无缝体验

通过Wi—Fi,人们可以方便地接入互联网,但无线局域网的覆盖范围通常只有10~100m。当我们携带笔记本电脑在外面四处移动时,并不是在所有地方都能找到可接入互联网的Wi—Fi热点,这时候蜂窝移动通信系统可以为我们提供广域…...

Sprint Boot 2 核心功能(一)

核心功能 1、配置文件 application.properties 同基础入门篇的application.properties用法一样 Spring Boot 2 入门基础 application.yaml(或application.yml) 基本语法 key: value;kv之间有空格大小写敏感使用缩进表示层级关系缩进不允…...

GitLab CI/CD实现项目自动化部署

1 GitLab CI/CD介绍 GitLab CI/CD 是 GitLab 中集成的一套用于软件开发的持续集成(Continuous Integration)、持续交付(Continuous Delivery)和持续部署(Continuous Deployment)工具。这套系统允许开发团队…...

阿里云调整全球布局关停澳洲云服务器,澳洲服务器市场如何选择稳定可靠的云服务?

近日,阿里云宣布将关停澳大利亚地域的数据中心服务,这一决定引发了全球云计算行业的广泛关注。作为阿里云的重要海外市场之一,澳洲的数据中心下架对于当地的企业和个人用户来说无疑是一个不小的挑战。那么,在阿里云调整全球布局的…...

OpenClaw+千问3.5-9B学习助手:自动整理课程笔记与生成测验

OpenClaw千问3.5-9B学习助手:自动整理课程笔记与生成测验 1. 为什么需要AI学习助手? 去年备考PMP认证时,我每天需要处理3-4小时的视频课程。最痛苦的环节不是听课,而是课后整理:暂停视频记录重点、梳理知识框架、制作…...

PyCharm配置PySide6工具链避坑指南:解决虚拟环境路径、命令报错那些事儿

PyCharm配置PySide6工具链避坑指南:解决虚拟环境路径、命令报错那些事儿 刚接触PySide6开发的朋友,十有八九会在PyCharm配置Designer、UIC和RCC工具时踩坑。明明照着教程一步步操作,却总是遇到"程序不存在"、"命令执行错误&qu…...

微生物网络分析参数配置与结果验证:microeco中SpiecEasi的进阶应用指南

微生物网络分析参数配置与结果验证:microeco中SpiecEasi的进阶应用指南 【免费下载链接】microeco An R package for data analysis in microbial community ecology 项目地址: https://gitcode.com/gh_mirrors/mi/microeco 在微生物生态学研究中&#xff0c…...

Jetson Nano/Orin上离线语音识别的实战踩坑:从Whisper到Sherpa-onnx,我最终选了它

Jetson Nano/Orin离线语音识别实战:从Whisper到Sherpa-onnx的技术选型与避坑指南 在边缘计算设备上实现高质量的离线语音识别(ASR)一直是开发者面临的挑战。Jetson系列作为NVIDIA推出的边缘AI计算平台,凭借其强大的GPU加速能力和低…...

挑战复杂功能,让快马AI成为你微信小程序开发的智能编程搭档

最近在开发一个微信小程序时,遇到了一个比较复杂的自定义组件需求:一个可以左右滑动切换日期、并显示对应日程的周视图日历。这个功能看似简单,但实际开发中涉及到日期计算、滑动事件处理、数据绑定等多个难点。好在发现了InsCode(快马)平台&…...

腰间盘突出别硬扛!阶梯治疗才科学,专科诊疗帮你摆脱疼痛

腰间盘突出是现代人的常见病,很多人要么强忍疼痛,要么盲目按摩,结果越治越重。作为从事脊柱外科多年的专家,我要告诉大家:腰间盘突出治疗有明确的阶梯方案,从保守到手术循序渐进,关键是选对时机…...

终极视频修复指南:如何使用Untrunc轻松恢复损坏的MP4/MOV文件

终极视频修复指南:如何使用Untrunc轻松恢复损坏的MP4/MOV文件 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经遇到过珍贵的视频文件突然无法播…...

实战指南:基于快马AI生成贴合业务场景的问卷系统,超越通用opencode

在开发一个在线问卷调查系统时,很多开发者会直接使用现成的opencode或开源组件。但实际业务中,通用方案往往难以完全匹配特定需求。最近我在InsCode(快马)平台上尝试了一个实战项目,通过AI生成高度定制化的问卷系统后台API,效果远…...

万象视界灵坛部署案例:边缘设备(Jetson Orin)轻量化CLIP推理部署

万象视界灵坛部署案例:边缘设备(Jetson Orin)轻量化CLIP推理部署 1. 项目概述 万象视界灵坛(Omni-Vision Sanctuary)是一款基于OpenAI CLIP模型的高级多模态智能感知平台。该平台通过创新的像素风格界面设计&#xf…...

【后端】主流后端语言横向对比:JAVA、C、C++、GO、PYTHON的实战应用与选型指南

1. 五种主流后端语言的核心特性对比 第一次接触后端开发时,面对众多编程语言的选择确实容易犯难。我至今记得2013年参与电商系统重构时,团队为选择Java还是Go争论了两周。这五种语言就像不同的工具——没有绝对的好坏,关键要看用在什么场景。…...