多模态RAG与LlamaIndex——1.deepresearch调研
摘要
关键点:
- 多模态RAG技术通过结合文本、图像、表格和视频等多种数据类型,扩展了传统RAG(检索增强生成)的功能。
- LlamaIndex是一个开源框架,支持多模态RAG,提供处理文本和图像的模型、嵌入和索引功能。
- 研究表明,LlamaIndex通过CLIP嵌入和GPT-4V等模型,能够有效构建多模态知识助手。
什么是多模态RAG?
**多模态RAG(Retrieval-Augmented Generation)**是一种人工智能技术,允许系统从多种数据类型(如文本、图像、表格和视频)中检索信息,并生成更准确、上下文相关的回答。相比传统的仅基于文本的RAG,多模态RAG能够处理更复杂的企业数据,例如包含图表的PDF文档或视频内容。
多模态检索增强生成(RAG)技术在传统文本RAG基础上扩展了图像(以及其他模态)处理能力。NVIDIA 等报告指出,如果 RAG 应用能同时处理图表、图像等多种数据形式,其应用效用会呈指数增长。
在多模态 RAG 中,常见的设计思路包括:将文本和图像嵌入到同一向量空间(例如使用 CLIP 模型),或将一种模态转换为主要模态(如对图像生成文本描述后索引)、或为不同模态分别建库并再排序。
总的流程一般为:数据处理→检索→生成。
首先对文本和图像数据进行分段与嵌入(text embedding、image embedding);然后根据用户查询(可为文本或图像)在向量检索库中并行检索相关文本片段和图像;最后将检索出的信息(包括图像及其描述)输入生成模型。生成阶段可使用纯文本大模型(LLM),或使用多模态大模型(MLLM,例如GPT-4V)直接处理图文信息。
LlamaIndex官方文档指出:在多模态RAG中,输入可以是文本或图像,知识库可包含文本或图像,生成模型的输入和输出也可是文本或图像等形式。
例如可用 CLIP将查询图像和文档图像编码到同一空间,并用多模态LLM(如GPT-4V)生成回答,也可以对图像先做文本描述再统一检索文本内容。
- 索引阶段:对文本文档用文本嵌入模型(如BGE)编码,对图像用视觉模型(如CLIP、LLaVA等)编码,分别存入向量数据库;也可将图像转为文本描述后归入文本库。
- 检索阶段:对用户文本查询可同时检索文本和图像向量(如CLIP检索);对图像查询则检索图像相似向量并可同时触发相关文本查询。可以采用多库检索+融合策略(分别返回前N条,再交由重排序器整合),或嵌入单一空间一次性检索。
- 生成阶段:将检索出的文本和(图像或图像说明)拼接后作为上下文输入大模型。可以用传统LLM生成文本答案,或使用支持视觉输入的多模态LLM(MLLM)直接生成回答或多模态响应。
总之,多模态RAG结合了检索器和生成器,对每个模态均可扩展标准RAG流程。
LlamaIndex如何支持多模态RAG?
LlamaIndex(原GPT-Index)是一个 Python 开源框架,支持搭建基于LLM的知识问答系统,也内置了多模态支持。
LlamaIndex 提供了丰富的示例和工具,包括使用 CLIP 进行图像-文本联合检索、使用GPT-4V进行多模态问答、结构化图像检索等指南。
在技术实现上,LlamaIndex允许将图像数据封装为节点(Node),并支持使用CLIP等视觉编码器生成图像向量,与文本节点一起建立统一索引。检索时可以同时使用图像检索器(Image Retriever)和文本检索器,得到两个模态的结果,然后将它们合并供生成模型使用。生成时,开发者可选择调用普通的文本LLM(并将图像描述作为文本上下文)或直接调用支持视觉输入的模型(如GPT-4V、多模态LLava等)来回答问题。此外,LlamaIndex 的评估模块 (evaluation 模块) 也支持多模态,提供了MultiModalRetrieverEvaluator、CorrectnessEvaluator、MultiModalFaithfulnessEvaluator等类,用于分别评估图文检索和回答的正确性、忠实度和相关度。
它通过以下方式支持多模态RAG:
- 多模态模型:支持如GPT-4V的模型,可以同时处理文本和图像输入。
- 嵌入和索引:使用CLIP等模型生成文本和图像的统一嵌入,并通过多模态向量索引存储。
- 实用工具:提供评估和构建多模态RAG系统的指南,例如处理视频或生成结构化输出。
资源与实现
LlamaIndex的文档和博客提供了丰富的教程,例如多模态RAG博客,展示了如何索引和检索图像与文本。用户可以通过这些资源快速上手,构建适用于企业数据的多模态RAG系统。
多模态RAG技术与LlamaIndex的结合
多模态RAG(Retrieval-Augmented Generation)技术是人工智能领域的一项重要进展,它通过结合多种数据模态(如文本、图像、表格和视频),显著增强了传统RAG系统的功能。传统RAG主要依赖文本数据,通过从知识库中检索相关信息来增强语言模型的生成能力。而多模态RAG则能够处理更复杂的数据类型,例如企业文档中的图表、视频内容或多媒体档案,从而为用户提供更全面和上下文相关的回答。本文将深入探讨多模态RAG技术的核心概念、实现方法,以及LlamaIndex框架在支持该技术方面的能力。
多模态RAG技术的核心概念
多模态RAG的核心在于其能够处理和检索多种数据类型。以下是其关键特点:
- 多模态数据处理:多模态RAG系统可以处理文本、图像、表格、图表甚至视频等多种数据形式。例如,一个包含文本和图表的PDF文档可以通过多模态RAG系统进行解析和检索。
- 统一向量空间:通过使用如CLIP(Contrastive Language-Image Pretraining)等模型,多模态RAG可以将不同模态的数据嵌入到同一向量空间中,从而实现跨模态的检索。
- 增强生成能力:多模态RAG不仅限于文本生成,还可以生成图像或结构化输出,例如基于检索数据的图表。
根据NVIDIA的技术博客多模态RAG简介,多模态RAG的实现通常涉及以下三种方法:
- 统一向量空间嵌入:将所有模态的数据嵌入到同一向量空间,例如使用CLIP模型同时嵌入文本和图像。
- 单一模态转换:将所有模态转换为单一模态(通常是文本),例如通过图像描述生成文本嵌入。
- 分离存储与重排序:为每种模态维护单独的向量存储,检索后使用多模态重排序器选择最相关信息。
这些方法各有优劣,具体选择取决于应用场景和数据复杂性。例如,统一向量空间方法适合需要跨模态检索的场景,而单一模态转换则更适合文本主导的查询。
多模态RAG的挑战
尽管多模态RAG具有强大的潜力,但其实现面临以下挑战:
- 数据复杂性:不同模态的数据具有独特的处理需求,例如图像需要视觉理解,表格需要结构化解析。
- 跨模态信息管理:如何有效整合和检索跨模态的信息是一个技术难点。例如,回答一个涉及图像和文本的查询需要协调两种模态的上下文。
- 计算资源:多模态模型(如GPT-4V)通常需要更高的计算资源,增加了部署成本。
LlamaIndex在多模态RAG中的应用
LlamaIndex 是一个开源的数据编排框架,专为构建基于大型语言模型(LLM)的应用程序设计。它通过一系列工具和抽象支持多模态RAG的开发,使开发者能够轻松构建处理企业数据的知识助手。以下是LlamaIndex在多模态RAG方面的核心功能:
1. 多模态模型支持
LlamaIndex支持多模态大型语言模型(MLLM),如OpenAI的GPT-4V,这些模型能够同时处理文本和图像输入。例如,LlamaIndex的多模态应用文档展示了如何使用GPT-4V进行图像描述和视觉问答(VQA)。此外,LlamaIndex还支持托管在Replicate上的开源视觉模型,为用户提供更多选择。
2. 多模态嵌入与索引
LlamaIndex引入了MultiModalEmbedding
基类,支持同时嵌入文本和图像。默认实现使用CLIP模型,能够生成文本和图像的统一嵌入。LlamaIndex还提供了MultiModalVectorIndex
,允许将文本和图像索引到向量数据库和文档存储中。这种索引方式支持高效的跨模态检索,例如根据文本查询检索相关图像。
3. 检索增强图像描述
LlamaIndex支持检索增强图像描述的工作流程,即先使用多模态模型为图像生成初步描述,然后通过从文本语料库中检索相关信息来优化描述。这种方法特别适用于需要结合外部知识来理解图像的场景。
4. 评估工具
LlamaIndex提供了专门的评估工具,用于评估多模态RAG系统的性能。例如,多模态RAG评估文档展示了如何比较不同的图像嵌入模型(如CLIP与基于GPT-4V的文本描述嵌入)。这些工具帮助开发者优化检索和生成阶段的性能。
5. 视频处理支持
LlamaIndex不仅限于文本和图像,还支持视频等多模态数据的处理。例如,LlamaIndex与LanceDB的视频处理博客介绍了如何结合LlamaIndex和LanceDB处理视频内容,适用于媒体、教育和安全等领域的应用。
6. 最新功能:RAGs v5
LlamaIndex的RAGs v5版本引入了更强大的多模态功能,允许用户通过自然语言构建多模态RAG代理,并查看文本和图像来源。LinkedIn上的LlamaIndex RAGs v5公告提到,用户只需指定数据文件夹并启用多模态功能,即可生成能够检索和回答多模态查询的代理。
LlamaIndex多模态RAG的实现示例
为了帮助用户快速上手,LlamaIndex提供了多个教程和笔记本,展示了如何构建多模态RAG系统。以下是一个简化的实现示例,基于LlamaIndex的文档和博客:
from llama_index import MultiModalVectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings import ClipEmbedding
from llama_index.llms import GPT4V# 初始化多模态嵌入模型
embed_model = ClipEmbedding()# 加载包含文本和图像的数据
documents = SimpleDirectoryReader("./data_folder").load_data()# 创建多模态向量索引
index = MultiModalVectorStoreIndex.from_documents(documents,embed_model=embed_model
)# 初始化多模态LLM
llm = GPT4V()# 创建查询引擎
query_engine = index.as_query_engine(llm=llm)# 查询示例
response = query_engine.query("描述文件夹中的图像内容")
print(response)
此代码展示了如何使用LlamaIndex加载包含文本和图像的数据,创建多模态向量索引,并使用GPT-4V模型回答查询。用户可以根据需要调整数据路径和查询内容。
多模态RAG的未来发展
多模态RAG技术仍在快速发展,未来的研究方向包括:
- 更复杂的多模态查询:支持用户提交包含图像或视频的查询,例如上传图表并询问其数据来源。
- 多模态输出:生成不仅限于文本的回答,例如基于检索数据生成图表或图像。
- 多模态代理:开发能够处理复杂任务的代理,例如结合文本、图像和视频进行决策。
LlamaIndex也在不断更新其功能,例如通过LlamaCloud平台提供更易于生产化的多模态RAG解决方案,LlamaCloud多模态RAG博客提到,其优化了大规模数据索引和检索的复杂性。
多模态 RAG 开源项目推荐
以下列举了目前基于 LlamaIndex 或兼容框架开发的多个多模态 RAG 开源项目,适用于图文搜索问答任务。
1. Multimodal-RAG-with-Llama-3.2
- 简介:基于 Streamlit 构建的多模态问答系统,支持上传 PDF、PPT、图片等文档,并从中提取文本和图像内容进行索引与生成。
- 核心技术:
- 使用 LlamaIndex 构建文本与图像的索引
- 使用 Milvus 向量数据库
- 图像描述采用 Hugging Face 的 LLaVA,图表处理使用 NVIDIA NIM (DePlot)
- 文本生成模型:Meta Llama-3.2-3B;视觉语言模型:Llama-3.2-11B-Vision
- 部署方式:
git clone https://github.com/jayrodge/Multimodal-RAG-with-Llama-3.2 cd Multimodal-RAG-with-Llama-3.2 pip install -r requirements.txt streamlit run app.py
2. Local_MultiModal_RAG_with_LlamaIndex
- 简介:完全本地化部署的文档问答系统,支持图文混合检索与生成,不依赖 API。
- 核心技术:
- 文档解析:SciPDF(PDF+表格解析)
- 嵌入模型:BGE(文本),CLIP(图像)
- 检索引擎:Qdrant
- 本地推理:LLaVA (GGUF) + llama.cpp
- 部署方式:
git clone https://github.com/Virgil-L/Local_MultiModal_RAG_with_llamaindex cd Local_MultiModal_RAG_with_llamaindex pip install -r requirements.txt python main.py
3. FiftyOne Multimodal RAG Plugin
- 简介:在图像数据可视化工具 FiftyOne 中集成的多模态 RAG 插件,用于实验不同的图文检索与生成策略。
- 核心技术:
- 使用 LlamaIndex 构建图文混合索引
- 使用 Milvus 存储图像+文本嵌入
- 插件机制支持 GUI 交互与检索配置
- 使用方式:
pip install fiftyone git clone https://github.com/jacobmarks/fiftyone-multimodal-rag-plugin cd fiftyone-multimodal-rag-plugin python launch_plugin.py
4. multimodal-PyMuPDF4LLM-llamaindex-Qdrant
- 简介:支持 PDF 文本+图像内容解析、索引与问答的示例项目。
- 核心技术:
- 文档解析:PyMuPDF4LLM 提取 PDF 图文内容
- 检索索引:LlamaIndex + Qdrant
- 前端交互:Streamlit
- 运行方式:
git clone https://github.com/toni-ramchandani/multimodal-PyMuPDF4LLM-llamaindex-Qdrant cd multimodal-PyMuPDF4LLM-llamaindex-Qdrant pip install -r requirements.txt streamlit run app.py
项目对比表格
项目名称 | GitHub 链接 | 说明 | 使用方式 |
---|---|---|---|
Multimodal-RAG-with-Llama-3.2 | 链接 | 文本+图像RAG,支持 PPT/PDF/图片 | Python + Streamlit + LlamaIndex + LLaVA |
Local_MultiModal_RAG | 链接 | 全本地化部署的图文RAG问答系统 | Python + Qdrant + llama.cpp + CLIP |
FiftyOne Multimodal Plugin | 链接 | 可视化RAG测试平台,支持策略对比 | Python + FiftyOne + LlamaIndex |
multimodal-PyMuPDF4LLM | 链接 | 图文混合索引的文档问答示例 | Python + Streamlit + PyMuPDF4LLM |
总结
多模态RAG技术通过整合多种数据模态,显著提升了AI系统的信息检索和生成能力。LlamaIndex作为一款强大的开源框架,通过支持多模态模型、嵌入、索引和评估工具,为开发者提供了构建多模态RAG系统的全面支持。其丰富的文档、博客和社区资源使得用户可以快速上手,开发适用于企业数据的知识助手。无论是处理文本、图像还是视频,LlamaIndex都展现了其在多模态RAG领域的领先地位。
关键引用:
- LlamaIndex Multi-Modal RAG Blog Post
- LlamaIndex Multi-Modal Applications Documentation
- Evaluating Multi-Modal RAG Documentation
- MultiModal RAG for Advanced Video Processing with LlamaIndex & LanceDB
- LlamaIndex on LinkedIn: Introducing RAGs v5
- NVIDIA: An Easy Introduction to Multimodal Retrieval-Augmented Generation
- LlamaIndex Official Website
- LlamaIndex Multimodal RAG in LlamaCloud
相关文章:
多模态RAG与LlamaIndex——1.deepresearch调研
摘要 关键点: 多模态RAG技术通过结合文本、图像、表格和视频等多种数据类型,扩展了传统RAG(检索增强生成)的功能。LlamaIndex是一个开源框架,支持多模态RAG,提供处理文本和图像的模型、嵌入和索引功能。研…...
C++ 命令模式详解
命令模式(Command Pattern)是一种行为设计模式,它将请求封装为对象,从而使你可以参数化客户端使用不同的请求、队列或日志请求,以及支持可撤销的操作。 核心概念 设计原则 命令模式遵循以下设计原则: 单…...

制作一款打飞机游戏47:跳转
编辑器的问题 我们开始为不同的敌人编写一些行为,到目前为止进展顺利,一切都很棒。但上次我们遇到了一些问题,我们发现在这个编辑器中编写代码有时有点困难,因为当你想要在某行之间插入内容时,你不得不删除一切然后重…...

本地部署ollama及deepseek(linux版)
一、安装ollama export OLLAMA_MIRROR"https://ghproxy.cn/https://github.com/ollama/ollama/releases/latest/download"curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|$OLLAMA_MIRROR|g" | shexport OLLAMA_MIRROR&q…...
Java Spring Boot项目目录规范示例
以下是一个典型的 Java Spring Boot 项目目录结构规范示例,结合了分层架构和模块化设计的最佳实践: text 复制 下载 src/ ├── main/ │ ├── java/ │ │ └── com/ │ │ └── example/ │ │ └── myapp/ │…...
针对共享内存和上述windows消息机制 在C++ 和qt之间的案例 进行详细举例说明
针对共享内存和上述windows消息机制 在C++ 和qt之间的案例 进行详细举例说明 以下是关于在 C++ 和 Qt 中使用共享内存(QSharedMemory)和 Windows 消息机制(SendMessage / PostMessage)进行跨线程或跨进程通信的详细示例。 🧩 使用 QSharedMemory 进行进程间通信(Qt 示例…...

vue H5解决安卓手机软键盘弹出,页面高度被顶起
开发中安卓机上遇到的软键盘弹出导致布局问题 直接上代码_ 在这里插入代码片 <div class"container"><div class"appContainer" :style"{height:isKeyboardOpen? Heights :inherit}"><p class"name"><!-- 绑定…...

CSS专题之自定义属性
前言 石匠敲击石头的第 12 次 CSS 自定义属性是现代 CSS 的一个强大特性,可以说是前端开发需知、必会的知识点,本篇文章就来好好梳理一下,如果哪里写的有问题欢迎指出。 什么是 CSS 自定义属性 CSS 自定义属性英文全称是 CSS Custom Proper…...
问题 | 当前计算机视觉迫切解决的问题
当前计算机视觉领域虽然在技术上取得了显著进展,但仍面临一系列关键挑战。结合最新研究与应用现状,以下是最迫切需要解决的几大问题: 1. 数据质量与多样性不足 高质量标注数据的获取:训练高效模型依赖大量精准标注的数据&#x…...

七、深入 Hive DDL:管理表、分区与洞察元数据
作者:IvanCodes 日期:2025年5月13日 专栏:Hive教程 内容导航 一、表的 DDL 操作 (非创建)二、分区的 DDL 操作三、洞察元数据:SHOW 命令的威力结语:DDL 与 SHOW,Hive 管理的双翼练习题一、选择题二、代码题…...
Qt6.x检查网络是否在线(与Qt 5.x不同)
Qt 5.x.x 要判断客户端网络是否联通,一般用如下方法: #include <QNetworkConfigurationManager>auto netWorkCheck new QNetworkConfigurationManager(); auto flag netWorkCheck->isOnline(); Qt 6.x.x 废弃了 QNetworkConfigurationManag…...

直接在Excel中用Python Matplotlib/Seaborn/Plotly......
本次分享如何利用pyxll包,实现直接在Excel中使用Python Matplotlib/Seaborn/Plotly等强大可视化工具。 pyxll配置 pyxll安装 pip install pyxll pyxll install pyxll自定义方法 例如,自定义一个计算斐波那契数的方法fib,并使用pyxll装饰器…...

React面试常问问题详解
以下是30个React面试中常见的问题及简要解析,涵盖基础概念、核心原理、性能优化、Hooks、状态管理等方面,适用于初中高级开发者准备面试时参考: 一、React 基础与核心概念 React 是什么? React 是由 Facebook 开发的用于构建用户界…...

【Java】网络编程(Socket)
网络编程 Socket 我们开发的网络应用程序位于应用层,TCP和UDP属于传输层协议,在应用层如何使用传输层的服务呢?在应用层和传输层之间,则使用套接字Socket来进行分离 套接字就像是传输层为应用层开的一个小口,应用程…...

思科(Cisco ASA/Firepower)、华三(H3C)、华为(Huawei USG)防火墙 的基础配置
以下是针对 思科(Cisco ASA/Firepower)、华三(H3C)、华为(Huawei USG)防火墙 的基础配置指南,涵盖 区域划分、安全策略、NAT、路由 等核心功能。配置示例基于通用场景,实际部署时需根…...
华为海思系列----昇腾张量编译器(ATC)模型转换工具----入门级使用指南(LINUX版)
由于官方SDK比较冗余且经常跨文档讲解且SDK整理的乱七八糟,对于新手来说全部看完上手成本较高,本文旨在以简短的方式介绍 CAFFE / ONNX 模型转 om 模型,并进行推理的全流程。希望能够帮助到第一次接触华为海思框架的道友们。大佬们就没必要看这种基础文章啦! 注:本…...
supabase 怎么新建项目?
在 Supabase 中新建项目主要通过官方网站的仪表盘 (Dashboard) 来完成。以下是详细步骤: 通过 Supabase 仪表盘新建项目: 注册/登录 Supabase 账户: 访问 Supabase 官网:https://supabase.com/如果你还没有账户,点击 …...

Windows环境下maven的安装与配置
1.检查JAVA_HOME环境变量 Maven是使用java开发的,所以必须知道当前系统环境中的JDK的安装目录。 搜索栏直接输入“cmd” 或者 WinR 输入cmd 在打开的终端窗口输入“echo %JAVA_HOME”,就可以看到jdk的位置了。 如果没有的话,请参考我的文章&a…...

LeetCode:513、找树左下角的值
//递归法 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right) {* t…...

Vxe UI vue vxe-table 实现表格数据分组功能,不是使用树结构,直接数据分组
Vxe UI vue vxe-table 实现表格数据分组功能,不是使用树结构,直接数据分组 查看官网:https://vxetable.cn gitbub:https://github.com/x-extends/vxe-table gitee:https://gitee.com/x-extends/vxe-table 代码 通过…...

如何禁止chrome自动更新
百度了一下 下面这个方法实测有效 目录 1、WINR 输入 services.msc 2、在Services弹窗中找到下面两个service并disable 3、验证是否禁止更新成功: 1、WINR 输入 services.msc 2、在Services弹窗中找到下面两个service并disable GoogleUpdater InternalService…...

阳光学院【2020下】计算机网络原理-A卷-试卷-期末考试试卷
一、单选题(共25分,每空1分) 1.ICMP协议工作在TCP/IP参考模型的 ( ) A.主机-网络 B.网络互联层 C.传输层 D.应用层 2.下列关于交换技术的说法中,错误的是 ( ) A.电路交换适用于突发式通信 B.报文交换不能满足实时通信 C.报文…...
Spring Boot 使用 OSHI 实现系统运行状态监控接口
在实际开发中,我们经常需要获取服务器的运行状态,例如:CPU 使用率、内存使用情况、磁盘状态、JVM 运行信息等,以便于运维监控和性能分析。本文将基于 Spring Boot OSHI 实现一个系统信息接口,可返回当前服务运行的详细…...
FastAPI+MongoDB+React实现查询博客详情功能
第一部分:FastAPI 和 MongoDB 后端 确保你的 FastAPI 应用已经配置好,并且 MongoDB 数据库已经运行。以下是完整的后端代码: # main.py from fastapi import FastAPI, HTTPException, Depends from motor.motor_asyncio import AsyncIOMotorClient from pydantic import B…...

kotlin-协程(什么是一个协程)
1.什么指一个协程对于线程来说一个thread就是就是指一个线程,thread为什么成为线程呢?因为他实现了对线程的一个抽象管理,可以管理这个线程,启动,可以查看各种信息 那么协程呢? public fun CoroutineScop…...

数组和切片的区别
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 非常期待和您一起在这个小…...

WPF内嵌其他进程的窗口
WPF内嵌其他进程窗口的常见方法有 HwndHost SetParent 和 WindowsFormsHost WinForms Panel SetParent 推荐使用自定义HwndHost 两者的对比区别 示例代码 public class MyWndHost : HwndHost {const int WS_CHILD 0x40000000;const int WS_VISIBLE 0x10000000;const i…...
阿里云购买ECS 安装redis mysql nginx jdk 部署jar 部署web
服务:ECS防火墙要开启、阿里云控制平台:网路端口安全策略要设置 阿里云服务维护 1.安装JDK 查询要安装jdk的版本,命令:yum -y list java* 命令:yum install -y java-1.8.0-openjdk.x86_64 yum install -y java-17-openjdk.x8…...

CVPR2025 | Prompt-CAM: 让视觉 Transformer 可解释以进行细粒度分析
Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis 摘要-Abstract引言-Introduction方法-Approach预备知识-PreliminariesPrompt-CAM: Prompt Class Attention Map特征识别与定位-Trait Identification and Localization变体与扩展-Variants an…...
Fabric系列 - SoftHSM 软件模拟HSM
在 fabric-ca-server 上使用软件模拟的 HSM(密码卡) 功能 安装 SoftHSMv2 教程 SoftHSMv2 默认的配置文件 /etc/softhsm2.conf默认的token目录 /var/lib/softhsm/tokens/ 初始化和启动fabric-ca-server,需要设置一个管理员用户的名称和密码 初始化令牌 # 初始…...