当前位置: 首页 > article >正文

Correlations氛围测试:文本或图像的相似度热图

1 项目概览:Correlations 是什么?

Correlations 是一个交互式 UI 工具,Jina AI 开源项目 Correlations
用于调试和可视化文本或图像向量之间的相似性关系,特别适合:快速把相关内容两两对照,比单纯数字报告更直观。Correlations 把这种快速、主观“氛围检视”做成了可视化工具,并允许继续深挖定量指标。在大模型时代,这种把“定性直觉”与“定量分析”无缝衔接的工具,会成为 Embedding / RAG / 多模态系统调试的常用武器。

典型使用场景

  • ✅ 向量模型调试(如文本 embedding 模型)技术博客 vs 论文内容对齐 – 一条明显的对角线 = 两份材料块级对应复用高。
  • ✅ RAG 引文核查 – 把“生成答案声明”与“检索段落”做二部矩阵,高分块应落在选区内,否则提示幻觉。
  • ✅ 内容分块策略评估(如 Late Chunking)Late-Chunking 策略验证 – 同一文档不同分块法的自相关热图呈现不同“方格”纹理,可直观看出上下文破碎与否
  • ✅ 多模态向量(图文检索)对齐分析。跨模态 (图-文) 关联 – 配合 jina-clip-v2,鼠标悬停即显示原图;可检查图片与 alt 文本、商品描述是否匹配。
  • ✅ Embedding 的氛围测试(vibe-check)——可视化第一眼看相似与否

它的本质是将两个嵌入向量集合之间的**余弦相似度矩阵(Cosine Similarity Matrix)**渲染为一个热图,并提供丰富的交互功能让你“用肉眼判断”相似性结构。

1.1 核心原理

你已经有了一份或两份嵌入(embedding)向量文件 JSONL 格式:

{"chunk": "文本块1", "embedding": [0.12, 0.45, ...]}
{"chunk": "文本块2", "embedding": [0.33, 0.66, ...]}
...

这些向量一般由文本或图像编码器(如 BERT、GTE、CLIP)生成,维度通常是 384、768、1024 之类。

我们要做的事情是:

把所有内容块之间的相似度计算出来,并用热图呈现出来。

假设我们有两个 JSONL 文件:

  • A.jsonl:原文内容 → 生成了 m 个向量
  • B.jsonl:摘要或目标内容 → 生成了 n 个向量

每个向量维度为 d,则可以组成两个矩阵:

符号维度含义
Am × d原文块的向量矩阵,每行是一个向量
Bn × d摘要块的向量矩阵,每行是一个向量

如果只有一个文件(自相关热图),那就令 B = A

余弦相似度的定义

对于两个向量 a i , b j \mathbf{a}_i, \mathbf{b}_j ai,bj,它们的余弦相似度定义为:

S i j = a i ⋅ b j ∥ a i ∥ ⋅ ∥ b j ∥ S_{ij} = \frac{ \mathbf{a}_i \cdot \mathbf{b}_j }{ \|\mathbf{a}_i\| \cdot \|\mathbf{b}_j\| } Sij=aib

相关文章:

Correlations氛围测试:文本或图像的相似度热图

1 项目概览:Correlations 是什么? Correlations 是一个交互式 UI 工具,Jina AI 开源项目 Correlations 用于调试和可视化文本或图像向量之间的相似性关系,特别适合:快速把相关内容两两对照,比单纯数字报告更直观。Correlations 把这种快速、主观“氛围检视”做成了可视化…...

从0到1:多医院陪诊小程序开发笔记(上)

概要设计 医院陪诊预约小程序:随着移动互联网的普及,越来越多的医院陪诊服务开始向线上转型, 传统的预约方式往往效率低下,用户需耗费大量时间进行电话预约或现场排队,陪诊服务预约小程序集多种服务于一体,可以提高服…...

建立连接后 TCP 请求卡住

大家读完觉得有意义记得关注和点赞!!! 这篇文章描述了一个内核和BPF网络问题 以及故障排除步骤,这是一个值得深入研究的有趣案例 Linux 内核网络复杂性。 目录 1 故障报告 1.1 现象:概率健康检查失败 1.2 范围&am…...

尚硅谷redis7 99 springboot整合redis之连接集群

6381宕机,手动shutdown后在redis中,634自动上位变成master结点。 但是在springboot中却没有动态感知道redisCluster的最新集群消息,所以找不到我们要检索的数据。原因是:SpringBoot 2.X版本,Redis默认的连接池采用 Lettuce&#…...

hive 笔记

1. 查看hive表的文件情况 搭建ui界面机器上查看 show create table xxx;得到文件地址 hdfs查看文件情况 hdfs dfs -ls hdfs://HDFS4005133/usr/hive/warehouse/xxx/xxxx/app_idxxx...

无线通信模块简介

QuecPython 是运行在无线通信模块上的开发框架。对于首次接触物联网开发的用户而言,无线通信模块可能是一个相对陌生的概念。本文主要针对无线通信和蜂窝网络本身,以及模块的概念、特性和开发方式进行简要的介绍。 无线通信和蜂窝网络 物联网对无线通信…...

Go语言之空接口与类型断言

Go 语言中,接口是一种强大的抽象机制。其中,空接口(interface{})和类型断言为我们提供了处理任意类型与类型检查的能力。 一、空接口(interface{}) 空接口是 Go 中最特殊的接口:不包含任何方法…...

把 CURSOR 的工具活动栏改成和 VSCODE 一样的左侧展示

目前使用cursor的时候发现工具栏与vscode的布局不一致,cursor在顶部导致操作起来不方便,如何改成与vscode相同的左侧布局展示。 解决方案 文件→首选项→设置,进入设置中,然后点击这个icon图标,可以打开配置文件 se…...

碰一碰系统源码搭建==saas系统

搭建“碰一碰”系统(通常指基于NFC或蓝牙的短距离交互功能)的源码实现,需结合具体技术栈和功能需求。以下是关键步骤和示例代码: 技术选型 NFC模式:适用于Android/iOS设备的近场通信,需处理NDEF协议。蓝牙…...

不加载PHP OpenTelemetry SDK实现Trace‌与Logs

目录 前言一、回到OpenTelemetry原理看问题1、数据接收(Receivers)2、数据处理(Processors)3、数据导出(Exporters) 二、不加载OpenTelemetry SDK实现Trace‌与Logs示例 前言 前面两篇我们分别介绍了OpenT…...

Three.js搭建小米SU7三维汽车实战(6)颜色切换

颜色切换 接下来我们来实现懂车帝的颜色切换效果 可以让ai帮我们生成页面结构以及样式,注意changeCarBodyColor这个函数需要我们自己来写 // 创建颜色选择器UI function createColorSelector() {const colors [{ name: "深海蓝", hex: "#1A9CB0&qu…...

mysql慢sql的实际处理方案之一

复习mysql架构图 当大批量慢sql过来,显然就是占用了线程池的链接,然后长久不释放,所以会出现线程池满的问题,致使正常业务sql也全部阻塞,影响整个业务。 AI搜索如下: 可以考虑一种方案: 将线…...

GitLab 18.0 正式发布,15.0 将不再受技术支持,须升级【六】

GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 官网极狐…...

c/c++的opencv车牌识别

OpenCV 安装: 你需要正确安装 OpenCV 库。Tesseract OCR 安装: 你需要安装 Tesseract OCR 引擎。在 Ubuntu/Debian 上,可以使用:sudo apt-get install tesseract-ocr sudo apt-get install libtesseract-dev sudo apt-get install…...

4.2.3 Spark SQL 手动指定数据源

在本节实战中,我们学习了如何在Spark SQL中手动指定数据源以及如何使用format()和option()方法。通过案例演示,我们读取了不同格式的数据文件,包括CSV、JSON,并从JDBC数据源读取数据,展示了如何将这些数据转换为DataFr…...

【论文解读】CVPR2023 PoseFormerV2:3D人体姿态估计(附论文地址)

论文链接:https://arxiv.org/pdf/2303.17472 源码链接:https://github.com/QitaoZhao/PoseFormerV2 Abstract 本文提出了 PoseFormerV2,通过探索频率域来提高 3D 人体姿态估计的效率和鲁棒性。PoseFormerV2 利用离散余弦变换(DC…...

WPF的交互核心:命令系统(ICommand)

命令系统(ICommand) 1 RelayCommand实现2 CanExecute控制按钮可用性3 参数传递(CommandParameter)3.1 静态参数绑定:3.2 动态参数绑定:3.3 复杂对象参数: 4 异步命令实现5 常见问题排查 WPF的命…...

Maven工程演示

软件:idea 一、项目创建 操作截图file -> New -> Projectnextnext -> Name:工程名称;Location:项目路径;项目创建完成;文件夹基本样例:(如果不完整自己创建即可)MANIFEST.MF内容 二、导入依赖 …...

uniapp分包配置,uniapp设置subPackages

在使用uniapp开发过程中,由于项目比较大,无法直接上传,需要分包后才可以上传。 步骤: 1、在pages同级目录下创建分包的目录(pages_second),把要分包的文件放到该目录下; 2、在pag…...

计算机网络 HTTP篇常见面试题总结

HTTP各版本区别 HTTP 1.0 无状态、无连接:每次请求都需要建立新的 TCP,处理完后立即关闭,导致开销较大。队头阻塞:每个请求必须按照顺序依次处理,前面的请求未完成,后面的请求只能等待,减低了…...

C++八股 —— 手撕线程池

文章目录 一、背景二、线程池实现1. 任务队列和工作线程2. 构造和析构函数3. 添加任务函数4. 完整代码 三、阻塞队列实现1. 基础队列2. 升级版队列 四、测试代码五、相关问题六、其他实现方式 来自:华为C一面:手撕线程池_哔哩哔哩_bilibili 华为海思&am…...

RPA如何支持跨平台和跨浏览器的自动化

RPA,即机器人流程自动化(Robotic Process Automation),正日益成为企业实现业务流程高效自动化的关键技术。在复杂的数字化环境中,跨平台和跨浏览器的自动化需求极为迫切,RPA 通过多种技术手段和策略来满足这…...

【笔记】Windows 成功部署 Suna 开源的通用人工智能代理项目部署日志

#工作记录 本地部署运行截图 kortix-ai/suna: Suna - 开源通用 AI 代理 项目概述 Suna 是一个完全开源的 AI 助手,通过自然对话帮助用户轻松完成研究、数据分析等日常任务。它结合了强大的功能和直观的界面,能够理解用户需求并提供结果。其强…...

关于ffplay在macos上运行奔溃的问题

这个问题大概是由于 MacOS 的问题引起的,奔溃的地方在 SDL2 的代码中,如果直接使用 brew 安装 SDL2就会遇到这个问题,所以需要修改 SDL2源码然后再编译安装。 我这里采用的是 origin/release-2.28.x 分支,修改部分如下&#xff1…...

Linux531rsync定时同步 再回忆

rsync定时同步 环境配置 关闭防火墙,selinux systemctl stop firewalld systemctl disable firewall setenforce 0 cat /etc/selinux/configpei SELINUXdisable设置主机名 systemctl set-hostname code systemctl set-hostname backup设置静态IP rsync由于要设…...

Elasticsearch 分析器介绍

在 Elasticsearch 的世界里,构建高效搜索引擎的关键一环,便是透彻理解分析器(Analyzer)的工作机制。一个优秀的搜索引擎,能够精准地返回与用户查询紧密相关的文档,而这背后,正是分析器在默默发挥着核心作用。它不仅负责处理待索引的文档,还在用户发起查询时,智能评估哪…...

【KWDB 创作者计划】_探秘浪潮KWDB数据库:从时间索引到前沿技术

探秘浪潮KWDB数据库:从时间索引到前沿技术 文章目录 探秘浪潮KWDB数据库:从时间索引到前沿技术引言1.浪潮KWDB数据库时间索引深度解析1.1时间索引工作原理1.2时间索引创建与管理实践 2.浪潮KWDB数据库前沿产品技术纵览2.1多模融合存储引擎2.2就地计算技术…...

安卓逆向篇LSP 模块HOOK 添加技术绕过检测算法解密逻辑验证

前置解释: 0 、 Magisk : 是当前 Android 社区用来获取 root 权限的主流方式开源工具 1 、 LSP 框架: XPosed 框架因只支持安卓 8 及以下,故高版本应使用 MagiskLSPosed 2 、 HOOK 技术: 钩子技术&…...

【SQL】关键字

ORDER BY ORDER BY(排序) 语句可以按照一个或多个列的值进行升序(ASC)或降序(DESC)排序。 MAX / MIN MAX() 函数返回一组值中的最大值。这个函数常用于数字字段,但也可以用于文本字段来找出按字典顺序最后的元素。 …...

第一节 51单片机概述

目录 一、单片机系统组成 (一)、单片机硬件系统 (二)单片机的软件系统 二、STC89C52单片机 (1)、基本信息 (2)、命名规则 (3)、单片机内部结构图 &am…...