当前位置: 首页 > article >正文

Docling Studio 开发札记

当我开始构建 Docling Studio 时目标很简单为开发者提供一种可视化方式来检查 Docling 从文档中提取的内容。边界框、分块、元数据——你需要看到才能信任流水线的那些东西。但任何构建过 RAG 系统的人都知道真正的问题不在于提取。而在于提取之后发生的一切。你的分块在 JSON 中看起来没问题。然后你嵌入它们、索引它们、运行查询——答案却是一堆垃圾。当你盯着 OpenSearch 中的向量 ID 时祝你好运找出哪个分块出了问题。版本 0.4.0 填补了这个空白。Docling Studio 现在拥有完整的闭环Docling → 分块 → 嵌入 → OpenSearch。你可以在同一个界面中摄取、搜索、检查、编辑分块并重新嵌入——你已经可以看到文档结构的那个界面。这就是 Docling Studio 从查看器变成 RAG 流水线调试器的版本。1、核心思想拥有摄取流水线这个版本背后的架构赌注很简单。不依赖外部编排器来存储正确的元数据Docling Studio 运行自己的摄取流水线。Docling 解析文档Studio 进行分块嵌入微服务对分块进行向量化OpenSearch 索引一切——包括边界框和文档坐标。为什么这很重要因为当你能够将一个错误的搜索结果追溯到一个精确的分块在原始 PDF 页面上看到该分块高亮显示编辑文本并重新嵌入它——你就把一个 2 小时的调试会话变成了 30 秒的修复。该流水线通过幂等重新摄取进行端到端编排。重新摄取同一文档会干净地替换之前的版本。没有孤立的向量没有重复的分块。2、第四个 Studio 模式摄取Docling Studio 的工作流已经按三种模式组织——Configure、Verify、Prepare。版本 0.4.0 增加了第四个摄取Ingest。一旦你的文档分析完成一键将分块通过嵌入发送到 OpenSearch。可视化步骤跟踪器显示进度嵌入 → 索引 → 完成带有动画反馈。不需要终端不需要 curl 命令。摄取模式还包括对索引分块的全文本搜索。你有一个专用的搜索侧边栏可以查询已索引的文档并查看相关性分数——原始 BM25 分数而不是之前误导性的百分比这个问题也修复了。3、嵌入前编辑分块这是我最兴奋的功能。你现在可以内联编辑分块文本——双击一个分块修改文本保存。你还可以软删除不想索引的分块。删除的分块保留在数据中不会丢失任何东西但从 UI 中消失也不会被嵌入。这就是 RAG 调试的真正含义。你看到一个把表格标题和正文合并的分块修复它。一个分块捕获了页脚删除它。然后重新摄取。反馈循环以秒计算而不是部署周期。4、我的文档和监控新的我的文档屏幕让你可以概览系统中的所有内容。按摄取状态全部/已索引/未索引筛选按名称或日期排序一眼就能看到哪些文档已准备好哪些还没有。侧边栏底部的OpenSearch 连接指示器绿色/红色圆点每 30 秒轮询告诉你后端是否健康无需切换到其他工具。5、功能标志流水线是可选的不是每个人都需要完整的摄取堆栈。如果你只想要可视化检查功能没有任何变化——Docling Studio 完全像以前一样工作。当你设置OPENSEARCH_URL和EMBEDDING_URL时摄取流水线会被激活。当这些未配置时前端会自动隐藏所有摄取 UI。没有死按钮没有令人困惑的界面。对于确实想要完整堆栈的用户专用的docker-compose.ingestion.yml覆盖文件可以通过一个命令启动 OpenSearch、嵌入服务和所有其他组件。6、底层实现对于架构上好奇的人我想强调几点六边形架构的回报。VectorStore端口定义了契约ensure_index、index_chunks、search_similar、get_chunks、delete_document。OpenSearch 适配器实现了它。当有人要求 Qdrant 或 Weaviate 支持时只需一个新适配器——不需要重构。嵌入服务是独立的。它是一个独立的容器在 REST API 后面运行 sentence-transformers支持批处理。EmbeddingService端口和EmbeddingClientHTTP 适配器保持了解耦。换模型、换服务——Studio 不在乎。OpenSearch 映射使用 FAISS/HNSW kNN具有可配置的嵌入维度。IndexedChunk领域模型携带一切文本、向量、边界框坐标、文档引用、分块元数据。测试380 个后端测试161 个前端测试加上覆盖从 PDF 上传到分块进入 OpenSearch 的完整摄取工作流的 E2E Karate 测试。7、试试看# Quick start — visual inspection only docker pull ghcr.io/scub-france/docling-studio:0.4.0-remote docker compose up # Full stack with ingestion pipeline (opensearch embeddings) docker compose -f docker-compose.yml -f docker-compose.ingestion.yml up两种镜像变体0.4.0-remote轻量级委托给 Docling Serve和0.4.0-local完整的 Docling 进程内运行。仓库在 github.com/scub-france/Docling-Studio。Star 不错Issue 和 Fork 更好。8、接下来的计划这个版本奠定了基础。摄取流水线和分块编辑循环是接下来所有功能的构建块——并排模型比较、更智能的分块策略以及与 Docling 生态系统的更深度集成。如果你正在构建 RAG 流水线并且花太多时间想知道为什么检索效果不好试试 Docling Studio。其全部意义在于让不可见的东西变得可见。原文链接Docling Studio 开发札记 - 汇智网

相关文章:

Docling Studio 开发札记

当我开始构建 Docling Studio 时,目标很简单:为开发者提供一种可视化方式来检查 Docling 从文档中提取的内容。边界框、分块、元数据——你需要看到才能信任流水线的那些东西。 但任何构建过 RAG 系统的人都知道,真正的问题不在于提取。而在…...

软件可用性管理中的MTTR优化

软件可用性管理中的MTTR优化:提升系统可靠性的关键策略 在数字化时代,软件系统的可用性直接影响用户体验和业务连续性。平均修复时间(MTTR)是衡量系统可靠性的核心指标之一,它反映了从故障发生到问题解决所需的平均时…...

曦智科技开启招股:最高估值160亿港元 4月28日上市 阿里高瓴淡马锡加持

雷递网 雷建平 4月20日上海曦智科技股份有限公司(简称:“曦智科技”,股票代码:“01879”)今日开启招股,准备2026年4月28日在港交所上市。曦智科技发行区间为166.60港元至183.2港元,计划发售约13…...

从‘欠拟合’到‘过拟合’:手把手用AdaBoostRegressor可视化理解集成学习的拟合过程

从‘欠拟合’到‘过拟合’:用AdaBoostRegressor可视化集成学习的拟合演变 当第一次接触机器学习中的集成学习概念时,很多人会被"弱学习器组合成强学习器"的说法所困惑。究竟这些弱学习器是如何协同工作的?为什么增加学习器数量有时…...

PyQt5安装及学习

学习目标 因为毕设需要,所以今天网上学习一下。做一个建议界面,或者后续可以借鉴ai做一下。 pyqt5安装 (yolov8) PS E:\pycharm\2024.11.28open3d> pip install pyqt5-tools -i https://pypi.tuna.tsinghua.edu.cn/simple Looking in indexes: http…...

告别花屏!用Arduino TFT_eSPI库驱动SPI LCD显示中文的保姆级避坑指南

告别花屏!用Arduino TFT_eSPI库驱动SPI LCD显示中文的保姆级避坑指南 第一次点亮SPI接口的LCD屏幕时,那种兴奋感就像打开了新世界的大门。但随之而来的花屏、乱码、内存溢出等问题,又让人瞬间跌入谷底。作为过来人,我完全理解这种…...

计算机网络习题及答案

仅供参考第一章 概述1、计算机网络可以向用户提供哪些服务?答:基于互联网的连通性和共享,计算机网络可以向用户提供:①信息交换服务,如电子邮件(收发信息)、文件传输(上传和下载大文…...

保姆级教程:用Python串口和GBK编码玩转SYN6288 TTS模块(附完整代码)

Python全平台串口控制SYN6288语音合成模块实战指南 第一次听到SYN6288发出清晰的中文语音时,那种"机器开口说话"的奇妙感至今难忘。作为一款性价比极高的中文TTS模块,SYN6288通过简单的串口指令就能实现高质量的语音合成,特别适合智…...

深信服AC1000-B1200到手第一步:从开箱到激活上网的保姆级图文指南

深信服AC1000-B1200设备开箱配置全流程实战手册 当你第一次拿到深信服AC1000-B1200这台企业级网络设备时,可能会被它专业的接口阵列和指示灯搞得有些不知所措。作为一款广泛应用于企业网络边界的安全网关设备,它的初始配置确实需要一些专业指导。本文将带…...

C# 14 AOT编译Dify客户端:从.NET 8到.NET 9 Preview 5,实测启动速度提升92%的5步极简流程

第一章:C# 14 AOT编译Dify客户端:技术演进与价值定位C# 14 引入的原生AOT(Ahead-of-Time)编译能力,标志着.NET平台在云原生与边缘计算场景中迈出了关键一步。当这一能力被应用于构建Dify服务的轻量级客户端时&#xff…...

终极指南:如何用thermalmonitordDisabler解锁iPhone性能限制

终极指南:如何用thermalmonitordDisabler解锁iPhone性能限制 【免费下载链接】thermalmonitordDisabler A tool used to disable iOS daemons. 项目地址: https://gitcode.com/gh_mirrors/th/thermalmonitordDisabler 你是否曾在玩游戏时突然卡顿&#xff1f…...

理解「响应式编程」在Spring WebFlux中的应用

响应式编程在现代高并发系统中扮演着重要角色,而Spring WebFlux作为Spring生态中的响应式框架,为开发者提供了处理异步非阻塞请求的强大工具。理解响应式编程在WebFlux中的应用,不仅能提升系统性能,还能优化资源利用率。本文将围绕…...

如何免费解锁八大网盘全速下载:2025年终极直链下载助手完整指南

如何免费解锁八大网盘全速下载:2025年终极直链下载助手完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云…...

解决Leaflet加载天地图的最大痛点:突破17级缩放限制的两种实战方案

突破Leaflet中天地图17级缩放限制的工程实践 第一次在项目中集成天地图时,那种流畅的加载体验让人印象深刻——直到用户突然问:"为什么这个区域无法继续放大了?"这才发现Leaflet默认的17级缩放限制成了项目交付的绊脚石。作为国内主…...

别再纠结无损格式了!手把手教你用Foobar2000搭配ASIO/WASAPI,榨干Windows电脑的HiFi潜力

解锁PC音质天花板:Foobar2000ASIO/WASAPI实战指南 当大多数人还在纠结是否要花大价钱升级音响设备时,Windows电脑其实隐藏着未被发掘的音频潜力。通过正确的软件配置,你的普通PC也能释放出接近专业级音频设备的音质表现。本文将带你深入探索如…...

别只盯着性能!从RapidJSON和cJSON的源码设计,聊聊C/C++ JSON库的‘优雅’与‘实用’

从RapidJSON与cJSON的源码哲学,解码C/C JSON库的设计艺术 在技术选型时,我们常常被性能指标和功能列表所吸引,却忽略了背后更为重要的设计哲学。RapidJSON和cJSON作为C/C领域最具代表性的两个JSON库,它们的差异远不止于性能数据表…...

ODM(原始设计制造商)模式,本质上是“赚辛苦钱

结合你掌握的信息(ODM模式、大小周、整机等),以下是从职业发展、行业环境、公司治理三个维度的批判性分析与建议: 1. 业务模式的“护城河”与“天花板” (ODM vs. 自有品牌) 批判性分析:ODM(原始设计制造商)模式,本质上是“赚辛苦钱”。虽然公司想做“整机”,但如果没…...

2026跨行业通吃的经管类证书。

先说明一下,这篇文章是我自己这几年在经管专业学习和求职过程中接触到的一些信息整理,每个人情况不同,我说的不一定对,仅供你参考。经管类专业有个特点——看起来就业面很广,银行、互联网、快消、咨询、公务员都能试试…...

Linux环境搭建及基础指令

Xshell 登录主机打开Xshell后, 输入指令 ssh root[自己云服务器的公网地址]输入登录名(一般就是root)及密码后, 看到以上提示, 就说明登陆成功啦!Xshell下的复制粘贴复制: Ctrll Fn insert粘贴: shift Fn insertLinux下的基本指令在学习具体指令前, 得先创建一个框架, 才能…...

杰理SDK开发-杰理之家-实现清除手机APP用户配置功能、重置参数

前言现在为止也开发了许多杰理TWS蓝牙耳机、音响项目SDK的案子,在调试案子时不断的向前辈们学习到了很多关于蓝牙音响、蓝牙TWS耳机专业的知识。想在这里做一个学习汇总,方便各位同行和对杰理芯片SDK感兴趣的小伙伴们学习;本章详细讲解杰理SD…...

Dify 2026缓存机制升级全解析,为什么你的Agent响应慢了3.8倍?(附12个真实压测对比数据)

第一章:Dify 2026缓存机制升级的核心动因与架构演进 Dify 2026 的缓存机制重构并非简单性能调优,而是面向多租户大模型应用平台在高并发、低延迟、强一致性场景下的系统性演进。随着用户侧 RAG 流程平均响应时间突破 850ms,以及 LLM 编排链路…...

Elasticsearch 实战:使用 boost 参数提高字段相关性得分(全文检索权重优化)

Elasticsearch 实战:使用 boost 参数提高字段相关性得分(全文检索权重优化)前言Elasticsearch boost 参数:提高字段相关性权重完整实战一、核心概念:boost 参数是什么?1.1 定义1.2 作用1.3 boost 工作流程图…...

跨境社媒运营别只盯热点 真正能沉淀价值的是栏目化输出

很多团队做跨境社媒时,最容易形成一种惯性: 看到热点就追,看到同行起量就拆,看到某种内容形式火了就立刻跟上。这种方式前期确实有效。 因为热点自带关注度,借势也更容易拿到第一波流量。 但问题是,热点能解…...

csdn_article

南京邮电大学电子装配实习:从原理图到实物,全流程实战记录📅 实习时间:2026年春季 🏫 学校:南京邮电大学 📂 项目:数据中心温湿度监测系统(ESP8266 DHT11 OLED&#xf…...

【Dify 2026微调实战白皮书】:首发业内唯一支持LoRA+QLoRA+Adapter三模协同的端到端微调框架

第一章:Dify 2026微调框架全景概览Dify 2026 是面向企业级大模型应用落地的下一代低代码微调框架,聚焦于“可解释性微调”与“多粒度适配”两大核心能力。它不再将微调视为黑盒参数更新过程,而是通过声明式配置、运行时干预和反馈闭环机制&am…...

第216章 终极问题的代价(悦儿)

实验室的寂静不同于任何她曾经历过的寂静。这不是缺乏声音的寂静,而是某种更深层的东西——仿佛宇宙本身在此屏息凝神。悦儿独自站在环形控制室的中央,周围是由全息界面构成的穹顶,无数发光的数据流如瀑布般倾泻而下,又似星河般缓…...

Dify SaaS厂商紧急升级通知:2024Q3起强制要求租户数据物理隔离,你的Dify部署达标了吗?

第一章:Dify SaaS厂商紧急升级通知背景与合规动因近期,多家头部Dify SaaS服务提供商向客户同步发布《紧急安全与合规升级通知》,要求所有租户在2024年Q3前完成平台版本升级至v0.12.3。此次升级并非常规功能迭代,而是响应国家网信办…...

把 ABAP 变体真正用活,动态保存、加载与删除的一套做法

报表开发里,最容易被低估的一层能力 做 ABAP 报表开发时,我们几乎天天都在和选择屏幕打交道。航司、公司代码、过账日期、工厂、销售组织,这些条件输一次不难,难的是天天输、月月输、每个批作业都输一遍。SAP 里所谓的变体,也就是 variant,本质上就是把某一组选择条件保…...

X-World:小鹏面向规模化端到端自动驾驶的可控自车中心多相机世界模型

「自车中心、纯环视、全层级文本可控」 目录 01 研究背景:端到端自动驾驶世界模型的现存痛点 02 X-World核心创新点:重构自动驾驶世界模型的技术范式 1. 纯量产相机驱动,自车中心多视角几何一致性建模 2. 流式自回归生成架构,…...

因果AI:用户增长领域的“决策透视镜”

因果AI:用户增长领域的“决策透视镜” 引言:从相关性到因果性,用户增长的新范式 在用户增长领域,我们长期依赖A/B测试和相关分析来指导决策。然而,相关不等于因果。你是否曾遇到过这些困境? 给所有沉默用…...