当前位置：首页 > article >正文

PaveBench：一个用于路面病害感知与交互式视觉语言分析的多功能基准

article 2026/4/6 12:38:00

作者Dexiang Li, Zhenning Che, Haijun Zhang∗, Dongliang Zhou∗, Zhao Zhang, Yahong Han∗ 通讯作者https://arxiv.org/pdf/2604.02804v1摘要路面状况评估对道路安全与养护至关重要。现有研究已取得显著进展。然而大多数研究侧重于分类、检测和分割等传统计算机视觉任务。在实际应用中路面检测不仅需要视觉识别还需要定量分析、解释和交互式决策支持。当前数据集存在局限性它们侧重于单模态感知缺乏对多轮交互和基于事实的推理的支持也未将感知与视觉语言分析相连接。为解决这些局限性我们引入了PaveBench这是一个大规模基准用于基于真实高速公路检测图像的路面病害感知与交互式视觉语言分析。PaveBench支持四项核心任务分类、目标检测、语义分割和视觉语言问答。它提供了统一的任务定义和评估协议。在视觉方面PaveBench提供了大规模标注并包含一个精心策划的强干扰子集用于鲁棒性评估。它包含大量真实路面图像。在多模态方面我们引入了PaveVQA一个真实图像问答数据集支持单轮、多轮和专家修正的交互。它涵盖识别、定位、定量估计和养护推理。我们评估了多种最先进的方法并提供了详细分析。我们还提出了一种简单有效的智能体增强视觉问答框架将领域特定模型作为工具与视觉语言模型集成。数据集地址https://huggingface.co/datasets/MML-Group/PaveBench。关键词智能体增强VLM基准路面病害感知视觉语言模型1. 引言 (Introduction)道路网络对现代社会至关重要。其路面状况直接影响安全性、通行效率与养护成本。随着道路基础设施老化和交通需求持续增长可扩展且可靠的路面检测变得日益重要。现有研究已取得相当进展但仍主要集中于分类、检测和分割等传统计算机视觉任务。然而在实际场景中路面检测不仅需要视觉识别还需要定量分析、解释说明和交互式决策支持。因此路面评估应超越纯粹的视觉识别问题。数据集是路面病害感知研究的基础因为它们定义了任务范围并引导研究方向。然而大多数现有数据集和研究侧重于视觉识别尤其是它们不支持更丰富的分析或交互能力。早期数据集如CFD[34] 和CRACK500[40]仅限于单一类型的裂缝检测与分割。后期数据集如RDD2022[2]扩展了类别覆盖范围但不支持分割级标注。为统一多项视觉任务PaveDistress[24] 被提出但它仍局限于单模态设置不支持视觉-语言交互。与此同时通用视觉语言模型VLM近年来发展迅速严重依赖COCO[18] 和LLaVA-Instruct[21] 等大规模数据集。然而由于这些数据集主要从互联网收集它们对路面病害分析所需的专业概念和细粒度理解覆盖有限。作为应对RoadBench[38] 是该领域早期的多模态基准但它依赖合成图像缺乏分割级标注且仅支持粗粒度描述而非丰富的问答QA。总体而言当前数据集存在三个主要局限性i不支持基于真实世界采集路面图像的自然视觉语言交互ii缺乏多轮对话和基于事实推理的标注iii未提供连贯的数据基础以连接专用感知任务与后续的语言分析。为解决这些局限性我们引入了PaveBench一个用于真实高速公路检测图像的路面病害感知与交互式视觉语言分析的多功能基准。据我们所知这是该领域首个统一视觉感知与多模态推理的基准填补了图1所示的传统路面病害方法与通用VLM之间的空白。具体而言PaveBench涵盖四项核心任务分类、目标检测、语义分割和视觉语言问答。它还提供统一的任务定义和评估协议以支持一致评估并促进未来研究。在视觉方面我们在自上而下的正射图像上提供大规模标注保留了几何保真度并保留了具有挑战性的强干扰案例。据我们所知PaveBench涵盖了该领域最大规模的真实路面图像集合。在多模态方面我们引入了PaveVQA这是最大的路面病害分析真实图像问答数据集支持单轮、多轮和专家修正对话涵盖识别、定位、定量估计和面向养护的推理。它们共同为视觉引导的多步诊断分析建立了统一基础。针对所有四项任务我们对多个先进基线进行了实验并提供了相应的评估指标与分析。为进一步支持新引入的分析任务我们提出了一种简单有效的智能体增强视觉问答VQA框架该框架将领域特定视觉工具与VLM原生集成。本文的主要贡献总结如下我们引入了PaveBench一个大规模真实世界路面病害分析基准。它提供了分类、检测和分割的统一标注并包含一个精心策划的强干扰子集用于复杂场景下的鲁棒性评估。我们构建了最大的路面病害检测真实图像问答基准。它包含单轮、多轮和专家修正交互支持关于病害存在性、类型、位置、严重程度、定量测量和养护建议的查询。我们提出了一种简单有效的智能体增强VQA框架。它将领域特定视觉工具与VLM集成减少了数值幻觉提高了交互式诊断的透明度。2. 相关工作 (Related Work)本节回顾了路面病害识别数据集和用于交互式分析的视觉语言数据集的相关研究涵盖感知与推理的互补方面。路面病害识别数据集路面病害感知长期由任务特定的视觉数据集驱动。早期基准如AigleRN[1]、CFD[34]、CrackTree260[46] 和CRACK500[40]主要侧重于裂缝分割作为细粒度结构提取的基准。然而这些数据集专注于单一类别病害仅部分反映实际检测场景。后期数据集扩展至多类别病害识别与检测以更好贴合实际需求。特别是GAPs[8] 引入了沥青路面的结构化标注而RDD系列[2, 27, 28] 扩展了类别覆盖和数据集规模。然而这些数据集大多基于斜视或街景图像仅提供图像级或边界框标注限制了几何精确分析和像素级推理。更新的数据集如PaveDistress[24]转向高分辨率语义分割但仍局限于单模态视觉感知。相比之下PaveBench将像素级标注与视觉语言分析耦合支持精确量化与高级诊断推理。用于交互式分析的视觉语言数据集视觉语言学习的最新进展由大规模指令与问答数据集驱动包括通用资源如LLaVA-Instruct[21]和领域特定基准如ChartQA[30]、SLAKE[19]、PMC-VQA[45] 和LLaVA-Med[15]。这些工作突显了领域特定监督对专业分析的重要性。在此基础上多模态系统正从被动回答演变为交互式推理与工具使用如ReAct[41]、Visual ChatGPT[37]、VisProg[9] 和ToolVQA[42] 等框架所示。然而尽管取得了这些进展路面领域仍缺乏一个联合支持密集感知、精确定量问答和多轮交互的真实图像基准。虽然RoadBench[38] 是初步尝试但它依赖合成图像在标注粒度和交互深度上仍受限。相比之下PaveBench统一了真实图像感知标注与单/多轮、定量及专家修正问答为视觉引导的交互式路面分析建立了基准。3. PaveBench 数据集 (PaveBench Dataset)本节介绍PaveBench的构建过程。我们描述数据采集流程、多任务视觉标注管线、强干扰样本的识别、PaveVQA的构建以及整体数据集统计信息与现有基准的对比。3.1 数据采集与收集 (Data Acquisition and Collection)原始路面图像在中国辽宁省使用以80 km/h80 \text{ km/h}80km/h行驶的高速公路检测车采集。如图2(a)所示该系统配备高分辨率线扫描相机在行驶过程中捕获垂直正射自上而下视图。该成像设置保留了路面病害的几何属性如裂缝宽度和长度支持可靠的下游量化。采集的数据覆盖多样且具有挑战性的场景包括阴影、污渍和变化的光照条件。为提高视觉质量原始连续扫描图像进一步经过标准管线处理包括去噪、锐化、对比度增强和直方图均衡化如图2(b)所示。这些步骤增强了病害的可见性并降低了背景噪声生成了高质量的图像块用于后续标注与分析。3.2 多任务标注与强干扰样本策划 (Multi-Task Annotation and Hard Distractor Curation)本子节介绍数据集构建的两个关键方面多任务标注管线和真实路面场景中观察到的强干扰样本策划。多任务标注如图2©所示所有图像通过涵盖分类、检测和分割的分层管线进行标注。分类标签由多名标注员交叉验证检测框使用LabelMe标注。对于像素级分割四名领域专家在Photoshop中手动绘制高保真掩码平均每张图像约十分钟复杂的网状裂缝最长可达一小时。所有标注均通过多阶段专家验证流程进一步审查以确保标签一致性和边界准确性。强干扰样本策划在标注过程中我们发现真实病害常与视觉上混淆的背景模式共存如路面污渍和阴影。这些模式容易被误认为真实病害区域从而充当强干扰样本。PaveBench未删除此类案例而是将其明确分类并保留为挑战性样本用于鲁棒性评估。该设计使基准更贴近现实并鼓励模型区分结构性病害与表面视觉噪声。3.3 PaveVQA 构建与质量控制 (PaveVQA Construction and Quality Control)为在保证数据质量的同时大规模构建PaveVQA我们开发了一种结构化管线用于生成基于事实且低幻觉的对话如图3所示。该管线将视觉标注、结构化元数据与基于大语言模型LLM的生成整合为统一框架。问题设计与结构化元数据我们首先设计了一个反映实际检测需求的问题池包括存在性验证、分类、定位、定量分析、严重程度评估和养护建议。为支持可靠量化高保真视觉标注被转换为结构化JSON元数据。该元数据显式编码几何属性如边界框坐标、像素面积和骨架长度为下游推理提供可验证证据而非依赖隐式视觉表示。对话生成在生成阶段原始图像、结构化元数据和手动设计的提示模板被共同输入至ChatGPT-5以生成多样化交互。如图3所示生成的数据涵盖多种问题类型包括分类、量化、定位和面向养护的推理。对于每张图像该管线生成10个单轮问题和2轮多轮对话产生约20个问答对。质量控制为进一步提高可靠性我们引入了关于不存在病害的负向查询特别是针对负样本鼓励模型明确拒绝错误前提。此外构建了对抗性和纠错对以暴露潜在的推理失败。最后所有生成样本均由路面领域专家通过人在回路human-in-the-loop流程进行审查以纠正逻辑不一致性并确保领域保真度。3.4 数据集统计与分析 (Dataset Statistics and Analysis)PaveBench的统计信息汇总于图4。如图4(a)所示视觉子集包含20,12420,12420,124张高分辨率512×512512 \times 512512×512图像。类别分布自然不平衡反映了真实高速公路状况严重病害罕见但关键。这种不平衡对模型检测稀疏但重要的缺陷构成了真实挑战。对于视觉语言组件PaveVQA包含32,16032,16032,160个问答对10,05010,05010,050个单轮查询、20,10020,10020,100个多轮交互和2,0102,0102,010个纠错对。为系统评估不同能力问题被组织为4个主要任务和14个细粒度子类别如图4(b)所示。这种结构化设计支持从基础感知到定量分析和决策导向推理的多层次评估。此外图4©展示了前10类路面干扰项的分布。此处AC、LC和TC分别表示网状裂缝、纵向裂缝和横向裂缝。干扰项常与这些路面病害共存于同一图像中且形态高度相似构成了细粒度判别与鲁棒性评估的极具挑战性的测试床。总体而言这些统计数据表明PaveBench反映了真实路面场景并对视觉感知与多模态推理均提出了非平凡挑战。3.5 与现有基准的对比 (Comparison with Existing Benchmarks)表1将PaveBench与代表性路面数据集进行了对比。早期基准如CFD和CRACK500专注于单一病害分割。后期数据集包括RDD系列扩展至多病害类别但主要提供斜视图像的边界框标注限制了几何精确分析。近期工作尝试扩展任务覆盖范围。PaveDistress在自上而下设置下统一了分类、检测和分割但仍局限于单模态感知。RoadBench引入了语言监督但依赖合成图像不支持细粒度分割或交互式对话。相比之下PaveBench被设计为连接视觉感知与视觉语言分析的统一基准。它提供20,12420,12420,124张真实自上而下图像具有一致的分类、检测和分割标注支持几何感知评估。超越视觉任务它集成了多模态能力包括定量问答、多轮对话和专家验证的纠错。这种组合使PaveBench能够在单一框架内同时支持精确视觉理解与交互式推理。表1现有路面与裂缝基准与 PaveBench 的对比注†表示RoadBench中的所有图像均为合成生成而非从真实场景采集。数据集视角类别图像数量视觉感知视觉语言分析分类检测分割单轮多轮定量问答专家校正AigleRN [1]斜视仅裂缝38✗✓✗✗✗CFD [34]斜视仅裂缝118✗✗✓✗✗✗✗CRKWH100 [23]俯视仅裂缝100✗✗✓✗✗✗✗CrackTree260 [23]斜视仅裂缝260✗✗✓✗✗✗✗CrackLS315 [46]俯视仅裂缝315✗✗✓✗✗✗✗GAPs384 [8]俯视仅裂缝384✗✗✓✗✗✗✗CRACK500 [40]斜视仅裂缝500✗✗✓✗✗✗✗DeepCrack [23]混合仅裂缝537✗✗✓✗✗✗✗Kaggle11k [13]混合仅裂缝11,298✗✗✓✗✗✗✗GAPs [8]俯视多类别1,969✗✓✗✗✗✗✗RDD2019 [28]斜视多类别9,053✓✓✗✗✗✗✗RDD2020 [27]斜视多类别26,620✓✓✗✗✗✗PID [29]混合多类别7,237✓✓✗✗✗✗✗RDD2022 [2]斜视多类别47,420✗✓✗✗✗✗✗PaveDistress [24]俯视多类别6,032✓✓✓✗✗✗✗RoadBench [38]斜视多类别100,000 †✗✓✗✓✗✓✗PaveBench (ours)俯视多类别20,124✓✓✓✓✓✓✓† 注RoadBench 中的所有图像均为合成生成而非从真实场景采集。4. 基准与实验 (Benchmark and Experiments)本节在视觉感知和多模态VQA任务上评估PaveBench。我们首先在4.1节描述评估协议然后在4.2节报告分类、检测和分割结果随后在4.3节进行VQA评估。最后在4.4节提出一种将感知模型与VLM集成的智能体增强框架以实现更可靠的分析。4.1 评估协议 (Evaluation Protocol)我们在三种互补设置下评估PaveBench视觉感知、交互式VQA和智能体增强VQA。视觉基准涵盖真实路面图像上的图像级分类、实例级检测和像素级分割。VQA基准评估VLM在面向病害的查询上的表现。我们进一步引入智能体增强设置其中VLM配备专用视觉工具以生成严格基于视觉的响应。视觉感知指标遵循标准评估协议[7]我们使用Top-1准确率Acc.Acc.Acc.、宏平均精确率Prec.Prec.Prec.、召回率Rec.Rec.Rec.和F1F1F1分数评估图像分类。目标检测使用标准COCO指标[18]评估包括mAPmAPmAP、AP50AP_{50}AP50、AP75AP_{75}AP75和平均召回率ARARAR。对于语义分割我们使用平均精确率mPrec.mPrec.mPrec.、平均召回率mRec.mRec.mRec.、平均F1F1F1mF1mF1mF1和mIoUmIoUmIoU[6] 衡量形态保真度。多模态VQA指标为评估推理与量化能力我们为VQA任务设计了双指标评估方案。对于严格的数值和事实查询我们采用基于答案格式的特定任务指标针对病害存在性和类型的分类查询使用分类准确率针对短文本空间描述使用定位词元F1F1F1Token-F1针对像素级数值估计如裂缝长度和面积使用分割量化MAEMAEMAE。对于描述性响应包括严重程度评估和养护建议我们采用标准文本生成指标包括ROUGE−LROUGE-LROUGE−L[17]、BLEUBLEUBLEU[32]、METEORMETEORMETEOR[4] 和BERTScoreBERTScoreBERTScore[44]。相同的评估协议应用于微调后的VLM和智能体增强设置。4.2 视觉感知评估 (Visual Perception Evaluation)我们首先将PaveBench评估为视觉感知基准以确立其理解基础路面病害的价值。如表2、3和4总结现代架构在分类、检测和分割上均取得竞争性结果表明PaveBench在图像、实例和像素级别提供了可靠的监督。同时该基准仍具挑战性。表现最佳的模型达到92.27%92.27\%92.27%准确率、71.84%71.84\%71.84%mAPmAPmAP和76.0%76.0\%76.0%mIoUmIoUmIoU在精确检测和细粒度分割方面仍有明显改进空间。这种难度主要源于复杂的真实场景其中路面病害常与强干扰如阴影和污渍共存。这些因素引入了显著的视觉模糊性使得区分真实结构性病害与混淆的背景模式变得困难。总体而言结果表明PaveBench既是一个统一的多任务基准也是一个用于鲁棒路面病害感知的高难度测试床。表2PaveBench 上的分类性能对比方法Acc.Acc.Acc.(↑\uparrow↑)Prec.Prec.Prec.(↑\uparrow↑)Rec.Rec.Rec.(↑\uparrow↑)F1F1F1(↑\uparrow↑)ConvNeXt v2[36]91.1991.0891.1991.04FASTERVIT[10]87.3687.4087.3687.03TinyNeXt[43]90.7890.7490.8890.71LSNet[35]88.8088.6688.7888.54OverLoCK-T[25]93.8193.8193.8193.76表3PaveBench 上的检测性能对比方法mAPmAPmAP(↑\uparrow↑)AP50AP_{50}AP50(↑\uparrow↑)AP75AP_{75}AP75(↑\uparrow↑)ARARAR(↑\uparrow↑)YOLO26[33]64.5283.6068.5374.76RemDet[16]68.3073.8062.1077.77MI-DETR[31]64.8072.9666.9687.70DEIM[12]71.8485.8776.9189.82表4PaveBench 上的分割性能对比方法mPrec.mPrec.mPrec.(↑\uparrow↑)mRec.mRec.mRec.(↑\uparrow↑)mF1mF1mF1(↑\uparrow↑)mIoUmIoUmIoU(↑\uparrow↑)DeepLabV3[5]70.2669.5769.7954.10SegFormer[39]69.6966.6170.5955.44SOSNet[22]70.0270.1869.9254.85SCSegamba[20]71.8070.7871.1856.594.3 多模态 VQA 评估 (Multimodal VQA Evaluation)我们使用三个视觉语言模型在PaveBench上评估多模态VQA性能Qwen2.5-VL[3]、DeepSeek-VL2[26] 和LLaVA-OneVision[14]。尽管这些模型展现了强大的通用视觉-语言能力但它们与路面病害分析的结构化分类体系、推理要求和量化需求对齐不佳。为弥补这一差距我们在PaveVQA训练集上应用了低秩自适应LoRA[11]。这种参数高效微调使模型输出与结构化格式对齐并提高了生成一致且任务相关响应的能力。表5报告了微调前后的性能。在零样本设置下所有模型在领域特定查询上表现不佳导致分类准确率低且语义得分弱。经过LoRA适配后所有模型在各项指标上均表现出一致提升。特别是量化MAEMAEMAE的降低表明病害相关测量估计能力得到改善。语言指标如ROUGE−LROUGE-LROUGE−L、BLEUBLEUBLEU和METEORMETEORMETEOR的提升进一步表明响应更连贯且与任务对齐从而支持更可靠的分析与建议生成。4.4 智能体增强 VQA 框架 (Agent-Augmented VQA Framework)作为指令微调的补充方法我们引入了一种智能体增强框架以解决通用VLM的几何与空间局限性。该框架不将病害相关测量编码进模型参数而是将VLM视为协调外部工具的交互式控制器。VLM负责语言理解而专用模型执行视觉感知。该设计减少了多模态幻觉。具体而言我们提出的框架通过工具调用能力[37, 41]将领域特定模型第4.2节集成到交互式推理管线中。给定用户查询VLM解析意图并将其分解为可执行步骤。随后它将每个子任务路由至专用模型OverLoCK-T用于分类DEIM用于定位SCSegamba用于分割。视觉输出如边界框和像素掩码被转换为显式几何量。这些几何量随后作为文本证据输入模型上下文。该框架具有可解释性因为其中间结果可直接可视化并与生成响应对齐。它还保留了对话历史和视觉状态从而支持从病害识别到定量评估与决策支持的多轮、上下文感知分析。表5表明所提出的智能体增强框架在数值和语言指标上均取得了竞争性表现。重要的是这是在无需对底层VLM进行额外参数更新的情况下实现的。这些结果表明显式工具辅助推理可为多模态分析提供参数微调的有效替代方案。表5PaveBench 上 VQA 范式对比零样本、LoRA微调与本文智能体增强框架VLM 模型数值指标 (↑\uparrow↑/↓\downarrow↓)语言指标 (↑\uparrow↑)Cls.Cls.Cls.Acc.Acc.Acc.Loc.Loc.Loc.Token-F1Qwen2.5-VL-3B[3] 基线(零样本)65.1816.39LoRAFT88.2443.77 智能体增强(本文)89.6842.66DeepSeek-VL2-small[26] 基线(零样本)55.4840.36LoRAFT92.9859.23 智能体增强(本文)92.8042.08LLaVA-OneVision-7B[14] 基线(零样本)60.9127.71LoRAFT83.0455.19 智能体增强(本文)83.3346.645. 结论 (Conclusion)本文提出了PaveBench一个从视觉感知延伸至多模态推理的统一路面病害分析基准。PaveBench提供高分辨率自上而下图像具备分类、检测和分割的统一标注并包含强干扰场景以评估真实条件下的鲁棒性。基于该视觉基础我们构建了PaveVQA一个包含真实图像的大规模数据集支持多轮对话、定量查询和专家验证的推理。为解决通用视觉语言模型的空间与数值局限性我们进一步引入了智能体增强VQA框架。该框架将用户查询路由至专用视觉工具并将语义推理与几何测量分离生成可验证且视觉 grounded 的输出。大量实验证明了该数据集与框架的有效性。PaveBench为推动路面分析从视觉识别迈向更可靠、可交互的理解奠定了基础。参考文献(References)(为保持学术引用规范性参考文献列表保留原文格式未作逐条翻译。如需特定文献的中文摘要或核心贡献说明可提供具体编号。)[1] Rabih Amhaz, et al. Automatic crack detection on two-dimensional pavement images… IEEE T-ITS, 2016.[2] Deeksha Arya, et al. RDD2022: A multi-national image dataset… Geoscience Data Journal, 2024.… (其余文献同原文) …

PaveBench：一个用于路面病害感知与交互式视觉语言分析的多功能基准

相关文章：

PaveBench：一个用于路面病害感知与交互式视觉语言分析的多功能基准

革新性中国象棋智能辅助系统：全流程视觉识别与实时决策实战指南

突破QQ音乐加密限制：qmcdump全场景解密工具实战指南

3步解锁CefFlashBrowser：让Flash内容重获新生的终极方案

MALSync快速入门：5分钟掌握自动剧集追踪技巧

Spoon安全测试实践：权限授予与数据清理的最佳方案

SecGPT-14B多场景：安全设备日志归一化、威胁情报摘要生成、钓鱼邮件识别

3大核心技术突破语言壁垒：LunaTranslator高效视觉小说翻译解决方案

从湖科大计网笔记出发，聊聊我当年学网络时踩过的那些坑（附避坑指南）

OpenClaw隐私保护机制：Qwen3.5-9B本地化处理法律文件

如何快速制作Windows 11启动盘：Rufus终极USB启动盘制作指南

破局Xbox存档困境：XGP-save-extractor技术原理与实战指南

Rustup终极指南：轻松管理你的Rust开发环境

3步攻克iOS激活锁：AppleRa1n工具技术解析与实战指南

为什么说res-downloader能3步搞定全网资源下载？从新手到高手的实战指南

EcomGPT-7B赋能跨境电商：多语言商品描述与AIGC内容创作

Janus-Pro-7B惊艳效果：同一张建筑照片生成写实/水彩/线稿三种风格图

intv_ai_mk11惊艳效果：24GB显存下Llama中型模型生成质量实测报告

ChatTTS语言学习助手：生成地道口语对话练习材料

Zabbix7监控Oracle 19c实战：手把手教你配置zabbix-agent2环境变量与TSN

突破平台局限：AirPods跨平台体验增强方案全解析

公开信息整理｜2026年4月6日：强对流天气、景区限流、AI血检突破与民生热点速览

手机域名可以用于 SEO 优化吗

Calibre中文路径保护插件：如何让电子书保持原汁原味的中文命名

Graphormer从部署到应用：中小企业如何用低成本GPU开展分子AI研发

BaiduNetdiskPlugin-macOS：解决百度网盘下载速度限制的实用优化方案

如何高效加速GitHub下载：Fast-GitHub插件的完整指南

[开源]玄武门之变的多变量数学建模与C++模拟系统——从历史事件到量化分析

Starry Night Art Gallery实战案例：小红书爆款插画AI生成流程

简单4步用Win11Debloat彻底优化Windows 11：新手也能让电脑提速70%