当前位置：首页 > news >正文

LISA: Reasoning Segmentation via Large Language Model

news 2026/6/2 1:04:36

发表时间：CVPR 2024

论文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Lai_LISA_Reasoning_Segmentation_via_Large_Language_Model_CVPR_2024_paper.pdf

作者单位：CUHK

Motivation：尽管感知系统近年来取得了显著的进展，但在执行视觉识别任务之前，它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。此类系统无法积极推理和理解隐含的用户意图。我们能否使多模态llm能够输出分割掩码?

解决方法：在这项工作中，我们提出了一个新的分割任务——推理分割。该任务旨在在给定复杂和隐式查询文本的情况下输出分割掩码。举个例子：

为了完成这项任务，模型必须具备两个关键能力：1）与图像联合推理复杂和隐式文本查询； 2）生成分割掩码。

实现方式：

我们提出了 LISA：大型语言指令分割助手，它继承了多模态大型语言模型 (LLM) 的语言生成能力，同时还具有生成分割掩码的能力。

我们用<SEG>令牌扩展原始词汇表，并提出嵌入掩码范式来解锁分割能力。
我们建立了一个包含超过一千个图像指令掩码数据样本的基准，将复杂的推理和世界知识纳入评估目的。

模型结构：除非另有说明，否则我们使用LLAVA-7B-v1-1或LLAVA-13B-v1-1作为基础多模态LLM F，并采用ViT-H SAM骨干作为视觉骨干Fenc。γ的projection layer是一个通道为[256,4096,4096]的MLP。

训练参数：为了保持预先训练的多模态LLM (即我们实验中的LLAVA)的学习知识，我们利用LoRA对LLM进行有效的微调，并完全冻结视觉骨干Fenc。解码器 Fdec 被完全微调。此外，LLM token embeddings (embed tokens)、LLM头((lm head)和投影层γ也是可训练的。

实验：

数据集：training data comprises mainly three parts：Semantic Segmentation Dataset，Vanilla Referring Segmentation Dataset，Visual Question Answering Dataset.

结论：

a new segmentation task—reasoning segmentation。
introduced an evaluation benchmark ReasonSeg, which comprises over one thousand data samples。
提出模型——LISA。它将分割能力注入到当前的多模态llm中，并在推理分割任务中表现出奇地有效。

LISA: Reasoning Segmentation via Large Language Model

相关文章：

LISA: Reasoning Segmentation via Large Language Model

企业发展与数字化转型：创新驱动未来增长的关键策略

如何选择适合自己的编程语言，为什么R是非计算机专业数据分析的最佳选择，五大点告诉你

【经验分享】数据结构——求树的叶子结点个数计算方法

第十一章：图论part04 110.字符串接龙 105.有向图的完全可达性 106.岛屿的周长（补）

Linux中安装MYSQL数据库

Vue前端服务加密后端服务解密--AES算法实现

matlab实现文字识别

Leetcode - 周赛409

突破百度网盘的下载限速，两种方法教会你【超详细】

整理酷炫 Flutter 优质布局、交互开源App

【PyCharm怎么同时打开多个项目】

使用 ProcDump 调试 Linux

2023年中国城市统计年鉴（PDF+excel）

自用 K8S 资源对象清单 YAML 配置模板手册-1

【数据库】事务 | 视图 | 自定义函数创建

Linux---进程(5)---进程地址空间

C语言实现数据结构之队列

写一个Vue2和vue3的自定义指令（以复制指定作为示例）

MySQL —— 聚合查询，分组查询与联合查询

51单片机驱动ST7735S彩屏避坑指南：从5秒刷屏到流畅贪吃蛇的优化实战

iPaaS 应用场景深度解析：从系统孤岛到数据自由流动的六大实战路径

2026 新视角:化妆品开发的底层逻辑，做好一款产品，从选对原料开始

贵阳婚礼西服定制攻略：面料、工艺、版型避坑指南

如何用Python脚本榨干百度网盘带宽：pan-baidu-download终极指南

【RT-DETR实战】070、模型分析工具：PyTorch Profiler性能分析

从无线破解到PDF解密：盘点那些容易被忽略的‘非主流’密码审计场景与工具

大厂校招变了：AI 能力正在进入笔试和面试

别再把大模型当搜索框了：一文讲透 LLM 的基本原理、能力边界与局限性

Godot 4.3随机地图性能优化：避开TileMap与RNG陷阱