论文阅读:InternVL v1.5| How Far Are We to GPT-4V? 通过开源模型缩小与商业多模式模型的差距
论文地址:https://arxiv.org/abs/2404.16821
Demo: https://internvl.opengvlab.com
Model:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
公开时间:2024年4月29日
InternVL1.5,是一个开源的多模态大型语言模型(MLLM),可以在多模态理解中弥合开源和专有商业模型之间的能力差距。我们介绍了三个简单的改进: (1)强视觉编码器
:我们探索了大规模视觉基础模型的持续学习策略InternViT-6b,提高其视觉理解能力,并使其可以在不同的llm中转移和重用。(2)动态高分辨率
:根据输入图像的高宽比和分辨率,我们将图像分成448×448像素中的1到40块,支持高达4K分辨率的输入。(3)高质量双语数据集
:我们精心收集了一个高质量双语数据集,涵盖了常见场景、文档图像,并用中英文问答对进行注释,显著提高了OCR和中文相关任务的性能。
基于强视觉编码器
、动态高分辨率
、高质量双语数据集
,InternVL v1.5显示了具有和专有的商业模型相竞争的性能,在18个多模态基准中的8个中取得了最先进的结果。
1、Introduction
大型语言模型(llm)在推进人工通用智能(AGI)系统方面发挥了重要作用,在处理开放世界语言任务方面表现出非凡的能力。利用llm中的进步,多模态大型语言模型(MLLMs)[5,18,23,62,63,84,92,116,142]取得了重大进展,促进了复杂的视觉语言对话和交互,弥合了文本和视觉信息之间的差距。尽管取得了这些成就,但在开源模型和专有的商业模型的能力之间仍然存在着明显的分歧,例如,GPT-4V [87],Gemini 系列 [92, 107], and Qwen-VL-Max [5].
这一差距主要反映在以下三个方面
:
- (1)
参数规模
:最近专有商业MLLMs [5,87,92,102]通常规模不少于1000亿参数,而开源模型通常采用3亿参数视觉基础模型(VFM),集成了70亿或130亿LLMs。 - (2)
图像分辨率
:专有的商业模型通常采用动态分辨率的方法,保留原始的纵横比,以促进详细的场景和文档的理解。相比之下,开源模型通常使用固定分辨率的进行训练,如336×336和448×448,这导致了相对于商业同行的相当大的能力差距。 - (3)
多语言能力
:专有模型经常利用广泛的多语言数据集来进行训练,从而提高它们跨不同语言的性能。然而,开源模型主要利用英语数据,依赖于LLMs对其他语言的zero-shot能力,例如LLaVA-NeXT [64]。这导致了在非英语场景理解和OCR任务中表现不佳。
为了弥补这一差距,我们引入了InternVL1.5,集成了三个主要的改进来提高其性能和可用性。
- (1)我们对大规模VFM-InternViT-6b实现了持续学习方法,
使用高质量的图像文本数据对其进行改进
。这一过程不仅增强了模型理解视觉内容的能力,而且提高了其对各种llm的适应性。此外,使用InternLM2-20B[11]作为语言基础模型,还提供了健壮的初始语言处理能力。 - (2)我们采用
动态高分辨率策略
,将图像分割成448×448的patch,根据图像的高宽比和分辨率,patch的数量从1到40(即4K分辨率)。为了捕获全局上下文,我们还包括了一个缩略图视图。 - (3)我们收集了不同的公共数据集,包括高质量的自然场景、图表、文档和中汉对话。此外,我们
使用开源的llm开发了一个数据翻译pipeline
,它可以很容易地扩展到更多的语言。
这些设计赋予我们的模型几个优势:
- (1)灵活的分辨率:类似于GPT-4V [87]的“低”或“高”模式,InternVL1.5使用户选择最佳图像分辨率,如使用低分辨率场景主题描述和高分辨率(4k分辨率)文档理解,有效地平衡计算效率和细节保存。
- (2)双语能力:InterVL1.5具有强大的双语能力,熟练处理中汉的多模态感知和理解任务。值得注意的是,在与中文相关的任务中,我们的模型通常表现优于领先的GPT-4V [87]。
- (3)强视觉表示:通过实施持续学习策略,我们增强了intir-6b[18]的视觉表示能力,使其对灵活的输入分辨率和各种视觉领域具有鲁棒性。
得益于InternViT-6B的大量参数,,我们的模型实现了一个水平的视觉表示,可以与超过200亿个参数的llm的语言能力相持平。视觉和语言处理之间的协同作用使我们的系统具有强大的多模态能力。
我们在18个具有代表性的多模态基准上评估了InternVL1.5,这些基准被分为4个特定的组:与ocr相关的、一般的多模态、数学和多回合对话基准。与开源和专有模型相比,IntarmVL1.5显示了具有竞争力的性能,在18个基准测试中的8个中取得了最先进的结果。值得注意的是,如图1所示,它甚至在四个特定的基准测试中超过了领先的专有模型,如Grok-1.5V [125]、GPT-4V [87]、Claude-3 Opus,Gemini Pro 1.5 [92],特别是在与ocr相关的数据集中,如TextVQA [100]、ChartQA [81]和DocVQA [82]。这一评估表明IntarVL1.5有效地缩小了开源模型和领先商业模型之间的差距。我们希望我们的方法和开源模型的权重能够有助于MLLM社区的发展
大视觉模块,与动态分辨率使得InternVL v1.5在ocr相关的DocVQA、TextVAQ等问题上超过了部分开源模型
2. Related Work
2.1. Proprietary Commercial MLLMs
大型语言模型(LLMs)[1,4,7,8,11,25,104,106,108,112,113,122,123,141]通过启用以前被认为是人类独有的复杂语言任务,极大地提高了AGI技术。在此基础上,专有商业mllm的发展代表了一个重大的演变。例如,OpenAI的GPT-4V [87]通过整合视觉输入扩展了GPT-4的功能,使它能够同时处理文本和图像内容,这是mllm领域的一个重大发展。之后,谷歌的Gemini系列从Gemini 1.0 [107]发展到Gemini 1.5 [92],增强了处理文本、图像和音频的能力,并支持多达100万个token,这显著提高了性能。QwenVL-Plus/Max是阿里巴巴QwenVL系列[5]的领先版本,以不需要OCR工具的多模式任务能力而闻名。专有mllm的进展包括Anthropic公司的Claude-3V系列[3]、HyperGAI的HPT Pro [35]、苹果的MM1 [84]、StepFun的Step-1V[102]和xAI的Grok-1.5V [125]。
2.2. Open-Source MLLMs
开源MLLMs [2,13,43,48,51,55,56,69,70,103,110,118,120,124,138,139]的开发通过集成和增强处理视觉和文本数据的能力,显著地影响了AGI景观。在过去的一年里,许多开源的mllm已经变得很出名,包括LLaVA系列[62-64],MiniGPT-4 [142],VisionLLM [116],Qwen-VL [5],CogVLM [117],Shikra [15],和其他[18,23,90,119]。然而,这些模型通常是在具有小的、固定分辨率的图像上进行训练的,如336×336或448×448,这导致了对具有不寻常纵横比或文档数据的图像的次优性能。为了解决这个问题,我们已经探索了许多训练高分辨率图像的方法。目前,有两种常见的技术途径:一种是设计一个双分支图像编码器[32,53,76,77,121],另一种是将一个高分辨率的图像分割成许多低分辨率的瓷砖[24,33,47,55,57,64,68,126,127]。尽管在高分辨率训练方面进行了这些探索,但与领先的商业模型相比,这些开源模型在理解文档、图表和信息图形以及识别场景文本方面仍然表现出显著的差距。
2.3. Vision Foundation Models for MLLMs
视觉基础模型(VFMs)是MLLM社区的一个研究焦点。目前,CLIP-ViT [91]和SigLIP [136]等模型被普遍使用;然而,许多研究已经寻找最适合mllm的视觉编码器。例如:
- Tong等人[111]观察到CLIP和DINOv2 [88]的视觉模式存在显著差异,导致了结合这两个vfm的特征混合模块的开发。
- LLaVA-HR [76]引入了一种双分支视觉编码器,利用CLIP-ViT用于低分辨率路径,而CLIP-ConvNext用于高分辨率路径。
- DeepSeek-VL [71]采用了双视觉编码器设计,使用SigLIP-L处理低分辨率图像,使用SAM-B处理高分辨率图像。
- 在本报告中,我们为我们的视觉基础模型提出了一个持续的学习策略——内部vit-6b[18],它不断提高视觉理解能力,并可以在不同的llm之间转移和重用。
3. InternVL 1.5
3.1. Overall Architecture
如图3所示,InternVL1.5采用了一种类似于广泛使用的开源mllm的体系结构,特别是各种现有研究中引用的“ViT-MLP-LLM”配置[18,23,62-64,71,142]。我们对该架构的实现集成了预先训练的InternlViT-6B[18]和预先训练的InternLM2-20B,使用随机初始化的MLP 投影。
在训练过程中,我们实现了一个动态分辨率策略,根据输入图像的高宽比和分辨率,将图像分成448×448像素的patch,大小从1到12。在测试过程中,可以将零镜头放大到40的patch(即4K分辨率)。为了增强高分辨率的可伸缩性,我们简单地使用了一个像素shuffle操作,将视觉令牌的数量减少到原来的四分之一。因此,在我们的模型中,一个448×448的图像由256个视觉token表示
(对应可以算出VIT模型的patch size为28)。
3.2. Strong Vision Encoder
在现有的mllm中[5,23,62-64,78,142],最常用的视觉基础模型通常是一个对比预训练的ViT [18,36,91,136]。然而,这些vit通常是基于固定的低分辨率(如224×224),因此当处理高分辨率图像或来自互联网以外来源的图像,如文档图像时,它们的性能会下降。
InternViT-6B-448px-V1.2. 为了解决这个问题,InternVL1.2更新涉及到InternViT-6B模型的持续预培训。首先,我们发现倒数第4层的特征对多模态任务表现最好,所以我们直接丢弃了最后三层的权重,将InterViT-6B从48层减少到45层。然后,我们将InternViT-6B的分辨率从224提高到448,并将其与Nous-Hermes-2-Yi-34B [130]集成
。为了使模型具有高分辨率处理和OCR能力,视觉编码器和MLP都被激活进行训练,混合使用图像caption[10,17,90,93,100]和OCR特定数据集[29,94]。从这个过程中新衍生的内部权重被表示为InternViT-6B-448px-V1.21。
InternViT-6B-448px-V1.5. InternVL1.5的开发继续了InternViT-6B-448px-V1.2的强大基础的预培训。在这次更新中,训练图像的分辨率从固定的448×448扩展到动态的448×448,其中基本的平铺大小为448×448
,平铺的数量范围从1到12。此外,我们增强了预训练数据集的数据规模、质量和多样性
,从而获得了我们的1.5版本模型的强大的鲁棒性、OCR能力和高分辨率处理能力。动态分辨率和训练数据集的细节在第3.3和3.4节中描述。
值得注意的是,尽管InternVL1.5中的LLM从Nous-Hermes-2-Yi-34B转变为IntarLM2-20B[11],但IntrenViT与新的LLM保持了良好的兼容性和可移植性
。这表明IntrenViT-6B在MLLM训练前阶段学习到的视觉特征广泛适用,与特定的LLM没有紧密结合。
3.3. Dynamic High-Resolution
能有效地适应输入图像的不同分辨率和高宽比的分辨率训练方法。这种方法利用了将图像分割成pach的灵活性,增强了模型处理视觉细节的能力,同时适应不同的图像分辨率。它主要由以下步骤组成:
Dynamic Aspect Ratio Matching. 如图4所示,为了在处理过程中保持自然的长宽比,我们从预定义的长宽比集中动态地匹配最佳长宽比。由于有限的计算资源,我们在训练期间最多允许12个patch。因此,这个集合包括由1到12个切片组成的所有35种可能的高宽比组合,例如{1:1、1:2、2:1、3:1、…,2:6}。在匹配过程中,我们对每个输入图像计算其长宽比,并通过测量绝对差将其与35个预先预定义的长宽比进行比较。如果多个预定义的高宽比匹配(例如,1:1和2:2),我们将对不超过输入图像面积两倍的图像进行优先排序,从而防止低分辨率图像的过度放大。
Image Division & Thumbnail. 一旦确定了适当的高宽比,图像就会被调整到相应的分辨率。例如,一个800×1300的图像将被调整为896×1344。调整后的图像被分成448×448像素的切片。在切片旁边,我们还包括了整个图像的缩略图来捕获全局上下文。这个缩略图被缩小到448×448,帮助模型理解整个场景。因此,在训练期间,视觉令牌的数量从256到3328不等。在测试期间,切片的数量最多可以增加到40个,从而产生10,496个视觉token。
3.4. High-Quality Bilingual Dataset
Pre-training Dataset. 在我们的InternVL1.5中使用的训练前数据集包含了各种公共可访问的源。我们在表1a中提供了这些数据集的概述。这些数据集跨多个任务,包括caption,它主要使用Laion-EN [93]、Laion-ZH [93]、COYO [10]和GRIT [90]等数据集,占总数据的53.9%。检测和接地任务利用object-365[97]、GRIT [90]和All-Seeing[119]等数据集,占5.2%。对于OCR任务,我们使用了大规模的数据集,如Wukong-OCR、LaionCOCO-OCR和公共爬虫获取的pdf,它们占我们数据的32.0%。这些数据集使用PaddleOCR [49]对Wukong[29]的中国图像和LaionCOCO [94]的英文图像进行OCR构建。较小的OCR数据集包括MMC-Inst [61]、LSVT [105]、ST-VQA [9]、RCTW-17 [98]、ArT [19]等,占数据的8.9%,这些数据侧重于更具体或更受限的OCR挑战。这种不同的数据集组装确保了InternVL的鲁棒模型预训练,满足了不同任务中的各种语言和视觉元素。
Fine-tuning Dataset. 在微调阶段,我们精心选择的数据集,以提高在各种多模态任务中的模型性能。表1b总结了本阶段使用的数据集。
对于图像caption,我们包括了TextCaps [99]和双语ShareGPT4V [16],这可以帮助模型学习生成英语和中文的描述性字幕。在一般QA领域,VQAv2 [28]、GQA [34]和visalog[22]等数据集教模型处理不同的问答场景。
为了理解科学图像,AI2D [39]、ScienceQA [73]和TQA [40]等数据集提供了内容丰富的场景,以增强模型解释科学图表和文本的能力。图表的解释得到了ChartQA [81]、MMC-Inst [61]和PlotQA [85]的支持,这些软件训练模型来分析和理解图表图像。数学数据集,如GeoQA+ [12],TabMWP [74],和MathQA [132],引入了复杂的数值和几何问题解决任务。基于知识的QA得益于包含像KVQA [96]和双语维基百科[31]这样的数据集,使模型能够跨多种语言提取事实信息和推理。
对于涉及OCR的任务,我们利用OCRVQA [86]、TextVQA [100]和几个专注于中文和英文文本识别的数据集,如SynthDoG [41],来提高对图像的文本识别。文档理解是通过像DocVQA [82]和通用爬虫pdf这样的数据集来实现的,这些数据集有助于建立真实世界的文档分析模型。视觉接地训练使用RefCOCO [79,131]和视觉基因组[42],帮助模型在图像中精确定位目标定位。在多模态对话领域中,像LLaVA-150K [63]和ALLaVA [14]这样的数据集通过模拟交互式和引人入胜的场景,增强了模型的对话能力。最后,纯文本数据集包括OpenHermes2.5 [109],AlpacaGPT4 [106]和其他[6,141],它们用于维护LLM的原始语言能力。
总之,这些数据集一起为微调建立了丰富和多样的基础,这增强了我们的模型处理广泛的多模态任务的能力,并确保其为实际应用做好了准备。
Data Translation Pipeline. 如图5所示,为了增强我们的模型的多语言功能,我们实现了一个数据转换流程。该pipeline利用最先进的开源LLMs [4,11,130]或GPT-3.5将英语数据集转换为另一种语言(如中文),从而保持双语标签的一致性和精度。此外,它可以通过调整语言提示符,很容易地扩展到包含更多的语言,而不依赖于手动注释过程。
在表1中,我们已经为每个数据集进行了语言注释。对于最初是英文的数据集,作为“zh”的注释表示我们已经使用翻译pipeline将其翻译成中文。例如,COYO [10]和GRIT [90]最初是英语数据集,我们已经将它们翻译成了中文。通过利用这种翻译管道,InternVL1.5的中文功能已经大大增强。
4. Experiments
4.1. Implementation Details.
InternVL 1.5是通过将InternVIT-6B[18]视觉编码器与InternLM2-20B[11]语言模型集成而开发的,使用动态高分辨率策略。在这种方法中,图像被分割成448×448像素的瓷砖,根据训练期间图像的长宽比和分辨率,切片的数量范围高达12。在测试阶段,该模型可以处理多达40个切片,相当于4K分辨率,以zero-shot的方式展示其对高分辨率输入的适应性。值得注意的是,我们基于IntarnLM2-20B的聊天版本而不是基本模型构建了我们的模型。
InternVL 1.5的训练分为两个阶段。最初,训练前阶段的重点是训练InternVIT-6B视觉编码器和MLP投影,以优化视觉特征提取。随后,对整个模型的260亿个参数进行了微调,以增强多模态能力。在这两个阶段的训练中,我们都使用了一个上下文长度为4096的方法,并采用了与LLaVA 1.5 [52]相同的响应格式化提示。此外,该评估主要由VLMEvalKit [21]支持。
4.2. Comparison with State-of-the-Art MLLMs
4.2.1 Quantitative Results on 18 Benchmarks
在本节中,我们将对一系列基准进行广泛的评估,以评估我们的模型的多模态理解和推理能力。在我们的研究中使用的基准被分为四种不同的类型:与ocr相关的、一般的多模态的、数学的和多回合的对话基准。如表2所示,InternVL1.5在大多数基准测试中显示了领先的性能。
OCR-related Image Understanding. 我们在OCR的四个关键维度上评估了模型的性能:文档理解(DocVQA [82])、图表理解(ChartQA [81])、信息图理解((Info-graphic VQA[83])和场景文本解释(TextVQA [100])。此外,我们使用OCRBench [67]对模型的整体OCR能力进行全面评估。如表2所示,我们的模型在这些基准测试上显示了与专有模型相当的性能,并且显著优于开源LLaVA-NeXT [64]和InternVL v1.5的前身InternVL v1.2 。值得注意的是,我们的模型在ChartQA和OCRBench上取得了最先进的性能,优于所有竞争的专有模型。
General Multimodal Evaluation. 除了ocr相关的基准测试之外,我们还在几个通用的多模态基准测试上测试了我们的模型:
- 使用RealWorldQA [125]来评估模型的真实世界空间理解能力。
- HallusionBench[30]被用来评估其控制幻觉的能力。
- MMMU [135]被用来评估该模型的多学科能力
- AI2D [39]被评估其对科学图表的理解。
- MMBench-CN测试[66]和CCBench [66]测试了该模型的汉语熟练程度和对中国文化的理解程度
- MME [26]、MMBench-EN [66]、MMVet [133]、SEED [46]和MMT-Bench [129]也被用于评估模型的视觉理解和推理能力。
与其他开源模型如text-Monkey[68]、DocOwl-1.5 [33]和LLaVA-NeXT [64]相比,我们的InternVL v1.5显著缩小了这些基准测试中与专有模型的差距。具体来说,我们的模型在HallusionBench[30]上取得了最好的性能,展示了其减少幻觉的出色能力。此外,得益于我们高质量的双语数据集,我们的模型展示了健壮的中文语言能力,显著超过了MMBench-CN和CCBench上的开源和专有方法。然而,虽然InternVL v1.5超过了MM1 [84],与MMMU上的Gemini Pro 1.0 [107]相当,但它的前身InternVL 1.2略有下降。我们将这种适度的减少归因于语言模型的较小规模,这是在MMT-Bench [129]结果中观察到的类似现象
,如表3所示。
Math Reasoning. MathVista [75]是一个基准测试,旨在集成来自各种数学和视觉任务的挑战。完成这些任务需要对视觉效果、逻辑思维和数学知识的深刻理解——许多专有的商业模型在这些领域遇到了重大困难。如表2所示,我们的模型在这个基准测试中明显优于其他模型,包括GPT-4V [87],显示了它处理数学要求很高的任务的能力。
Multi-Turn Conversation. 与单回合对话相比,多回合对话更符合人类的偏好。在实际应用中,多回合对话是通用助手与人类一起解决各种任务的首选模式。因此,我们选择使用ConvBench [65]来评估多回合对话,它逐步评估mllm的感知、推理和创造力能力。如表3描述, InternVL 在开源模型中表现出领先的性能,尽管仍然远远落后于GPT-4V。未来,我们将继续完善内部公司在多回合对话中的能力.
4.3. Ablation Study
Larger LLMs need Larger VFMs. 在本研究中,我们研究了llm和vfm之间的相互作用。该比较涉及两个开源的mllm,LLaVA-NeXT[64]和InternVL1.2,每个都配备了340亿个参数的llm。值得注意的是,尽管两种模型都采用了相同规模的llm,但InternVL 1.2包含了一个显著更大的VFM,有60亿个参数,而LLaVA-NeXT的3亿个参数。由于LLaVA-NeXT的数据不可用,所以我们自己创建了一个类似的数据集。此外,InterVL1.2的固定分辨率为448×448,而LLaVA-NeXT使用更高的动态分辨率为672×672。因此,这种比较并不完全公平或等价的。然而,这些发现仍然揭示了值得注意的见解。例如,在排除了5个与ocr相关的数据集ConvBench和RealWorldQA后,在其余11个数据集中,InternVL v1.2的表现优于LLaVA-NeXT
。这种性能差异支持了我们的假设,即对于一个大规模的LLM(例如,34B),一个更大的VFM(例如,6B)可以有效地提高模型处理复杂多模态任务的能力,从而提高整体性能。
Dynamic Resolution Matters. 如图6所示,我们研究了跨各种多模态基准测试的动态分辨率的有效性。我们发现,并非所有的任务都需要高分辨率。具体来说,与OCR相关的任务,如DocVQA、InfoVQA、TextVQA和OCRBench,都受益于提高的分辨率。然而,像AI2D、MMMU、MMBench和HallusionBench等任务在较高分辨率下表现出性能略有下降。总的来说,InternVL1.5对动态分辨率具有很强的鲁棒性。它可以根据每个任务的具体需求来调整分辨率,在高分辨率有益的地方确保最佳性能,在不有利的地方节约资源。
4.3.1 Qualitative Results on Different Scenes
在前面的章节中,我们通过不同的基准测试来评估了我们的模型,并观察到了它的强大性能。在本节中,我们将我们的模型与GPT-4V [87]在不同的场景中进行了定性比较,包括一般QA、与ocr相关的QA、科学理解、中国传统文化、对象定位和多图像对话。我们的目标是展示我们的模型在现实应用程序中的实用性和通用性,从实际用户体验的角度提供见解。
General QA. 为了比较InternVL1.5和GPT-4V的一般功能,我们首先进行了一个实验,涉及对需要一般知识的图像进行简单的用户查询。如图7左侧所示,两个模型都准确地响应查询,显示了它们在一般主题方面的熟练程度。如图7右侧所示,GPT-4V由于涉及到个人隐私,可能会过度拒绝回答一些问题。
OCR-Related QA. 我们进行了评估,以比较我们的InternVL1.5模型与GPT-4V的OCR能力。在图8的左侧,第一个提示旨在测量模型理解中国场景的能力。在这种情况下,GPT-4V不能提取图像中所有有用的信息。在图8的右侧,GPT-4V和我们的模型在图表理解方面都有良好的性能。
Scientific Understanding. 在科学理解推理任务中评估模型的能力对于推进计算智能至关重要,特别是在需要领域内知识和逻辑推理的情况下。在我们的研究中,我们通过比较我们的内部InternVL1.5模型的性能,管理复杂的多学科问题,以评估其推理的准确性。在图9中,对于第一个问题,两个模型都准确地回答,并从空气动力学的角度提供了分析。对于第二个问题,我们的模型精确地分析了图像中描述的元素,并提供了正确的响应,而GPT-4V则推测了氨基酸转运的趋势。这些结果表明,我们的方法和GPT-4V在科学理解和推理方面表现出相当的能力。
Chinese Traditional Culture. 我们选择了两个与中国传统艺术相关的典型多模态例子来评价我们的模型。如图10所示,InternVL 1.5和GPT-4V都能正确识别出图像中所描述的中国传统文化。值得注意的是,InterVL1.5展示了对这种文化的更深入的理解,它在回应中对文化元素进行了更详细的描述。
Object Localization. 评估机器学习模型在目标定位任务中的熟练程度是必要的,特别是在需要精确空间意识的应用中。在我们的比较分析中,InternVL v1.5模型的性能与GPT-4V相同,重点是它们在不同环境中准确检测和定位对象的能力。我们的评估范围从杂乱场景中的简单物体识别到涉及多个实体之间动态交互的复杂场景。如图11所示,结果表明InternVL v1.5不仅具有较高的精度定位对象,而且对空间关系具有可比性的理解,与GPT-4V的性能相匹配。
Multi-Image Dialogue. 如图12所示,在本实验中,我们要求InternVL 1.5和GPT-4V比较两幅图像的异同。可以看出,GPT-4V和InternVL1.5都提供了详细和准确的响应。通过这个实验,我们发现,虽然InternVL v1.5仅在单个图像输入上进行训练,但它在多图像对话中显示出了很强的zero-shot能力。
5. Conclusion
这项工作引入了InternVL v1.5,这是一个开源的MLLM,旨在在多模态理解中缩小开源模型和专有模型之间的性能差距。通过集成强大的具有连续学习能力的视觉编码器,采用动态高分辨率策略,并利用高质量的双语数据集,InternVL 1.5在各种基准测试中展示了健壮的性能。我们的评估表明,该模型与领先的专有模型取得了具有竞争力的性能,尤其是在ocr相关任务方面,并在中国相关场景理解方面显示出显著的改进。虽然InternVL v1.5对开源多模式理解做出了贡献,但该领域继续面临许多挑战。我们渴望进一步提高InternVL v1.5的能力,并邀请与全球研究界的合作,希望共同丰富和扩大开源模型的覆盖范围。
相关文章:

论文阅读:InternVL v1.5| How Far Are We to GPT-4V? 通过开源模型缩小与商业多模式模型的差距
论文地址:https://arxiv.org/abs/2404.16821 Demo: https://internvl.opengvlab.com Model:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5 公开时间:2024年4月29日 InternVL1.5,是一个开源的多模态大型语言模…...

什么是电能表PTB认证
电能表PTB认证是指电能表产品经过德国国家计量研究所(Physikalisch-Technische Bundesanstalt,简称PTB)的认证和审核过程。PTB是德国联邦政府在计量、物理、材料和测试领域的技术专家和合作伙伴,拥有世界领先的技术水平和专业知识…...

C# 单例模式继承
简介:单例模式是软件工程中最著名的模式之一。从本质上讲,singleton 是一个只允许创建自身的单个实例的类,并且通常提供对该实例的简单访问。最常见的是,单例不允许在创建实例时指定任何参数 - 否则,对实例进行第二次请…...

ESP8266模块(WIFI STM32)
目录 一、介绍 二、传感器原理 1.原理图 2.引脚描述 3.ESP8266基础AT指令介绍 4.ESP8266基础工作模式 三、程序设计 main.c文件 esp8266.h文件 esp8266.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 ESP8266是一款嵌入式系统级芯片,它集成了Wi…...

微信小程序学习实录9:掌握wx.chooseMedia实现多图片文件上传功能(选择图片、预览图片、上传图片)
要实现多图片上传到服务器,需要在小程序前端和PHP后端分别进行相应的设置。 基本流程 微信小程序提供了丰富的API来支持多图片上传功能。在微信小程序中实现多图片的选择、预览以及上传到服务器的功能: 1. 选择图片 使用 wx.chooseImage API 可以让用…...

助动词的分类及其缩略形式
助动词的分类及其缩略形式 1. 助动词 (auxiliary verb)2. 基本助动词 (primary auxiliary)2.1. 基本助动词 be、do 和 have2.2. 实义动词 be、do 和 have 3. 情态助动词 (modal auxiliary)3.1. 情态助动词取代情态动词 4. 半助动词 (semi-auxiliary)4.1. 不能与 it ... that-cl…...

Redis——分布式锁
在一个分布式系统中,只要涉及到多个节点访问同一个公共资源的时候,就需要加锁来实现互斥,从而达到线程安全的问题。 但是呢,分布式系统不同一些,因为分布式系统部署在不同的服务器上,很可能大量的请求打到…...

C++面试速通宝典——13
208. class里面定义int a,如果不实现构造函数,实例化这个类,a的值是? 答:a的值是未定义的(在C标准中成为“未初始化”)。 解释: 在C中,如果一…...

数据结构(二叉树)
1. 树相关术语 父结点/双亲结点:如果一个结点有子结点那么它就是父结点或者双亲结点;例如A是BCDEFG的父结点,J是PQ的父结点等等;子结点:一个结点含有的子树的根节点称为该结点的子结点;如上图的H是D的子结点…...

Windows 通过 Docker 安装 GitLab
1. 安装 Docker Desktop 下载网站:Windows | Docker Docs 2. 拉取 GitLab Docker 镜像 打开 PowerShell 或 命令提示符,拉取 GitLab 镜像: docker pull gitlab/gitlab-ee:latest或则使用社区版: docker pull gitlab/gitlab-ce…...

SQL专项练习第六天
Hive 在处理不同数据需求时的灵活性和强大功能,包括间隔连续问题的处理、行列转换、交易数据查询、用户登录统计以及专利数据分析等方面。本文将介绍五个 Hive 数据处理问题的解决方案,并通过实际案例进行演示。 先在home文件夹下建一个hivedata文件夹&a…...

CSS——属性值计算
CSS——属性值计算 今天来详细讲解一下 CSS的属性值计算过程,这是 CSS 的核心之一(另一个是视觉可视化模型,个人理解,这个相对复杂,以后再讲)。 基本概念 层叠样式表:Cascade Style Sheet&am…...

408算法题leetcode--第26天
496. 下一个更大元素 I 题目地址:496. 下一个更大元素 I - 力扣(LeetCode) 题解思路:单调栈,如注释 时间复杂度:O(n m) 空间复杂度:O(n) 代码: class Solution { public:vector<int&g…...

JavaScript 与浏览器存储
JavaScript提供了两种存储数据的方式:LocalStorage和SessionStorage。这两种方式都是浏览器提供的客户端存储解决方案,可以将数据保存在用户的浏览器中,供网站使用。 LocalStorage和SessionStorage的区别在于数据的作用域和生命周期。 Loca…...

Chromium 如何查找已经定义好的mojom函数实现c++
进程通信定义通常都是用.mojom文件或者idl文件格式 以content\common\frame.mojom里面的BeginNavigation函数为例。 一、如何查找BeginNavigation函数定义,在vscode里面直接搜索BeginNavigation,过滤条件 *.idl,*.mojom,*.cc 效果: 这样…...

图文深入理解Oracle DB Scheduler(续)-调度的创建
List item 今天是国庆假期最后一天。窗外,秋雨淅淅沥沥淅淅下个不停。继续深宅家中,闲来无事,就多写几篇博文。 本篇承接前一篇,继续图文深入介绍Oracle DB Scheduler。本篇主要介绍调度的创建。 1. 创建基于时间的作业 • 可以…...

基于Springboot的宠物咖啡馆平台的设计与实现(源码+定制+参考)
博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…...

Conda答疑
文章目录 优雅的使用Conda管理python环境1. conda info -e 和conda env list区别2.conda创建环境 创建的新环境在哪个文件夹下3. 自定义路径4. anaconda 新建环境 包是来自哪里4.1. 默认 Anaconda 仓库4.2. Conda-Forge4.3. 镜像源4.4. 自定义频道4.5. 总结 5. conda config --…...

Python 工具库每日推荐【PyPDF2】
文章目录 引言Python PDF 处理库的重要性今日推荐:PyPDF2 工具库主要功能:使用场景:安装与配置快速上手示例代码代码解释实际应用案例案例:PDF文件合并案例分析高级特性加密和解密PDF添加水印扩展阅读与资源优缺点分析优点:缺点:总结【 已更新完 TypeScript 设计模式 专栏…...

Nacos的应用
什么是nacos? Nacos是一个开源的动态服务发现,配置管理和服务治理平台。主要用于构建原生应用和微服务架构。它是阿里巴巴开源的项目,整合了配置管理,服务管理,服务发现的功能,核心价值在于帮助用户在云平…...

CSS圆角
在制作网页的过程中,有时我们可能需要实现圆角的效果,以前的做法是通过切图(将设计稿切成便于制作成页面的图片),使用多个背景图像来实现圆角。在 CSS3 出现之后就不需要这么麻烦了,CSS3 中提供了一系列属性…...

信息安全工程师(37)防火墙概述
前言 防火墙是一种网络安全系统,旨在监控和控制网络流量,根据预定义的安全规则决定是否允许数据包的传输。 一、定义与功能 定义:防火墙是网络安全的第一道防线,由硬件设备和软件系统共同构成,位于外网与内网之间、公共…...

多元化网络团队应对复杂威胁
GenAI、ML 和 IoT 等技术为威胁者提供了新的工具,使他们更容易针对消费者和组织发起攻击。 从诱骗受害者陷入投资骗局的Savvy Seahorse ,到使用 ChatGPT 之类的程序感染计算机并阅读电子邮件的自我复制 AI 蠕虫,新的网络威胁几乎每天都在出现…...

Observer(观察者模式)
1. 意图 定义对象间的一种一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。 在观察者模式中,有两类对象:被观察者(Subject)和观察者(Observer…...

Python深度学习进阶与前沿应用:注意力机制、Transformer模型、生成式模型、目标检测算法、图神经网络、强化学习等
近年来,伴随着以卷积神经网络(CNN)为代表的深度学习的快速发展,人工智能迈入了第三次发展浪潮,AI技术在各个领域中的应用越来越广泛。为了帮助广大学员更加深入地学习人工智能领域最近3-5年的新理论与新技术࿰…...

24.1 prometheus-exporter管理
本节重点介绍 : exporter 流派 必须和探测对象部署在一起的1对多的远端探针模式 exporter管控的难点 1对1 的exporter 需要依托诸如 ansible等节点管理工具 ,所以应该尽量的少 1对1的exporter改造成探针型的通用思路 exporter 流派 必须和探测对象部署在一起的…...

【Arduino IDE安装】Arduino IDE的简介和安装详情
目录 🌞1. Arduino IDE概述 🌞2. Arduino IDE安装详情 🌍2.1 获取安装包 🌍2.2 安装详情 🌍2.3 配置中文 🌍2.4 其他配置 🌞1. Arduino IDE概述 Arduino IDE(Integrated Deve…...

『网络游戏』自适应制作登录UI【01】
首先创建项目 修改场景名字为SceneLogin 创建一个Plane面板 - 将摄像机照射Plane 新建游戏启动场景GameRoot 新建空节点重命名为GameRoot 在子级下创建Canvas 拖拽EventSystem至子级 在Canvas子级下创建空节点重命名为LoginWnd - 即登录窗口 创建公告按钮 创建字体文本 创建输入…...

用Manim简单解释奇异值分解(SVD)和图像处理方面的应
一,介绍 奇异值分解(SVD)是一种重要的矩阵分解技术,在统计学、信号处理和机器学习等领域有广泛应用。对于任意给定的矩阵 A(可以是任意形状的矩阵),SVD将其分解为三个特定的矩阵的乘积&#x…...

红外变电站分割数据集,标注为json格式,总共有5类,避雷器(289张),绝缘子(919张),电流互感器(413张),套管(161张),电压互感器(153张)
红外变电站分割数据集,标注为json格式,总共有5类 避雷器(289张),绝缘子(919张),电流互感器(413张),套管(161张)࿰…...