当前位置：首页 > news >正文

llava1.5模型安装、预测、训练详细教程

news 2026/2/8 23:18:29

引言

本博客介绍LLava1.5多模态大模型的安装教程、训练教程、预测教程，也会涉及到hugging face使用与wandb使用。

源码链接:点击这里

demo链接:点击这里

论文链接:点击这里

一、系统环境

ubuntu 20.04
gpu: 2*3090
cuda:11.6

二、LLava环境安装

1、代码下载

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

2、虚拟环境构建

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # enable PEP 660 support

3、模型预测安装

pip install -e .

4、模型训练环境安装

pip install -e ".[train]"
pip install flash-attn --no-build-isolation  # 可能安装失败

5、flash-attn离线环境安装

根据对应环境格式下载相应flash-attn，
flash-attn下载链接点击这里
实际为whl的离线文件，在使用pip install *.whl 即可

三、LLava推理运行

1、启动网页预测(类似服务端与客户端)

Launch a controller

python -m llava.serve.controller --host 0.0.0.0 --port 10000

Launch a gradio web server.

python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

注:host 0.0.0.0表示自动填充本机ip，网页将其替换本机ip即可，web server启动后会有网页ip，若在其它电脑将其0.0.0.0替换运行服务器的ip即可。

2、推理权重下载

我们使用llava-v1.5-7b模型做推理。

llava-v1.5-7b权重下载

权重下载地址:点击这里

权重下载，需要使用hugging face才能下载，自己注册账号即可，文件格式如下：
在这里插入图片描述

将图示文件全部下载，内有一个config.json文件，该文件很重要，部分内容如下：

在这里插入图片描述

该文件可看出视觉编码也缺少相应权重，需下载如下内容，并将其路径修改本地权重保存文件。

clip-vit-large-patch14-336权重下载

权重下载地址:点击这里
该文件可通过点击链接连接，也可在hugging face自行搜索。
在这里插入图片描述

同理，也是全部下载，放到一个文件夹中。

3、启动预测模型

若已完成权重下载，便可执行以下模型启动命令，而–model-path后面需跟模型权重路径文件，若联网能范文hugging face便可无需修改直接使用官方给定命令。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-v1.5-13b

–load-4bit: 该指令也可加上，使用4bit模型推理

四、LLava的lora训练

1、权重下载

根据下图的finetune_lora.sh文件指定权重在hugging face下载即可，如下图。

在这里插入图片描述

下载好对应权重，即可修改路径路径，如下：
在这里插入图片描述

2、数据准备

使用官网也行，若不想下载太多，使用下面代码准备部分也行，如下：

import jsonif __name__ == '__main__':json_root=r'*\llava_v1_5_mix665k.json'with open(json_root, 'r') as f:json_info = json.load(f)save_info=json_info[:1000]+json_info[480000:481000]+json_info[620000:621000]with open('info.json', 'w') as fp:json.dump(save_info, fp, indent=4)

数据图如下：
在这里插入图片描述

3、训练命令

我是将其移动到LLAVA文件内，直接执行此命令：

finetune_lora.sh

4、报错处理

模型有可能报数据错误，此时不用担心，该问题是数据的问题，如下：
在这里插入图片描述

直接修改上面代码如下：

def get_modality_length_grouped_indices(lengths, batch_size, world_size, generator=None):# We need to use torch for the random part as a distributed sampler will set the random seed for torch.assert all(l != 0 for l in lengths), "Should not have zero length."mm_indices, mm_lengths = zip(*[(i, l) for i, l in enumerate(lengths) if l > 0])# lang_indices, lang_lengths = zip(*[(i, -l) for i, l in enumerate(lengths) if l < 0])lang_indices, lang_lengths=mm_indices, mm_lengthsassert len(mm_indices) > 0, "Should have at least one multimodal sample."assert len(lang_indices) > 0, "Should have at least one language sample."

也有可能有其它数据问题，是可能无eval数据，添加以下红色框即可，如下:

在这里插入图片描述

5、训练效果

若完成以上方式，使用训练命令，可实现如下训练效果：
在这里插入图片描述

6、训练使用wandb

llava训练自带wandb方式显示化查看，训练代码会自动提醒你，你只需注册，然后将其key复制，即可实现，其效果如下：
在这里插入图片描述

在这里插入图片描述

总结

以上便llava所有运行过程，愿踩过的坑对你有帮助。最后，我额外说下，我使用4090显卡搭建，跑测试问题不大，大概16g左右吧，跑训练一张24G卡有些够呛。

llava1.5模型安装、预测、训练详细教程

引言本博客介绍LLava1.5多模态大模型的安装教程、训练教程、预测教程，也会涉及到hugging face使用与wandb使用。源码链接:点击这里 demo链接:点击这里论文链接:点击这里一、系统环境 ubuntu 20.04 gpu: 2*3090 cuda:11.6 二、LLava环境安装 1、代码下载…...

编程日记 2023/11/2 23:18:23

一个ppt带你读懂网络安全行业四大顶会之一的ndss论文＜＜Large Language Model guided Protocol Fuzzing＞＞

论文下载地址： Large Language Model guided Protocol Fuzzing...

编程日记 2023/11/2 23:17:22

ajax调用springboot后台接口

工具 api测试工具由于后台接口不是同一个团队编写的，在文档缺失的情况下，需要测试后台接口接收参数类型，可以使用这个工具，注册很方便页面如下所示，可以选择请求方法是get，或者post 重点介绍两种&…...

编程日记 2023/11/2 23:15:19

2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models

2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models Paper: https://arxiv.org/abs/2106.09685 Code: https://github.com/microsoft/LoRA 大型语言模型的LoRA低秩自适应自然语言处理的一个重要范式包括对通用领域数据的大规模预训练和对特定任务或领域的适应。…...

编程日记 2023/11/2 23:13:17

dockefile

文章目录应用的部署MySql的部署Tomcat的部署 dockerfileDocker原理镜像的制作容器转镜像Dockerfile 服务编排Docker Compose Docker 私有仓库应用的部署搜索app的镜像拉去app的镜像创建容器操作容器中的app MySql的部署容器内的网络服务和外部机器无法直接通信外部机器和…...

编程日记 2023/11/2 23:12:14

rpc入门笔记 0x02 protobuf的杂七杂八

syntax "proto3"; // 这是个proto3的文件message HelloRequest{ // 创建数据对象string name 1; // name表示名称，编号是1 }生成python文件安装grpcio和grpcio-tools库 pip install grpcio #安装grpc pip install grpcio-tools #安装grpc tools生成…...

编程日记 2023/11/2 23:10:12

keepalived与nginx与MySQL

keepalived VRRP介绍集群（cluster）技术是一种较新的技术，通过集群技术，可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益，其任务调度则是集群系统中的核心技术。集群组成后，可…...

编程日记 2023/11/2 23:08:09

Pod基础概念

Pod是kubernetes中最小的资源管理组件，Pod也是最小化运行容器化应用的资源对象。一个Pod代表着集群中运行的一个进程。kubernetes中其他大多数组件都是围绕着Pod来进行支撑和扩展Pod功能的，例如，用于管理Pod运行的StatefulSet和Deployment等控…...

编程日记 2023/11/2 23:06:06

WebDAV之π-Disk派盘 + 一叶日记

推荐一款操作方便、界面简洁，记录生活点滴与心情，具有诗情画意的日记软件。一叶日记是一款记录日记的手机软件，在这款软件中它里面有着各种不同的工具，可以方便用户去随时随地的记录日记，同时里面还有着各种不同的主题背景，可以供用户去选择使用各种功能，给用户记录带…...

编程日记 2023/11/2 23:05:04

在IDEA运行spark程序（搭建Spark开发环境）

建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境，以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习，在window系统上可以不用安装hadoop和spark，spark程序可以通过pom.xml的文件配置，添加…...

编程日记 2023/11/2 23:04:03

无穷级数例子

计算 lim ⁡ x → ∞ ( 1 n 1 1 n 2 1 n 3 . . . 1 n 2 n − 1 1 n 2 n ) 计算\lim _{x\to \infty} (\frac{1}{n1} \frac{1}{n2}\frac{1}{n3} ... \frac{1}{n2n-1} \frac{1}{n2n} ) 计算x→∞lim(n11n21n31...n2n−11n2n1) 解： lim ⁡ x …...

编程日记 2023/11/2 23:03:02

C++构造函数和析构函数详解

一、构造函数 1、概念构造函数是特殊的成员函数，需要注意的是，构造函数虽然名叫做构造，但是构造函数的主要任务并不是开空间创建对象，而是初始化对象。 2、特征函数名与类名相同。无返回值对象实例化时编译器自动调用对应的…...

编程日记 2023/11/2 23:00:59

MySQL数据库干货_16—— SQL99标准中的查询

SQL99标准中的查询 MySQL5.7 支持部分的SQL99 标准。 SQL99中的交叉连接(CROSS JOIN) 示例： 使用交叉连接查询 employees 表与 departments 表。 select * from employees cross join departments;SQL99中的自然连接(NATURAL JOIN) 自然连接连接只能发生在两…...

编程日记 2023/11/2 22:59:58

LLM大语言模型训练中常见的技术：微调与嵌入

微调（Fine-Tuning）： 微调是一种用于预训练语言模型的技术。在预训练阶段，语言模型（如GPT-3.5）通过大规模的文本数据集进行训练，从而学会了语言的语法、语义和世界知识。然后，在微调阶…...

编程日记 2023/11/2 22:58:57

每日一练 | 网络工程师软考真题Day47

阅读以下关于Linux文件系统和Samba效劳的说明，答复以下【问题1】至【问题3】。【说明】 Linux系统采用了树型多级目录来管理文件，树型结构的最上层是根目录，其他的所有目录都是从根目录生成的。通过Samba可以实现基于Linux操作系统的效劳器和…...

编程日记 2023/11/2 22:57:56

Kafka - 监控工具 Kafka Eagle：实时洞察Kafka集群的利器

文章目录引言Kafka Eagle简介Kafka Eagle的特点Kafka Eagle的优势使用Kafka Eagle的步骤结论引言在现代大数据架构中，Apache Kafka已成为一个不可或缺的组件，用于可靠地处理和传输大规模的数据流。然而，随着Kafka集群规模的不断增长&…...

编程日记 2023/11/2 22:56:55

infercnv hpc东南服务器 .libpath 最终使用monocle2环境安装

安装不成功就用conda安装 conda install -c bioconda bioconductor-infercnv Installing infercnv There are several options for installing inferCNV. Choose whichever you prefer: Option A: Install infercnv from BioConductor (preferred) From within R, run the…...

编程日记 2023/11/2 22:55:54

【音视频 | Ogg】RFC3533 ：Ogg封装格式版本 0(The Ogg Encapsulation Format Version 0)

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...

编程日记 2023/11/2 22:54:53

Hadoop时代落幕，开源大数据将何去何从？

Hadoop时代落幕，谁是大数据的新宠儿？ 1、 1、...

编程日记 2023/11/2 22:52:51

作为一名程序员面临哪些挑战？应该如何应对？

在现今互联网失业潮的大环境下，每一位程序员都面临着被淘汰的风险，但逃避没有用，今天我们就来总结这些挑战与风险，找准自己的方向与定位，做好职业规划，希望这些信息能对大家有所帮助。一、面临的挑战老…...

编程日记 2023/11/2 22:50:47

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2026/2/8 21:59:25

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留，CCA-Attention为LLM长文本建模带来突破性进展琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制（CCA-Attention），…...

编程新知 2026/2/5 4:25:15

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU：如何让RNN变得更聪明？ 在深度学习的世界里，循环神经网络（RNN）以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而，传统RNN存在的一个严重问题——梯度消失&#…...

编程新知 2025/12/24 1:45:14

Java-41 深入浅出 Spring - 声明式事务的支持事务配置 XML模式 XML+注解模式

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2026/2/6 11:05:22

【Go】3、Go语言进阶与依赖管理

前言本系列文章参考自稀土掘金上的【字节内部课】公开课，做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程，它的核心机制是 Goroutine 协程、Channel 通道，并基于CSP（Communicating Sequential Processes&#xff0…...

编程新知 2025/10/7 0:32:40

HTML前端开发：JavaScript 常用事件详解

作为前端开发的核心，JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例： 1. onclick - 点击事件当元素被单击时触发（左键点击） button.onclick function() {alert("按钮被点击了！&…...

编程新知 2025/11/10 10:45:11

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

升级Dledger高可用集群一、主从架构的不足与Dledger的定位主从架构缺陷数据备份依赖Slave节点，但无自动故障转移能力，Master宕机后需人工切换，期间消息可能无法读取。Slave仅存储数据，无法主动升级为Master响应请求&#xff…...

编程新知 2025/9/2 3:37:40

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构，使它们在 VS 解决方案资源管理器中以“组”（Filter）的形式进行分类展示。 🎯 目标通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总（共4种）方法描述是否推荐…...

编程新知 2025/12/4 15:47:17

Pinocchio 库详解及其在足式机器人上的应用

Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库，专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性，并提供了一个通用的框架&…...

编程新知 2025/11/28 5:32:31

用机器学习破解新能源领域的“弃风”难题

音乐发烧友深有体会，玩音乐的本质就是玩电网。火电声音偏暖，水电偏冷，风电偏空旷。至于太阳能发的电，则略显朦胧和单薄。不知你是否有感觉，近两年家里的音响声音越来越冷，听起来越来越单薄？ —…...

编程新知 2026/2/7 22:13:48

引言

一、系统环境

二、LLava环境安装

1、代码下载

2、虚拟环境构建

3、模型预测安装

4、模型训练环境安装

5、flash-attn离线环境安装

三、LLava推理运行

1、启动网页预测(类似服务端与客户端)

2、推理权重下载

llava-v1.5-7b权重下载

clip-vit-large-patch14-336权重下载

3、启动预测模型

四、LLava的lora训练

1、权重下载

2、数据准备

3、训练命令

4、报错处理

5、训练效果

6、训练使用wandb

总结

相关文章：