当前位置：首页 > news >正文

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

news 2025/7/6 22:20:55

一、项目简介

MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。

1.1 主要模型及特性

（1）MiniCPM-Llama3-V 2.5：

参数规模: 8B
性能: 超越GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude 3，⽀持30+种语⾔，多模态对话，增强OCR
和指令跟随能⼒。
部署: 量化、编译优化，可⾼效部署于端侧设备上的CPU和NPU。

（2）MiniCPM-V 2.0

参数规模: 2B
性能: 超越Yi-VL 34B、CogVLM-Chat 17B和Qwen-VL-Chat 10B，可处理任意纵横⽐和180万像素图像（例
如，1344x1344），低幻觉率。

1.2 MiniCPM-Llama3-V 2.5 关键特性

领先的性能
平均得分65.1（OpenCompass），超越多款专有模型。
强⼤的OCR能⼒
处理任意纵横⽐和180万像素图像，OCRBench评分700+，提供全⽂OCR提取和表格到Markdown转换
等⾼级实⽤功能。
值得信赖的⾏为
采⽤RLAIF-V⽅法，幻觉率10.3%，优于GPT-4V-1106。
多语⾔⽀持
⽀持30+种语⾔（含德语、法语、⻄班⽛语、意⼤利语、韩语等）。
⾼效部署
模型量化、CPU/NPU优化，实现端侧设备上的150倍图像编码加速和3倍语⾔解码加速。
易⽤性
⽀持llama.cpp、ollama，GGUF格式量化模型，LoRA微调，流输出，本地WebUI演示和HuggingFace
Spaces交互演示。

1.3 MiniCPM-V 2.0 关键特性

MiniCPM-V 2.0，这是MiniCPM系列的多模态版本。该模型基于MiniCPM 2.4B和SigLip-400M构建，总共有2.8B参数。MiniCPM-V 2.0显示出强⼤的OCR和多模态理解能⼒，在开源模型中的OCRBench上表现出⾊，甚⾄在场景⽂本理解上可以与Gemini Pro相媲美。

前沿性能
在多个基准测试中表现优异（如 OCRBench、TextVQA 等）。
超越 Qwen-VL-Chat 9.6B、CogVLM-Chat 17.4B 和 Yi-VL 34B。
强⼤的 OCR 能⼒，与 Gemini Pro 性能相当。
可信⾏为
使⽤多模态 RLHF 技术防⽌⽣成不符合事实的⽂本。
与 GPT-4V 在防⽌幻觉⽅⾯匹配。
⾼分辨率图像处理
接受 180万像素（例如，1344x1344）的图像，⽀持任意⻓宽⽐。
提升对细粒度视觉信息的感知能⼒。
⾼效能
⾼效部署于⼤多数 GPU 和个⼈电脑，⽀持移动设备。
使⽤感知器重采样技术，降低内存成本并提升速度。
双语⽀持
⽀持英语和中⽂的双语多模态能⼒。
基于 VisCPM 技术，实现跨语⾔的⼀般化多模态能⼒。

⼆、案例实战

2.1 环境配置

conda create -n cpm python=3.11
conda activate cpm# 下载项⽬，并进⾏依赖包安装
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-Vpip install -r requirements.txt
# 单独安装
pip install bitsandbytes streamlit gguf

2. 模型下载

# 前提，安装git和git-lfs【可选，如果已安装，则跳过】
sudo apt update
sudo apt install git
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo
bash
sudo apt-get install git-lfs
git lfs install
# 下载模型，以int4量化的MiniCPM-Llama3-V-2_5为例
git clone https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5-int4

[无法访问外网的同学，可以把上面最后一行改为国内镜像地址：

git clone https://hf-mirror.com/openbmb/MiniCPM-Llama3-V-2_5-int4]

三. 本地 WebUI Demo

3.1 基于 Gradio 实现

# 注意：需要修改脚本 web_demo_2.5.py 中的代码：
# ① model_path = xxx
# ② server_port = xxx
cd MiniCPM-V/
python web_demo_2.5.py

3.2 基于 Streamlit 实现

# 注意：需要修改脚本 web_demo_streamlit-2_5.py 中的代码：
# ① model_path = xxx
# ② model = AutoModel.from_pretrained(model_path, trust_remote_code=True, 
torch_dtype=torch.float16, device_map="cuda")
streamlit run web_demo_streamlit-2_5.py --server.port 6006 --server.address 0.0.0.0

四. 多轮对话

# 注意：需要修改 chat.py 中的代码：
self.model = AutoModel.from_pretrained(model_path, trust_remote_code=True, 
device_map="cuda")
self.model.eval()

新建demo.py

# 案例-多轮对话
from chat import MiniCPMVChat, img2base64
import torch
import json
torch.manual_seed(0)
chat_model = MiniCPMVChat("/root/autodl-tmp/models/MiniCPM-Llama3-V-2_5-int4")
im_64 = img2base64('./assets/airplane.jpeg')
# 第⼀轮对话
msgs = [{"role": "user",
"content": "Tell me the model of this aircraft."}]
inputs = {"image": im_64,
"question": json.dumps(msgs)}
answer = chat_model.chat(inputs)
print(answer)
# 第⼆轮对话
# 传递多轮对话的历史上下⽂
msgs.append({"role": "assistant",
"content": answer})
msgs.append({"role": "user",
"content": "Introduce something about Airbus A380."})inputs = {"image": im_64,
"question": json.dumps(msgs)}
answer = chat_model.chat(inputs)
print(answer)

五. 基于 llama.cpp 推理

5.1 环境配置

# 1. 下载项⽬
git clone -b minicpm-v2.5 https://github.com/OpenBMB/llama.cpp.git
cd llama.cpp
# 2. 安装 g++ (可选，如果已经安装，则跳过)
sudo apt update
sudo apt install g++
# 3. 在项⽬ llama.cpp/ ⽬录下，执⾏命令
make
make minicpmv-cli

5.2 模型量化

# 4. 模型格式转换，hf -> gguf
# 【可选操作】可以直接 下载gguf模型
python ./examples/minicpmv/minicpmv-surgery.py -m /root/autodl-tmp/models/MiniCPM-Llama3-
V-2_5

python ./examples/minicpmv/minicpmv-convert-image-encoder-to-gguf.py -m /root/autodltmp/models/MiniCPM-Llama3-V-2_5 --minicpmv-projector /root/autodl-tmp/models/MiniCPMLlama3-V-2_5/minicpmv.projector --output-dir /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/ 
--image-mean 0.5 0.5 0.5 --image-std 0.5 0.5 0.5

python ./convert.py /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model --outtype f16 --
vocab-type bpe

# 5. quantize int4 version
./quantize /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/model-8B-F16.gguf 
/root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/ggml-model-Q4_K_M.gguf Q4_K_M

5.3 模型推理

# 6. 基于量化版模型进⾏推理
# run f16 version
./minicpmv-cli -m /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/model-8B-F16.gguf --
mmproj /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c 4096 --temp
0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image /root/autodl-tmp/MiniCPMV/assets/airplane.jpeg -p "What is in the image?"

# run quantized int4 version(4bit量化推理)
./minicpmv-cli -m /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/ggml-modelQ4_K_M.gguf --mmproj /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c
4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image /root/autodltmp/MiniCPM-V/assets/airplane.jpeg -p "What is in the image?"

# or run in interactive mode（交互模式）
./minicpmv-cli -m /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/ggml-modelQ4_K_M.gguf --mmproj /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c
4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image /root/autodltmp/MiniCPM-V/assets/airplane.jpeg -i

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

一、项目简介 MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。 1.1 主要模型及特性 （1）MiniCPM-Llama3-V 2.5： 参数规模: 8B性能…...

编程日记 2024/7/27 2:12:08

Docker 搭建Elasticsearch详细步骤

本章教程使用Docker搭建Elasticsearch环境。一、拉取镜像 docker pull docker.elastic.co/elasticsearch/elasticsearch:8.8.2二、运行容器 docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-n...

编程日记 2024/7/27 2:09:05

mysql中提供的函数

文章目录 1.聚合函数2.字符串函数3.数值函数4.日期函数5.流程函数 MySQL 是一个功能强大的关系型数据库管理系统，其中包含了丰富的内置函数，用于处理各种数据操作和查询。这些函数可以分为多种类型，包括字符串函数、数值函数、日期和时间函数…...

编程日记 2024/7/27 2:07:03

加速下载，揭秘Internet Download Manager2024下载器的威力！

1. Internet Download Manager（IDM）是一款广受欢迎的下载管理软件，以其强大的下载加速功能和用户友好的界面著称。 IDM马丁正版下载如下: https://wm.makeding.com/iclk/?zoneid34275 idm最新绿色版一键安装包链接：抓紧保存以…...

编程日记 2024/7/27 2:05:01

oracle 宽表设计

Oracle宽表设计主要涉及到数据库表或视图中字段（列）数量较多的情况。在Oracle 23c及以后的版本中，数据库表或视图中允许的最大列数已增加到4096，这为宽表设计提供了更大的灵活性。以下是对Oracle宽表设计的详细分析： …...

编程日记 2024/7/27 2:04:00

winrar安装好后，鼠标右键没有弹出解压的选项

本来安装挺好的，可以正常使用，有天我把winrar相关的文件挪了个位置，就不能正常使用了。然后我去应用里面找，找到应用标识了，但是找不到对应的文件夹（因为我挪到另外一个文件夹里了）。于是我找…...

编程日记 2024/7/27 2:02:58

数字图像处理笔记（一）---- 图像数字化与显示

系列文章目录数字图像处理学习笔记（一）---- 图像数字化与显示数字图像处理笔记（二）---- 像素加图像统计特征数字图像处理笔记（三) ---- 傅里叶变换的基本原理文章目录系列文章目录前言一、数字图像处理二、图像数…...

编程日记 2024/7/27 2:01:57

Unity UGUI 之事件接口

本文仅作学习笔记与交流，不作任何商业用途本文包括但不限于unity官方手册，唐老狮，麦扣教程知识，引用会标记，如有不足还请斧正本文在发布时间选用unity 2022.3.8稳定版本，请注意分别 1.什么是事件接口&…...

编程日记 2024/7/27 2:00:56

Hadoop、HDFS、MapReduce 大数据解决方案

本心、输入输出、结果文章目录 Hadoop、HDFS、MapReduce 大数据解决方案前言HadoopHadoop 主要组件的Web UI端口和一些基本信息MapReduceMapReduce的核心思想MapReduce的工作流程MapReduce的优缺点Hadoop、HDFS、MapReduce 大数据解决方案编辑 | 简简单单 Online zuozuo 地址…...

编程日记 2024/7/27 1:56:52

Dubbo SPI 之负载均衡

1. 背景介绍在分布式系统中，负载均衡是一项核心技术，旨在将请求合理地分配到多个服务实例上，以提高系统的性能和可靠性。Dubbo 作为一个高性能的 Java RPC 框架，提供了多种负载均衡策略来满足不同的业务需求。本文将深入探讨 Du…...

编程日记 2024/7/27 1:55:52

规范：前后端接口规范

1、前言随着互联网的高速发展，前端页面的展示、交互体验越来越灵活、炫丽，响应体验也要求越来越高，后端服务的高并发、高可用、高性能、高扩展等特性的要求也愈加苛刻，从而导致前后端研发各自专注于自己擅长的领域深耕细作。然…...

编程日记 2024/7/27 1:54:51

Python --NumPy库基础方法（2）

NumPy Numpy(Numerical Python) 是科学计算基础库，提供大量科学计算相关功能，比如数据统计，随机数生成等。其提供最核心类型为多维数组类型（ndarray），支持大量的维度数组与矩阵运算，Numpy支持向…...

编程日记 2024/7/27 1:51:49

音视频入门基础：H.264专题（15）——FFmpeg源码中通过SPS属性获取视频帧率的实现

音视频入门基础：H.264专题系列文章： 音视频入门基础：H.264专题（1）——H.264官方文档下载音视频入门基础：H.264专题（2）——使用FFmpeg命令生成H.264裸流文件音视频入门基础&…...

编程日记 2024/7/27 1:48:46

【C++高阶】哈希之美：探索位图与布隆过滤器的应用之旅

📝个人主页🌹：Eternity._ ⏩收录专栏⏪：C “ 登神长阶 ” 🤡往期回顾🤡：模拟实现unordered 的奥秘 🌹🌹期待您的关注 🌹🌹 ❀哈希应用 &#x1f4…...

编程日记 2024/7/27 1:47:45

文件包涵条件竞争（ctfshow82）

Web82 利用 session.upload_progress 包含文件漏洞 <!DOCTYPE html> <html> <body> <form action"https://09558c1b-9569-4abd-bf78-86c4a6cb6608.challenge.ctf.show//" method"POST" enctype"multipart/form-data"> …...

编程日记 2024/7/27 1:44:43

通信原理-思科实验三：无线局域网实验

实验三无线局域网实验一：无线局域网基础服务集实验步骤： 进入物理工作区，导航选择城市家园; 选择设备 AP0，并分别选择Laptop0、Laptop1放在APO范围外区域修改笔记本的网卡，从以太网卡切换到无线网卡WPC300N 切…...

编程日记 2024/7/27 1:41:40

*算法训练（leetcode）第三十一天 | 1049. 最后一块石头的重量 II、494. 目标和、474. 一和零

刷题记录 *1049. 最后一块石头的重量 II*494. 目标和474. 一和零 *1049. 最后一块石头的重量 II leetcode题目地址本题与分割等和子集类似，要达到碰撞最后的石头重量最小，则尽可能把石头等分为两堆。时间复杂度： O ( m ∗ n ) O(m * n)…...

编程日记 2024/7/27 1:36:34

mac中如何使用obs推流以及使用vlc播放

使用obs推流 1.打开obs，在“来源”框中->点加号->选择媒体源->选择本地ts文件 2.obs中->点击右下角设置->点直播->服务选自定义->服务器填写你的srt服务url，比如：srt://192.168.13.211:14000?modecaller 注意&#xff…...

编程日记 2024/7/27 1:35:33

shopee虾皮 java后端一面面经整体感觉不难

面试总结：总体不难，算法题脑抽了只过了一半，面试官点出了问题说时间到了，反问一点点，感觉五五开，许愿一个二面 1.Java中的锁机制，什么是可重入锁 Java中的机制主要包括 synchronized关键字 Loc…...

编程日记 2024/7/27 1:33:31

HydraRPC: RPC in the CXL Era——论文阅读

ATC 2024 Paper CXL论文阅读笔记整理问题远程过程调用（RPC）是分布式系统中的一项基本技术，它允许函数在远程服务器上通过本地调用执行来促进网络通信，隐藏底层通信过程的复杂性简化了客户端/服务器交互[15]。RPC已成为数据中心…...

编程日记 2024/7/27 1:32:30

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2025/7/6 18:34:54

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2025/7/6 13:04:37

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2025/7/5 14:38:33

ardupilot 开发环境eclipse 中import 缺少C++

目录文章目录目录摘要1.修复过程摘要本节主要解决ardupilot 开发环境eclipse 中import 缺少C++，无法导入ardupilot代码，会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…...

编程新知 2025/6/25 22:08:54

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景随着大语言模型（LLM）的广泛应用，开发者常面临多个挑战：各大模型（OpenAI、Claude、Gemini、Ollama）接口风格不统一；缺乏一个统一平台进行模型调用与测试；本地模型 Ollama 的集成与前…...

编程新知 2025/7/6 3:52:18

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍： img 属性指定分区存放的 image 名称，指定的 image 名称必须是当前工程生成的 binary 。如果 binary 有多个文件，则以 proj_name:binary_name 格式指定文件名， proj_name 为工程名&…...

编程新知 2025/7/6 9:12:58

【Go语言基础【12】】指针：声明、取地址、解引用

文章目录零、概述：指针 vs. 引用（类比其他语言）一、指针基础概念二、指针声明与初始化三、指针操作符1. &：取地址（拿到内存地址）2. *：解引用（拿到值） 四、空指针&am…...

编程新知 2025/6/21 2:18:57

Linux 中如何提取压缩文件？

Linux 是一种流行的开源操作系统，它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间，使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的，要在 …...

编程新知 2025/7/6 7:20:24

安卓基础（Java 和 Gradle 版本）

1. 设置项目的 JDK 版本方法1：通过 Project Structure File → Project Structure... (或按 CtrlAltShiftS) 左侧选择 SDK Location 在 Gradle Settings 部分，设置 Gradle JDK 方法2：通过 Settings File → Settings... (或 CtrlAltS)…...

编程新知 2025/6/15 15:25:21

WPF八大法则：告别模态窗口卡顿

⚙️ 核心问题：阻塞式模态窗口的缺陷原始代码中ShowDialog()会阻塞UI线程，导致后续逻辑无法执行： var result modalWindow.ShowDialog(); // 线程阻塞 ProcessResult(result); // 必须等待窗口关闭根本问题&#xff1a…...

编程新知 2025/7/5 22:35:42

一、项目简介

⼆、案例实战

三. 本地 WebUI Demo

四. 多轮对话

五. 基于 llama.cpp 推理

相关文章：