多模态大模型部署:结合dify
文章目录
- 前言
- minicpm-v
- Dify
- 测试一下
- 总结
- 部署过程回顾
- 集成与测试
- 实验结果分析
- 展望未来
前言
上回说道,我们用ollama部署了一个多模态的大模型,也就是minicpm-v:

但这玩意儿感觉只能打字啊。
怎么给它发图片呢?
minicpm-v
MiniCPM-V 是面壁智能推出的一个开源多模态大模型系列,它专注于图文理解,并且能够在端侧设备(例如智能手机、平板电脑等)上运行。这个系列的模型接受图像和文本输入,并能够提供高质量的文本输出。
自2024年2月以来,MiniCPM-V 系列共发布了多个版本模型,旨在实现领先的性能和高效的部署。其中,最引人注目的是 MiniCPM-V 2.6 模型,这是该系列中最新且性能最佳的模型,拥有8亿参数。MiniCPM-V 2.6 基于 SigLip-400M 和 Qwen2-7B 构建,相较于之前的版本,在单图、多图以及视频理解方面有了显著的性能提升,并引入了新的功能。
MiniCPM-V 模型的特点包括但不限于:
- 高效推理和低内存占用:这使得它们非常适合在移动设备或个人电脑等资源有限的环境中使用。
- 强大的OCR能力:这意味着它可以准确地识别并处理图像中的文字信息。
- 多语言支持:能够理解和生成多种语言的文本,提高了模型的通用性和适用范围。
- 实时视频理解:MiniCPM-V 2.6 成为了首个能够在iPad等端侧设备上进行实时视频理解的多模态大模型,这一特性对于需要即时反馈的应用场景尤为重要。
此外,MiniCPM-V 还强调了其在多模态文档检索增强生成(RAG)中的应用,展示了它在处理包含复杂图文交错内容的文档时的强大能力。
MiniCPM-V 的设计考虑到了实际应用场景的需求,如智能手机和平板电脑上的图片和视频内容的实时理解和处理,以及支持多轮对话的能力,这些都极大地扩展了它的实用价值。
综上所述,MiniCPM-V 是一个集成了图像和文本处理能力的强大工具,它不仅在技术性能上有所突破,同时也为开发者提供了丰富的可能性,以便在其基础上开发出更多创新的应用和服务。如果你有兴趣深入了解如何使用或者部署 MiniCPM-V,可以参考相关的GitHub项目页面或其他官方提供的教程和指南。
Dify
我们直接把这个模型注册到dify的模型供应商里:

因为咱之前用过这个ollama,所以只需要增加模型即可。

是否支持视觉?
选择是

不错,成功了。
测试一下

还是熟悉的配方

选到咱的多模态大模型。

增加选择图片的功能。

不是很智能的样子。
总结
在本篇文章中,我们探讨了如何使用 Ollama 部署 MiniCPM-V 这个多模态大模型,并通过 Dify 平台来测试其功能。MiniCPM-V 作为一款专注于图文理解的模型,它不仅能够处理文本输入,还能接受图像作为输入,并提供高质量的文本输出 。这使得它成为处理多模态数据的理想选择,特别是在需要实时反馈的应用场景中,如智能手机和平板电脑上的图片和视频内容的理解 。
部署过程回顾
首先,我们成功地利用 Ollama 部署了 MiniCPM-V 模型,这是一个开源的大模型管理工具,允许用户便捷地运行多种大型开源模型 。通过 Ollama 的命令行界面或前端界面,我们可以轻松地下载并运行 MiniCPM-V 模型,从而为后续的实验提供了基础平台。
集成与测试
接下来,我们将这个模型集成到了 Dify 平台上。Dify 提供了一个直观的界面,使得即使是对技术不太熟悉的用户也能快速上手。我们特别关注了是否支持视觉输入这一点,因为这是 MiniCPM-V 的一大亮点。经过简单的配置后,我们确认该模型确实支持图像输入,这意味着它可以用于处理更复杂的任务,比如图像描述生成、基于图像的问答等 。
实验结果分析
尽管初步测试显示模型的表现可能未达到预期的智能水平,但这并不意味着模型本身存在问题。相反,这可能是由于测试条件或者使用的数据集不够理想所导致。对于任何机器学习模型来说,性能往往依赖于训练数据的质量和多样性以及具体的调优策略 。因此,进一步优化模型参数、增加更多的训练样本或改进数据预处理方法都可能提升模型的表现。
展望未来
展望未来,随着 MiniCPM-V 模型的不断迭代和发展,我们可以期待看到更加智能化的应用出现。例如,在教育领域,可以开发出辅助教学的系统;在医疗保健行业,可以帮助医生解读医学影像;在日常生活中,还可以创建个性化的虚拟助手来帮助用户解决各种问题 。
总之,虽然目前的实验结果显示模型还有改进的空间,但 MiniCPM-V 已经展示了其在多模态数据处理方面的巨大潜力。通过持续的研究和技术进步,相信这一类模型将会在未来发挥更大的作用,推动人工智能技术向着更高的层次发展 。
相关文章:
多模态大模型部署:结合dify
文章目录 前言minicpm-vDify测试一下总结部署过程回顾集成与测试实验结果分析展望未来 前言 上回说道,我们用ollama部署了一个多模态的大模型,也就是minicpm-v: 但这玩意儿感觉只能打字啊。 怎么给它发图片呢? minicpm-v Mini…...
Matlab Steger提取条纹中心(非极大值抑制)
文章目录 一、简介二、实现代码三、实现效果一、简介 由于在确定条纹的ROI区域之后,会计算出多个条纹中心坐标,因此这里就需要对其进行则优选择,毕竟条纹只有一条,这最简单的方式就是使用非极大值抑制,即选择每一行/列最好的条纹中心。 二、实现代码 Hessian2D.m function…...
springboot + vue+elementUI图片上传流程
1.实现背景 前端上传一张图片,存到后端数据库,并将图片回显到页面上。上传组件使用现成的elementUI的el-upload。、 2.前端页面 <el-uploadclass"upload-demo"action"http://xxxx.xxx.xxx:9090/file/upload" :show-file-list&q…...
LabVIEW 系统诊断
LabVIEW 系统诊断是指通过各种工具和方法检测、评估、分析和解决 LabVIEW 程序和硬件系统中可能存在的故障和性能问题。系统诊断不仅涵盖软件层面的调试与优化,还包括硬件交互、数据传输、实时性能等方面的检查和分析。一个成功的系统诊断能够显著提升LabVIEW应用程…...
韩国机场WebGIS可视化集合Google遥感影像分析
目录 前言 一、相关基础数据介绍 1、韩国的机场信息 2、空间数据准备 二、Leaflet叠加Google地图 1、叠加google地图 2、空间点的标记及展示 3、韩国机场空间分布 三、相关成果展示 1、务安国际机场 2、有同类问题的机场 四、总结 前言 12月29日8时57分左右务安国际机…...
springCloudGateWay使用总结
1、什么是网关 功能: ①身份认证、权限验证 ②服务器路由、负载均衡 ③请求限流 2、gateway搭建 2.1、创建一个空项目 2.2、引入依赖 2.3、加配置 3、断言工厂 4、过滤工厂 5、全局过滤器 6、跨域问题...
使用new Vue创建Vue 实例并使用$mount挂载到元素上(包括el选项和$mount区别)
new Vue({...}) 是创建一个新的 Vue 实例的方式。你可以通过传递一个选项对象来配置这个实例。常见的选项包括: •data:定义组件的数据属性。 •el:指定 Vue 实例应该挂载到哪个 DOM 元素上(通常是一个选择器字符串,如…...
GTX750Ti打DP补丁
背景 咸鱼收了一个二手的GTX750Ti,用于4K60Hz显示器,HDMI接口勉强可以4K60Hz,不过色彩和帧率都不是太正常,理论上它的HDMI接口是不支持的,原本也是打算用DP接口接显示器的,但是发现接DP口之后无法通过bios的vga检测最终一直重启,在华硕B760-K的BIOS中使能CSM是可以使用…...
springmvc前端传参,后端接收
RequestMapping注解 Target({ElementType.METHOD, ElementType.TYPE}) Retention(RetentionPolicy.RUNTIME) Documented Mapping public interface RequestMapping {String name() default "";AliasFor("path")String[] value() default {};AliasFor(&quo…...
PyTorch 张量的分块处理介绍
分块处理是将大型张量分解成较小的块,以便更高效地进行计算,减少内存占用,特别适用于处理超大张量的场景(如深度学习中的大批量数据或大型模型训练)。 PyTorch 提供了多种方法来分块张量,包括 chunk、spli…...
在Ubuntu中使用systemd设置后台自启动服务
引言 在Ubuntu系统中,systemd 是一个非常强大的系统和服务管理器。它不仅负责系统的启动和初始化,还可以帮助我们管理各种后台服务。通过使用 systemd,我们可以轻松地设置服务在系统启动时自动运行,并且能够方便地管理服务的启动…...
mongodb清理删除历史数据
批量清理mongodb历史数据 清理程序的原来 目前项目组上很多平台上线历史数据积压,导致入库查询数据缓慢,历史数据有些已经归档,进行历史数据清理删除。 之前临时写shell脚本,太简陋,重新使用Python进行改造,…...
C++字体库开发之字体回退策略十六
回退表 { "blocks": [ "UBLOCK_BASIC_LATIN", ], "font": { "family": "Noto Sans SC", "style": [ { "name": "Thin", …...
IO进程day3
一、思维导图 二、作业1 使用C语言编写一个简易的界面,界面如下 1:标准输出流 2:标准错误流 3:文件流 要求:按1的时候,通过printf输出数据,按2的时候,通过perror输出数据,…...
【多线程初阶篇¹】线程理解| 线程和进程的区别
目录 一、认识线程Thread 1.为啥引入线程 2.线程理解 🔥 3.面试题:线程和进程的区别 一、认识线程Thread 1.为啥引入线程 为了解决进程太重量的问题 解释(为什么说线程比进程更轻量?/为什么说线程创建/销毁开销比进程小&#…...
wireshark排除私接小路由
1.wireshark打开,发现了可疑地址,合法的地址段DHCP是192.168.100.0段的,打开后查看发现可疑地址段,分别是,192.168.0.1 192.168.1.174 192.168.1.1。查找到它对应的MAC地址。 ip.src192.168.1.1 2.通过show fdb p…...
Docker 从入门到精通
文章目录 Ubuntu 安装Docker步骤前言1. 进入Docker官网,进入开发者页面2. 选择适合自己的安装方式3. 安装 Docker1.更新系统包,安装插件,创建秘钥及目录2.安装 Docker 软件包3.设置开机启动4.通过运行 hello-world 镜像验证安装是否成功 常见…...
uni app 写的 小游戏,文字拼图?文字拼写?不知道叫啥
从下方的偏旁部首中选在1--3个组成上面文章中的文字,完成的文字标红 不喜勿喷 《满江红》 其中用到了两个文件 strdata.json parameters.json 这两个文件太大 放到资源中了 资源文件 <template><view class"wenzi_page_main"><view c…...
Qt监控系统远程网络登录/请求设备列表/服务器查看实时流/回放视频/验证码请求
一、前言说明 这几个功能是近期定制的功能,也非常具有代表性,核心就是之前登录和设备信息都是在本地,存放在数据库中,数据库可以是本地或者远程的,现在需要改成通过网络API请求的方式,现在很多的服务器很强…...
案例研究:UML用例图中的结账系统
在软件工程和系统分析中,统一建模语言(UML)用例图是一种强有力的工具,用于描述系统与其用户之间的交互。本文将通过一个具体的案例研究,详细解释UML用例图的关键概念,并说明其在设计结账系统中的应用。 用…...
React hook之useRef
React useRef 详解 useRef 是 React 提供的一个 Hook,用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途,下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...
Admin.Net中的消息通信SignalR解释
定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...
3.3.1_1 检错编码(奇偶校验码)
从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...
《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)
CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...
【机器视觉】单目测距——运动结构恢复
ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛…...
(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...
如何将联系人从 iPhone 转移到 Android
从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...
深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南
🚀 C extern 关键字深度解析:跨文件编程的终极指南 📅 更新时间:2025年6月5日 🏷️ 标签:C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言🔥一、extern 是什么?&…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...
论文笔记——相干体技术在裂缝预测中的应用研究
目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术:基于互相关的相干体技术(Correlation)第二代相干体技术:基于相似的相干体技术(Semblance)基于多道相似的相干体…...
