PaddleMIX学习笔记(1)
写在前面
之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。
国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。
众所周知,目前在LLM领域比较成熟的场景,还是文字方面,包括文字的阅读和生成,即对输入内容的处理和根据提示输出文字两种,大家看到的也都很多了。但是我的工作内容需要对图片,特别是各种报告中的图进行解读和处理,目前还没有很好的案例,于是自己就想基于PP做一些尝试,所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法,也请在评论里不吝赐教。
简介
PaddleMix的前身是ppdiffusers,最开始只是专注在扩散模型。众所周知GAI早期重视Prompt,到2023年中开始重视多模态和Agent后,ppdiffusers从PaddleNLP独立出来,专注于多模态。
https://github.com/PaddlePaddle/PaddleMIX
官方的介绍是:PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。
2023.7.31 发布 PaddleMIX v0.1,这个版本是从PPDiffusers升级后发布的第一个版本。
2023.10.7 发布 PaddleMIX v1.0,算是第一个正式版。
特性
这里也直接摘取官方的介绍了
- 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能
- 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
- 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能业界领先
- 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型
模型库
包括两大类,多模态预训练库和扩散类模型,简单讲就是一个是用于训练的,一个是用于应用的。
多模态预训练库包括
- 图文预训练
- EVA-CLIP
- CoCa
- CLIP
- BLIP-2
- miniGPT-4
- VIsualGLM
- 开放世界视觉模型
- Grounding DINO
- SAM
- 更多模态预训练模型
- ImageBind
扩散类模型包括
- 文生图
- Stable Diffusion
- ControlNet
- LDM
- Unidiffuser
- 文生视频
- LVDM
- 音频生成
- AudioLDM
代码结构
-
applications
应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下,虽然PaddleMix项目已经建立了独立的repo,但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP,参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst
这里包括了开放世界检测分割(Openset-Det-Sam),自动标注(AutoLabel),检测框引导的图像编辑(Det-Guided-Inpainting),文图生成(Text-to-Image Generation),文本引导的图像放大(Text-Guided Image Upscaling),文本引导的图像编辑(Text-Guided Image Inpainting),文本引导的图像变换(Image-to-Image Text-Guided Generation),文本条件的视频生成(Text-to-Video Generation),音频生成图像(Audio-to-Image Generation),音频描述(Audio-to-Caption Generation),音频对话(Audio-to-Chat Generation),音乐生成(Music Generation)这么几个应用。
前边三个都是比较传统,在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合,称得上是真正的多模态的应用。 -
deploy 导出和部署训练后的模型
-
docs/demo 就俩图片,没有文档
-
paddlemix
项目的核心目录,主要包括如下几个目录
1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow,是用于解决具体场景,打包的应用流程,算是一个轻量级的sdk吧。比如text2image_generation,定义了StableDiffusionTask,只需要将任务所需的参数封装到AppTask中作为入参给到这个Task,后边就启动这个任务就行了,至于构建模型_construct_model,预处理_preprocess,以及运行模型_run_model,都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。
2).datasets 数据集,提供了数据集处理的工具,不是实际的数据集。
3).examples 代码样例,包含了visualglm,groundingdion等样例。每个样例基本都可以直接在git clone安装依赖后,通过run_predict.py执行。
4).models 模型处理工具类,针对用到的不同模型,有各自的训练处理工具。
5).processors 数据预处理工具类,包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。
6).trainer 模型训练工具类,用来做调优和预/训练等。 -
ppdiffusers
扩散模型的核心目录,也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集,虽然整合到了paddlemix中,但是还是可以单独使用的,也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立,目前是在2023.9.27日发布了0.19.3版本。
ppdiffusers目录的结构和上层paddlemix的结构类似,也包含了类似appflow的scheduler,训练工具models,部署工具deploy等 -
scripts 脚本.主要包含了一个扩散模型转换的脚本,用于其他扩散模型转换到paddle的模型,还有一个是cocoeval,用于基于coco验证集评估模型。
-
tests 测试用例,主要包括了appflow和models两个测试集。
另外在测试中遇到的几个基础问题简单给大家提个醒。
1.如果测试环境使用虚机,要开启VT嵌套,否则会因为不支持AVX指令集,而导致会提示illegal instruction。或者使用windows的WSL。
2.PPMix项目存在国内大多项目存在的问题,文档并不够完善。PaddleMix项目目前是独立的,在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时,一定要去PaddlePaddle项目和PaddleNLP项目里找,把相关的前置依赖都安装好,一般就没什么问题了。
3.接2,安装文档中很多pyhon依赖都指向了清华的镜像,个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像,目前没有发现版本等问题,速度也很快。不知道为什么百度官方的文档不使用自己的镜像,很是诡异,难道是复制的ChatGLM的文档?。
4.如果有可能,可以使用百度的aistudio的juypter环境来做测试,会比自己搭建要省事不少。
相关文章:
PaddleMIX学习笔记(1)
写在前面 之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。 国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。 众所周知…...
【网络协议】聊聊HTTPS协议
前面的文章,我们描述了网络是怎样进行传输数据包的,但是网络是不安全的,对于这种流量门户网站其实还好,对于支付类场景其实容易将数据泄漏,所以安全的方式是通过加密,加密方式主要是对称加密和非对称加密。…...
2023.11.2事件纪念
然而造化又常常为庸人设计,以时间的流逝,来洗涤旧迹,仅以留下淡红的血色和微漠的悲哀。 回顾这次事件,最深的感触就是什么是团队的力量! 当我们看到希望快要成功的时候,大家洋溢出兴奋开心的表情,一起的欢声笑语;但看…...
Scala和Play WS库编写的爬虫程序
使用Scala和Play WS库编写的爬虫程序,该程序将爬取网页内容: import play.api.libs.ws._ import scala.concurrent.ExecutionContext.Implicits.global object BaiduCrawler {def main(args: Array[String]): Unit {val url ""val proxy…...
佳易王配件进出库开单打印进销存管理系统软件下载
用版配件进出库开单打印系统,可以有效的管理:供货商信息,客户信息,进货入库打印,销售出库打印,进货明细或汇总统计查询,销售出库明细或汇总统计查询,库存查询,客户往来账…...
【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...
【C语言:函数栈帧的创建与销毁】
文章目录 前言一、前期准备1.寄存器2.汇编指令3.测试代码 二、解开函数栈帧的神秘面纱1.栈帧大体轮廓2.main函数栈帧的创建3.main函数内执行有效代码4.烫烫烫5.函数参数的传递6.add函数栈帧的创建7.add函数内执行有效代码8.add是如何获得参数的9. add函数栈帧的销毁10.main函数…...
怎么在C++中实现云端存储变量
随着云计算技术的快速发展,现在我们可以将数据存储在云端,以便于在不同设备和地点访问。在C中,我们也可以通过一些方法来实现这个功能。本文将详细介绍如何在C中实现云端存储变量。 首先,我们需要理解,C本身并没有直接…...
短视频矩阵营销系统工具如何助力商家企业获客?
1.批量剪辑技术研发 做的数学建模算法,数学阶乘的组合乘组形式,采用两套查重机制,一套针对素材进行查重抽帧素材,一套针对成片进行抽帧素材打分制度查重,自动滤重计入打分。 2.账号矩阵分发开发 多平台,…...
PCL 计算一个平面与包围盒体素的相交线
文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 基于之前计算的包围盒体素(PCL 包围盒体素化显示),这里使用一个平面与其进行相交,并求出与其中体素单元的相交线。 二、实现代码 //标准文件 #include <iostream> #include <thread>//PCL...
面向教育的计算机视觉和深度学习5
面向教育的计算机视觉和深度学习5 1. 好处智能内容(Smart Content)任务自动化(Task Automation)缩小技能差距(Closing Skill Gap) 2. 应用程序学生学习与福利(Student Learning and Welfare&…...
FPGA芯片内部结构
参考链接:FPGA的进阶之第二章FPGA芯片内部结构(2)...
人工智能AI创作系统ChatGPT网站系统源码+AI绘画系统支持GPT4.0/支持Midjourney局部重绘
一、前言 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建…...
Google 开源项目风格指南
目录 C 风格指南 Objective-C 风格指南 Python 风格指南 Shell 风格指南 TypeScript 风格指南 Javascript 风格指南 HTML/CSS 风格指南 C 风格指南 C 风格指南 - 内容目录 — Google 开源项目风格指南 Objective-C 风格指南 Objective-C 风格指南 - 内容目录 — Googl…...
无限上下文,多级内存管理!突破ChatGPT等大语言模型上下文限制
目前,ChatGPT、Llama 2、文心一言等主流大语言模型,因技术架构的问题上下文输入一直受到限制,即便是Claude 最多只支持10万token输入,这对于解读上百页报告、书籍、论文来说非常不方便。 为了解决这一难题,加州伯克利…...
学习剑指jvm
一直弱,jvm 1、主要解决运行状态的线上系统突然卡死,造成系统无法访问,甚至直接内存溢出异常(Out of Memory,OOM) 2、希望解决线上JVM垃圾回收的相关问题,但无从下手。 3、新项目上线,对设置…...
java网络通信
浏览器中输入:“www.woaijava.com”之后都发生了什么? 请详细阐述 由域名→IP地址 寻找IP地址的过程依次经过了浏览器缓存、系统缓存、hosts文件、路由器缓存、 递归搜索根域名服务器。 建立TCP/IP连接(三次握手具体过程) 由浏览…...
Three.js之加载外部三维模型
参考资料 建模软件绘制3D场景…加载.gltf文件(模型加载全流程) 知识点 注:基于Three.jsv0.155.0 三维建模软件gltf格式加载.gltf文件 三维建模软件 D美术常用的三维建模软件,比如Blender、3dmax、C4D、maya等等 Blender(轻量开源)3dmaxC4Dmaya 特…...
【机器学习】正规方程与梯度下降API及案例预测
正规方程与梯度下降API及案例预测 文章目录 正规方程与梯度下降API及案例预测1. 正规方程与梯度下降正规方程(Normal Equation)梯度下降(Gradient Descent) 2. API3. 波士顿房价预测 1. 正规方程与梯度下降 回归模型是机器学习中…...
【SOC基础】单片机学习案例汇总 Part2:蜂鸣器、数码管显示
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...
互联网产品创新:基于Qwen3-ASR-0.6B的在线教育实时字幕解决方案
互联网产品创新:基于Qwen3-ASR-0.6B的在线教育实时字幕解决方案 1. 引言 想象一下,你正在上一节重要的在线直播课,老师讲得飞快,有些专业术语没听清,或者因为网络波动声音断断续续。又或者,你身处一个嘈杂…...
Aircrack-ng进阶指南:如何高效生成和使用密码字典提升破解成功率
Aircrack-ng高阶实战:密码字典工程的艺术与科学 在网络安全领域,密码字典的质量往往决定了渗透测试的成败。就像锁匠需要精心打造的开锁工具一样,安全研究人员需要构建精准高效的密码字典来评估系统安全性。本文将深入探讨如何通过系统化的字…...
快速掌握Clarke与Park变换的几何本质
1. 从三相坐标系到静止两相系的几何之旅 想象一下你站在一个布满彩色灯带的游乐场中央,头顶有三盏呈120度分布的聚光灯(A、B、C相),它们交替明暗形成旋转的光影。Clarke变换就像给你戴上一副特殊眼镜,能将三盏灯的光影…...
C# DateTime.ParseExact实战:如何避免日期字符串转换中的常见坑(附完整代码示例)
C# DateTime.ParseExact实战:如何避免日期字符串转换中的常见坑(附完整代码示例) 在数据处理和用户交互场景中,日期字符串的精确解析是每个C#开发者必须掌握的技能。想象一下这样的场景:你的应用程序需要处理来自不同地…...
如何快速使用wiliwili:Switch本地视频播放完全指南
如何快速使用wiliwili:Switch本地视频播放完全指南 【免费下载链接】wiliwili 专为手柄控制设计的第三方跨平台B站客户端,目前可以运行在PC全平台、PSVita、PS4 和 Nintendo Switch上 项目地址: https://gitcode.com/GitHub_Trending/wi/wiliwili …...
Windows下用C语言实现控制台鼠标交互:从获取坐标到点击响应全流程
Windows控制台鼠标交互开发实战:C语言实现精准坐标捕获与事件响应 引言:当命令行遇上图形交互 在大多数开发者印象中,控制台程序总是与键盘输入绑定在一起——那个闪烁的光标等待着用户键入命令,然后返回几行单调的文字输出。但Wi…...
STLM20DD9F温度传感器驱动库解析与STM32工程实践
1. STLM20DD9F温度传感器驱动库深度解析与工程实践1.1 器件特性与选型依据STLM20DD9F是意法半导体(STMicroelectronics)推出的高精度、低功耗模拟输出温度传感器,采用SOT-23-5封装,专为嵌入式系统中的环境与结温监测而设计。其核心…...
OpenClaw+Qwen3-VL:30B:低成本搭建飞书多模态机器人
OpenClawQwen3-VL:30B:低成本搭建飞书多模态机器人 1. 为什么选择本地部署多模态助手? 去年我在团队内部尝试用商业API搭建了一个飞书机器人,用于处理日常的图片识别和文档分析需求。三个月后收到账单时,发现仅图片识别这一项功…...
ib_insync与pandas集成:金融数据分析的完整解决方案
ib_insync与pandas集成:金融数据分析的完整解决方案 【免费下载链接】ib_insync Python sync/async framework for Interactive Brokers API 项目地址: https://gitcode.com/gh_mirrors/ib/ib_insync 想要在Python中高效处理Interactive Brokers的金融数据吗…...
ESP32嵌入式Web文件管理器:支持SPIFFS/LittleFS/SD卡
1. EspWebFileManager 库概述EspWebFileManager 是一款专为 ESP32 平台设计的嵌入式 Web 文件管理中间件库,其核心目标是将本地文件系统操作能力通过轻量级 HTTP 服务暴露至浏览器端,实现免串口、免烧录工具的现场文件运维。该库并非独立文件系统驱动&am…...
