当前位置：首页 > news >正文

PaddleMIX学习笔记(1)

news 2025/7/8 22:45:54

写在前面

之前对HyperLedger的阅读没有完全结束，和很多朋友一样，同时也因为工作的需要，最近开始转向LLM方向。
国内在大模型方面生态做的最好的，目前还是百度的PaddlePaddle，所以自己也就先从PP开始看起了。
众所周知，目前在LLM领域比较成熟的场景，还是文字方面，包括文字的阅读和生成，即对输入内容的处理和根据提示输出文字两种，大家看到的也都很多了。但是我的工作内容需要对图片，特别是各种报告中的图进行解读和处理，目前还没有很好的案例，于是自己就想基于PP做一些尝试，所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法，也请在评论里不吝赐教。

简介

PaddleMix的前身是ppdiffusers，最开始只是专注在扩散模型。众所周知GAI早期重视Prompt，到2023年中开始重视多模态和Agent后，ppdiffusers从PaddleNLP独立出来，专注于多模态。
https://github.com/PaddlePaddle/PaddleMIX

官方的介绍是：PaddleMIX是基于飞桨的跨模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，文生图，文生视频等丰富的跨模态任务。

2023.7.31 发布 PaddleMIX v0.1，这个版本是从PPDiffusers升级后发布的第一个版本。
2023.10.7 发布 PaddleMIX v1.0，算是第一个正式版。

特性

这里也直接摘取官方的介绍了

丰富的多模态功能: 覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能
简洁的开发体验: 模型统一开发接口，高效实现自定义模型开发和功能实现
高效的训推流程: 全量模型打通训练推理一站式开发流程，BLIP-2，Stable Diffusion等重点模型训推性能业界领先
超大规模训练支持: 可训练千亿规模图文预训练模型，百亿规模文生图底座模型

模型库

包括两大类，多模态预训练库和扩散类模型，简单讲就是一个是用于训练的，一个是用于应用的。

多模态预训练库包括

图文预训练
- EVA-CLIP
- CoCa
- CLIP
- BLIP-2
- miniGPT-4
- VIsualGLM
开放世界视觉模型
- Grounding DINO
- SAM
更多模态预训练模型
- ImageBind

扩散类模型包括

文生图
- Stable Diffusion
- ControlNet
- LDM
- Unidiffuser
文生视频
- LVDM
音频生成
- AudioLDM

代码结构

applications
应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下，虽然PaddleMix项目已经建立了独立的repo，但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP，参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst
这里包括了开放世界检测分割（Openset-Det-Sam），自动标注（AutoLabel），检测框引导的图像编辑（Det-Guided-Inpainting），文图生成（Text-to-Image Generation），文本引导的图像放大（Text-Guided Image Upscaling），文本引导的图像编辑（Text-Guided Image Inpainting），文本引导的图像变换（Image-to-Image Text-Guided Generation），文本条件的视频生成（Text-to-Video Generation），音频生成图像（Audio-to-Image Generation），音频描述（Audio-to-Caption Generation），音频对话（Audio-to-Chat Generation），音乐生成（Music Generation）这么几个应用。
前边三个都是比较传统，在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合，称得上是真正的多模态的应用。
deploy 导出和部署训练后的模型
docs/demo 就俩图片，没有文档
paddlemix
项目的核心目录，主要包括如下几个目录
1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow，是用于解决具体场景，打包的应用流程，算是一个轻量级的sdk吧。比如text2image_generation，定义了StableDiffusionTask，只需要将任务所需的参数封装到AppTask中作为入参给到这个Task，后边就启动这个任务就行了，至于构建模型_construct_model，预处理_preprocess，以及运行模型_run_model，都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。
2).datasets 数据集，提供了数据集处理的工具，不是实际的数据集。
3).examples 代码样例，包含了visualglm，groundingdion等样例。每个样例基本都可以直接在git clone安装依赖后，通过run_predict.py执行。
4).models 模型处理工具类，针对用到的不同模型，有各自的训练处理工具。
5).processors 数据预处理工具类，包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。
6).trainer 模型训练工具类，用来做调优和预/训练等。
ppdiffusers
扩散模型的核心目录，也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集，虽然整合到了paddlemix中，但是还是可以单独使用的，也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立，目前是在2023.9.27日发布了0.19.3版本。
ppdiffusers目录的结构和上层paddlemix的结构类似，也包含了类似appflow的scheduler，训练工具models,部署工具deploy等
scripts 脚本.主要包含了一个扩散模型转换的脚本，用于其他扩散模型转换到paddle的模型，还有一个是cocoeval，用于基于coco验证集评估模型。
tests 测试用例，主要包括了appflow和models两个测试集。

另外在测试中遇到的几个基础问题简单给大家提个醒。
1.如果测试环境使用虚机，要开启VT嵌套，否则会因为不支持AVX指令集，而导致会提示illegal instruction。或者使用windows的WSL。
2.PPMix项目存在国内大多项目存在的问题，文档并不够完善。PaddleMix项目目前是独立的，在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时，一定要去PaddlePaddle项目和PaddleNLP项目里找，把相关的前置依赖都安装好，一般就没什么问题了。
3.接2，安装文档中很多pyhon依赖都指向了清华的镜像，个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像，目前没有发现版本等问题，速度也很快。不知道为什么百度官方的文档不使用自己的镜像，很是诡异，难道是复制的ChatGLM的文档？。
4.如果有可能，可以使用百度的aistudio的juypter环境来做测试，会比自己搭建要省事不少。

PaddleMIX学习笔记(1)

写在前面

简介

特性

模型库

代码结构

相关文章：

PaddleMIX学习笔记(1)

【网络协议】聊聊HTTPS协议

2023.11.2事件纪念

Scala和Play WS库编写的爬虫程序

佳易王配件进出库开单打印进销存管理系统软件下载

【深度学习基础】专业术语汇总（欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集）

【C语言：函数栈帧的创建与销毁】

怎么在C++中实现云端存储变量

短视频矩阵营销系统工具如何助力商家企业获客？

PCL 计算一个平面与包围盒体素的相交线

面向教育的计算机视觉和深度学习5

FPGA芯片内部结构

人工智能AI创作系统ChatGPT网站系统源码+AI绘画系统支持GPT4.0/支持Midjourney局部重绘

Google 开源项目风格指南

无限上下文，多级内存管理！突破ChatGPT等大语言模型上下文限制

学习剑指jvm

java网络通信

Three.js之加载外部三维模型

【机器学习】正规方程与梯度下降API及案例预测

【SOC基础】单片机学习案例汇总 Part2：蜂鸣器、数码管显示

postgresql|数据库|只读用户的创建和删除（备忘）

ElasticSearch搜索引擎之倒排索引及其底层算法

【HTML-16】深入理解HTML中的块元素与行内元素

uniapp中使用aixos 报错

AI书签管理工具开发全记录（十九）：嵌入资源处理

Mac下Android Studio扫描根目录卡死问题记录

LRU 缓存机制详解与实现（Java版） + 力扣解决

android13 app的触摸问题定位分析流程

苹果AI眼镜：从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会

如何通过git命令查看项目连接的仓库地址？