PaddleMIX学习笔记(1)
写在前面
之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。
国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。
众所周知,目前在LLM领域比较成熟的场景,还是文字方面,包括文字的阅读和生成,即对输入内容的处理和根据提示输出文字两种,大家看到的也都很多了。但是我的工作内容需要对图片,特别是各种报告中的图进行解读和处理,目前还没有很好的案例,于是自己就想基于PP做一些尝试,所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法,也请在评论里不吝赐教。
简介
PaddleMix的前身是ppdiffusers,最开始只是专注在扩散模型。众所周知GAI早期重视Prompt,到2023年中开始重视多模态和Agent后,ppdiffusers从PaddleNLP独立出来,专注于多模态。
https://github.com/PaddlePaddle/PaddleMIX
官方的介绍是:PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。
2023.7.31 发布 PaddleMIX v0.1,这个版本是从PPDiffusers升级后发布的第一个版本。
2023.10.7 发布 PaddleMIX v1.0,算是第一个正式版。
特性
这里也直接摘取官方的介绍了
- 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能
- 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
- 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能业界领先
- 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型
模型库
包括两大类,多模态预训练库和扩散类模型,简单讲就是一个是用于训练的,一个是用于应用的。
多模态预训练库包括
- 图文预训练
- EVA-CLIP
- CoCa
- CLIP
- BLIP-2
- miniGPT-4
- VIsualGLM
- 开放世界视觉模型
- Grounding DINO
- SAM
- 更多模态预训练模型
- ImageBind
扩散类模型包括
- 文生图
- Stable Diffusion
- ControlNet
- LDM
- Unidiffuser
- 文生视频
- LVDM
- 音频生成
- AudioLDM
代码结构
-
applications
应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下,虽然PaddleMix项目已经建立了独立的repo,但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP,参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst
这里包括了开放世界检测分割(Openset-Det-Sam),自动标注(AutoLabel),检测框引导的图像编辑(Det-Guided-Inpainting),文图生成(Text-to-Image Generation),文本引导的图像放大(Text-Guided Image Upscaling),文本引导的图像编辑(Text-Guided Image Inpainting),文本引导的图像变换(Image-to-Image Text-Guided Generation),文本条件的视频生成(Text-to-Video Generation),音频生成图像(Audio-to-Image Generation),音频描述(Audio-to-Caption Generation),音频对话(Audio-to-Chat Generation),音乐生成(Music Generation)这么几个应用。
前边三个都是比较传统,在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合,称得上是真正的多模态的应用。 -
deploy 导出和部署训练后的模型
-
docs/demo 就俩图片,没有文档
-
paddlemix
项目的核心目录,主要包括如下几个目录
1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow,是用于解决具体场景,打包的应用流程,算是一个轻量级的sdk吧。比如text2image_generation,定义了StableDiffusionTask,只需要将任务所需的参数封装到AppTask中作为入参给到这个Task,后边就启动这个任务就行了,至于构建模型_construct_model,预处理_preprocess,以及运行模型_run_model,都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。
2).datasets 数据集,提供了数据集处理的工具,不是实际的数据集。
3).examples 代码样例,包含了visualglm,groundingdion等样例。每个样例基本都可以直接在git clone安装依赖后,通过run_predict.py执行。
4).models 模型处理工具类,针对用到的不同模型,有各自的训练处理工具。
5).processors 数据预处理工具类,包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。
6).trainer 模型训练工具类,用来做调优和预/训练等。 -
ppdiffusers
扩散模型的核心目录,也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集,虽然整合到了paddlemix中,但是还是可以单独使用的,也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立,目前是在2023.9.27日发布了0.19.3版本。
ppdiffusers目录的结构和上层paddlemix的结构类似,也包含了类似appflow的scheduler,训练工具models,部署工具deploy等 -
scripts 脚本.主要包含了一个扩散模型转换的脚本,用于其他扩散模型转换到paddle的模型,还有一个是cocoeval,用于基于coco验证集评估模型。
-
tests 测试用例,主要包括了appflow和models两个测试集。
另外在测试中遇到的几个基础问题简单给大家提个醒。
1.如果测试环境使用虚机,要开启VT嵌套,否则会因为不支持AVX指令集,而导致会提示illegal instruction。或者使用windows的WSL。
2.PPMix项目存在国内大多项目存在的问题,文档并不够完善。PaddleMix项目目前是独立的,在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时,一定要去PaddlePaddle项目和PaddleNLP项目里找,把相关的前置依赖都安装好,一般就没什么问题了。
3.接2,安装文档中很多pyhon依赖都指向了清华的镜像,个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像,目前没有发现版本等问题,速度也很快。不知道为什么百度官方的文档不使用自己的镜像,很是诡异,难道是复制的ChatGLM的文档?。
4.如果有可能,可以使用百度的aistudio的juypter环境来做测试,会比自己搭建要省事不少。
相关文章:
PaddleMIX学习笔记(1)
写在前面 之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。 国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。 众所周知…...

【网络协议】聊聊HTTPS协议
前面的文章,我们描述了网络是怎样进行传输数据包的,但是网络是不安全的,对于这种流量门户网站其实还好,对于支付类场景其实容易将数据泄漏,所以安全的方式是通过加密,加密方式主要是对称加密和非对称加密。…...

2023.11.2事件纪念
然而造化又常常为庸人设计,以时间的流逝,来洗涤旧迹,仅以留下淡红的血色和微漠的悲哀。 回顾这次事件,最深的感触就是什么是团队的力量! 当我们看到希望快要成功的时候,大家洋溢出兴奋开心的表情,一起的欢声笑语;但看…...

Scala和Play WS库编写的爬虫程序
使用Scala和Play WS库编写的爬虫程序,该程序将爬取网页内容: import play.api.libs.ws._ import scala.concurrent.ExecutionContext.Implicits.global object BaiduCrawler {def main(args: Array[String]): Unit {val url ""val proxy…...

佳易王配件进出库开单打印进销存管理系统软件下载
用版配件进出库开单打印系统,可以有效的管理:供货商信息,客户信息,进货入库打印,销售出库打印,进货明细或汇总统计查询,销售出库明细或汇总统计查询,库存查询,客户往来账…...

【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...

【C语言:函数栈帧的创建与销毁】
文章目录 前言一、前期准备1.寄存器2.汇编指令3.测试代码 二、解开函数栈帧的神秘面纱1.栈帧大体轮廓2.main函数栈帧的创建3.main函数内执行有效代码4.烫烫烫5.函数参数的传递6.add函数栈帧的创建7.add函数内执行有效代码8.add是如何获得参数的9. add函数栈帧的销毁10.main函数…...
怎么在C++中实现云端存储变量
随着云计算技术的快速发展,现在我们可以将数据存储在云端,以便于在不同设备和地点访问。在C中,我们也可以通过一些方法来实现这个功能。本文将详细介绍如何在C中实现云端存储变量。 首先,我们需要理解,C本身并没有直接…...

短视频矩阵营销系统工具如何助力商家企业获客?
1.批量剪辑技术研发 做的数学建模算法,数学阶乘的组合乘组形式,采用两套查重机制,一套针对素材进行查重抽帧素材,一套针对成片进行抽帧素材打分制度查重,自动滤重计入打分。 2.账号矩阵分发开发 多平台,…...
PCL 计算一个平面与包围盒体素的相交线
文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 基于之前计算的包围盒体素(PCL 包围盒体素化显示),这里使用一个平面与其进行相交,并求出与其中体素单元的相交线。 二、实现代码 //标准文件 #include <iostream> #include <thread>//PCL...
面向教育的计算机视觉和深度学习5
面向教育的计算机视觉和深度学习5 1. 好处智能内容(Smart Content)任务自动化(Task Automation)缩小技能差距(Closing Skill Gap) 2. 应用程序学生学习与福利(Student Learning and Welfare&…...
FPGA芯片内部结构
参考链接:FPGA的进阶之第二章FPGA芯片内部结构(2)...

人工智能AI创作系统ChatGPT网站系统源码+AI绘画系统支持GPT4.0/支持Midjourney局部重绘
一、前言 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建…...
Google 开源项目风格指南
目录 C 风格指南 Objective-C 风格指南 Python 风格指南 Shell 风格指南 TypeScript 风格指南 Javascript 风格指南 HTML/CSS 风格指南 C 风格指南 C 风格指南 - 内容目录 — Google 开源项目风格指南 Objective-C 风格指南 Objective-C 风格指南 - 内容目录 — Googl…...

无限上下文,多级内存管理!突破ChatGPT等大语言模型上下文限制
目前,ChatGPT、Llama 2、文心一言等主流大语言模型,因技术架构的问题上下文输入一直受到限制,即便是Claude 最多只支持10万token输入,这对于解读上百页报告、书籍、论文来说非常不方便。 为了解决这一难题,加州伯克利…...
学习剑指jvm
一直弱,jvm 1、主要解决运行状态的线上系统突然卡死,造成系统无法访问,甚至直接内存溢出异常(Out of Memory,OOM) 2、希望解决线上JVM垃圾回收的相关问题,但无从下手。 3、新项目上线,对设置…...

java网络通信
浏览器中输入:“www.woaijava.com”之后都发生了什么? 请详细阐述 由域名→IP地址 寻找IP地址的过程依次经过了浏览器缓存、系统缓存、hosts文件、路由器缓存、 递归搜索根域名服务器。 建立TCP/IP连接(三次握手具体过程) 由浏览…...
Three.js之加载外部三维模型
参考资料 建模软件绘制3D场景…加载.gltf文件(模型加载全流程) 知识点 注:基于Three.jsv0.155.0 三维建模软件gltf格式加载.gltf文件 三维建模软件 D美术常用的三维建模软件,比如Blender、3dmax、C4D、maya等等 Blender(轻量开源)3dmaxC4Dmaya 特…...
【机器学习】正规方程与梯度下降API及案例预测
正规方程与梯度下降API及案例预测 文章目录 正规方程与梯度下降API及案例预测1. 正规方程与梯度下降正规方程(Normal Equation)梯度下降(Gradient Descent) 2. API3. 波士顿房价预测 1. 正规方程与梯度下降 回归模型是机器学习中…...

【SOC基础】单片机学习案例汇总 Part2:蜂鸣器、数码管显示
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...
后进先出(LIFO)详解
LIFO 是 Last In, First Out 的缩写,中文译为后进先出。这是一种数据结构的工作原则,类似于一摞盘子或一叠书本: 最后放进去的元素最先出来 -想象往筒状容器里放盘子: (1)你放进的最后一个盘子(…...

7.4.分块查找
一.分块查找的算法思想: 1.实例: 以上述图片的顺序表为例, 该顺序表的数据元素从整体来看是乱序的,但如果把这些数据元素分成一块一块的小区间, 第一个区间[0,1]索引上的数据元素都是小于等于10的, 第二…...

stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

css实现圆环展示百分比,根据值动态展示所占比例
代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

P3 QT项目----记事本(3.8)
3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...
【JavaSE】绘图与事件入门学习笔记
-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角,以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标,表示当前位置为垂直方向,距离坐标原点y个像素。 坐标体系-像素 …...

UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)
UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中,UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化…...

【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
API网关Kong的鉴权与限流:高并发场景下的核心实践
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言 在微服务架构中,API网关承担着流量调度、安全防护和协议转换的核心职责。作为云原生时代的代表性网关,Kong凭借其插件化架构…...