PaddleMIX学习笔记(1)
写在前面
之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。
国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。
众所周知,目前在LLM领域比较成熟的场景,还是文字方面,包括文字的阅读和生成,即对输入内容的处理和根据提示输出文字两种,大家看到的也都很多了。但是我的工作内容需要对图片,特别是各种报告中的图进行解读和处理,目前还没有很好的案例,于是自己就想基于PP做一些尝试,所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法,也请在评论里不吝赐教。
简介
PaddleMix的前身是ppdiffusers,最开始只是专注在扩散模型。众所周知GAI早期重视Prompt,到2023年中开始重视多模态和Agent后,ppdiffusers从PaddleNLP独立出来,专注于多模态。
https://github.com/PaddlePaddle/PaddleMIX
官方的介绍是:PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。
2023.7.31 发布 PaddleMIX v0.1,这个版本是从PPDiffusers升级后发布的第一个版本。
2023.10.7 发布 PaddleMIX v1.0,算是第一个正式版。
特性
这里也直接摘取官方的介绍了
- 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能
- 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
- 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能业界领先
- 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型
模型库
包括两大类,多模态预训练库和扩散类模型,简单讲就是一个是用于训练的,一个是用于应用的。
多模态预训练库包括
- 图文预训练
- EVA-CLIP
- CoCa
- CLIP
- BLIP-2
- miniGPT-4
- VIsualGLM
- 开放世界视觉模型
- Grounding DINO
- SAM
- 更多模态预训练模型
- ImageBind
扩散类模型包括
- 文生图
- Stable Diffusion
- ControlNet
- LDM
- Unidiffuser
- 文生视频
- LVDM
- 音频生成
- AudioLDM
代码结构
-
applications
应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下,虽然PaddleMix项目已经建立了独立的repo,但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP,参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst
这里包括了开放世界检测分割(Openset-Det-Sam),自动标注(AutoLabel),检测框引导的图像编辑(Det-Guided-Inpainting),文图生成(Text-to-Image Generation),文本引导的图像放大(Text-Guided Image Upscaling),文本引导的图像编辑(Text-Guided Image Inpainting),文本引导的图像变换(Image-to-Image Text-Guided Generation),文本条件的视频生成(Text-to-Video Generation),音频生成图像(Audio-to-Image Generation),音频描述(Audio-to-Caption Generation),音频对话(Audio-to-Chat Generation),音乐生成(Music Generation)这么几个应用。
前边三个都是比较传统,在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合,称得上是真正的多模态的应用。 -
deploy 导出和部署训练后的模型
-
docs/demo 就俩图片,没有文档
-
paddlemix
项目的核心目录,主要包括如下几个目录
1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow,是用于解决具体场景,打包的应用流程,算是一个轻量级的sdk吧。比如text2image_generation,定义了StableDiffusionTask,只需要将任务所需的参数封装到AppTask中作为入参给到这个Task,后边就启动这个任务就行了,至于构建模型_construct_model,预处理_preprocess,以及运行模型_run_model,都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。
2).datasets 数据集,提供了数据集处理的工具,不是实际的数据集。
3).examples 代码样例,包含了visualglm,groundingdion等样例。每个样例基本都可以直接在git clone安装依赖后,通过run_predict.py执行。
4).models 模型处理工具类,针对用到的不同模型,有各自的训练处理工具。
5).processors 数据预处理工具类,包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。
6).trainer 模型训练工具类,用来做调优和预/训练等。 -
ppdiffusers
扩散模型的核心目录,也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集,虽然整合到了paddlemix中,但是还是可以单独使用的,也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立,目前是在2023.9.27日发布了0.19.3版本。
ppdiffusers目录的结构和上层paddlemix的结构类似,也包含了类似appflow的scheduler,训练工具models,部署工具deploy等 -
scripts 脚本.主要包含了一个扩散模型转换的脚本,用于其他扩散模型转换到paddle的模型,还有一个是cocoeval,用于基于coco验证集评估模型。
-
tests 测试用例,主要包括了appflow和models两个测试集。
另外在测试中遇到的几个基础问题简单给大家提个醒。
1.如果测试环境使用虚机,要开启VT嵌套,否则会因为不支持AVX指令集,而导致会提示illegal instruction。或者使用windows的WSL。
2.PPMix项目存在国内大多项目存在的问题,文档并不够完善。PaddleMix项目目前是独立的,在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时,一定要去PaddlePaddle项目和PaddleNLP项目里找,把相关的前置依赖都安装好,一般就没什么问题了。
3.接2,安装文档中很多pyhon依赖都指向了清华的镜像,个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像,目前没有发现版本等问题,速度也很快。不知道为什么百度官方的文档不使用自己的镜像,很是诡异,难道是复制的ChatGLM的文档?。
4.如果有可能,可以使用百度的aistudio的juypter环境来做测试,会比自己搭建要省事不少。
相关文章:

PaddleMIX学习笔记(1)
写在前面 之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。 国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。 众所周知…...

【网络协议】聊聊HTTPS协议
前面的文章,我们描述了网络是怎样进行传输数据包的,但是网络是不安全的,对于这种流量门户网站其实还好,对于支付类场景其实容易将数据泄漏,所以安全的方式是通过加密,加密方式主要是对称加密和非对称加密。…...

2023.11.2事件纪念
然而造化又常常为庸人设计,以时间的流逝,来洗涤旧迹,仅以留下淡红的血色和微漠的悲哀。 回顾这次事件,最深的感触就是什么是团队的力量! 当我们看到希望快要成功的时候,大家洋溢出兴奋开心的表情,一起的欢声笑语;但看…...

Scala和Play WS库编写的爬虫程序
使用Scala和Play WS库编写的爬虫程序,该程序将爬取网页内容: import play.api.libs.ws._ import scala.concurrent.ExecutionContext.Implicits.global object BaiduCrawler {def main(args: Array[String]): Unit {val url ""val proxy…...

佳易王配件进出库开单打印进销存管理系统软件下载
用版配件进出库开单打印系统,可以有效的管理:供货商信息,客户信息,进货入库打印,销售出库打印,进货明细或汇总统计查询,销售出库明细或汇总统计查询,库存查询,客户往来账…...

【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...

【C语言:函数栈帧的创建与销毁】
文章目录 前言一、前期准备1.寄存器2.汇编指令3.测试代码 二、解开函数栈帧的神秘面纱1.栈帧大体轮廓2.main函数栈帧的创建3.main函数内执行有效代码4.烫烫烫5.函数参数的传递6.add函数栈帧的创建7.add函数内执行有效代码8.add是如何获得参数的9. add函数栈帧的销毁10.main函数…...

怎么在C++中实现云端存储变量
随着云计算技术的快速发展,现在我们可以将数据存储在云端,以便于在不同设备和地点访问。在C中,我们也可以通过一些方法来实现这个功能。本文将详细介绍如何在C中实现云端存储变量。 首先,我们需要理解,C本身并没有直接…...

短视频矩阵营销系统工具如何助力商家企业获客?
1.批量剪辑技术研发 做的数学建模算法,数学阶乘的组合乘组形式,采用两套查重机制,一套针对素材进行查重抽帧素材,一套针对成片进行抽帧素材打分制度查重,自动滤重计入打分。 2.账号矩阵分发开发 多平台,…...

PCL 计算一个平面与包围盒体素的相交线
文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 基于之前计算的包围盒体素(PCL 包围盒体素化显示),这里使用一个平面与其进行相交,并求出与其中体素单元的相交线。 二、实现代码 //标准文件 #include <iostream> #include <thread>//PCL...

面向教育的计算机视觉和深度学习5
面向教育的计算机视觉和深度学习5 1. 好处智能内容(Smart Content)任务自动化(Task Automation)缩小技能差距(Closing Skill Gap) 2. 应用程序学生学习与福利(Student Learning and Welfare&…...

FPGA芯片内部结构
参考链接:FPGA的进阶之第二章FPGA芯片内部结构(2)...

人工智能AI创作系统ChatGPT网站系统源码+AI绘画系统支持GPT4.0/支持Midjourney局部重绘
一、前言 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建…...

Google 开源项目风格指南
目录 C 风格指南 Objective-C 风格指南 Python 风格指南 Shell 风格指南 TypeScript 风格指南 Javascript 风格指南 HTML/CSS 风格指南 C 风格指南 C 风格指南 - 内容目录 — Google 开源项目风格指南 Objective-C 风格指南 Objective-C 风格指南 - 内容目录 — Googl…...

无限上下文,多级内存管理!突破ChatGPT等大语言模型上下文限制
目前,ChatGPT、Llama 2、文心一言等主流大语言模型,因技术架构的问题上下文输入一直受到限制,即便是Claude 最多只支持10万token输入,这对于解读上百页报告、书籍、论文来说非常不方便。 为了解决这一难题,加州伯克利…...

学习剑指jvm
一直弱,jvm 1、主要解决运行状态的线上系统突然卡死,造成系统无法访问,甚至直接内存溢出异常(Out of Memory,OOM) 2、希望解决线上JVM垃圾回收的相关问题,但无从下手。 3、新项目上线,对设置…...

java网络通信
浏览器中输入:“www.woaijava.com”之后都发生了什么? 请详细阐述 由域名→IP地址 寻找IP地址的过程依次经过了浏览器缓存、系统缓存、hosts文件、路由器缓存、 递归搜索根域名服务器。 建立TCP/IP连接(三次握手具体过程) 由浏览…...

Three.js之加载外部三维模型
参考资料 建模软件绘制3D场景…加载.gltf文件(模型加载全流程) 知识点 注:基于Three.jsv0.155.0 三维建模软件gltf格式加载.gltf文件 三维建模软件 D美术常用的三维建模软件,比如Blender、3dmax、C4D、maya等等 Blender(轻量开源)3dmaxC4Dmaya 特…...

【机器学习】正规方程与梯度下降API及案例预测
正规方程与梯度下降API及案例预测 文章目录 正规方程与梯度下降API及案例预测1. 正规方程与梯度下降正规方程(Normal Equation)梯度下降(Gradient Descent) 2. API3. 波士顿房价预测 1. 正规方程与梯度下降 回归模型是机器学习中…...

【SOC基础】单片机学习案例汇总 Part2:蜂鸣器、数码管显示
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...

顶层模块【FPGA】
1顶层模块: 不能像C语言的h文件那样,把io的定义放在其他文件。 在Verilog中,顶层模块是整个设计的最高层次,它包含了所有其他模块和子模块。 顶层模块定义了整个设计的输入和输出端口,以及各个子模块之间的连接方式。…...

IT行业就业分析
1. IT技术发展背景及历程介绍 2. IT行业的就业方向有哪些? IT技术发展背景及历程介绍: IT技术的发展背景和历程可以追溯到上世纪40年代,以下是IT技术的主要发展阶段: 1.计算机的发展:二战期间,计算机作…...

读取用户剪贴板内容
读取用户剪贴板内容 在Web开发中,要读取用户剪贴板的内容,可以使用Clipboard API。这个API提供了一组方法和事件,用于访问和操作用户的剪贴板数据。 HTML <body><button onclick"readClipboard()">读取剪切板内容&l…...

“深入理解Nginx的负载均衡与动静分离“
目录 引言一、Nginx简介1. Nginx的基本概念2. Nginx的特点3. Nginx的安装配置 二、Nginx搭载负载均衡三、前端项目打包四、Nginx部署前后端分离项目,同时实现负载均衡和动静分离总结 引言 在现代互联网应用中,高性能和可扩展性是至关重要的。Nginx作为一…...

JVM 内存和 GC 算法
文章目录 内存布局直接内存执行引擎解释器JIT 即时编译器JIT 分类AOT 静态提前编译器(Ahead Of Time Compiler) GC什么是垃圾为什么要GC垃圾回收行为Java GC 主要关注的区域对象的 finalization 机制GC 相关算法引用计数算法(Reference Count…...

memtest86 prosite v10.6
passmark官方的memtest86 v10开始支持颗粒级别的坏内存芯片定位了,对于特定的若干种CPU和芯片组的组合,支持这项功能。 当然支持颗粒定位的site版本售价4800美金,是比较贵的。所以网络上出现了破解版的,人才真是。但是鼓励大家支…...

Springboot JSP项目如何以war、jar方式运行
文章目录 一,序二,样例代码1,代码结构2,完整代码备份 三,准备工作1. pom.xml 引入组件2. application.yml 指定jsp配置 四,war方式运行1. 修改pom.xml文件2. mvn执行打包 五,jar方式运行1. 修改…...

系统架构设计师(第二版)学习笔记----层次式架构设计理论与实践
【原文链接】系统架构设计师(第二版)学习笔记----层次式架构设计理论与实践 文章目录 一、层次式体系结构概述1.1 软件体系结构的作用1.2 常用的层次式架构图1.3 层次式体系可能存在的问题点 二、表现层框架设计2.1 MVC模式2.1.1 MVC三层模式2.1.2 MVC设…...

Python之字符串详解
目录 一、字符串1、转义字符与原始字符串2、使用%运算符进行格式化 一、字符串 在Python中,字符串属于不可变、有序序列,使用单引号、双引号、三单引号或三双引号作为定界符,并且不同的定界符之间可以互相嵌套。 ‘abc’、‘123’、‘中国’…...

《视觉SLAM十四讲》-- 概述与预备知识
文章目录 01 概述与预备知识1.1 SLAM 是什么1.1.1 基本概念1.1.2 视觉 SLAM 框架1.1.3 SLAM 问题的数学表述 1.2 实践:编程基基础1.3 课后习题 01 概述与预备知识 1.1 SLAM 是什么 1.1.1 基本概念 (1)SLAM 是 Simultaneous Localization a…...