PaddleMIX学习笔记(1)
写在前面
之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。
国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。
众所周知,目前在LLM领域比较成熟的场景,还是文字方面,包括文字的阅读和生成,即对输入内容的处理和根据提示输出文字两种,大家看到的也都很多了。但是我的工作内容需要对图片,特别是各种报告中的图进行解读和处理,目前还没有很好的案例,于是自己就想基于PP做一些尝试,所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法,也请在评论里不吝赐教。
简介
PaddleMix的前身是ppdiffusers,最开始只是专注在扩散模型。众所周知GAI早期重视Prompt,到2023年中开始重视多模态和Agent后,ppdiffusers从PaddleNLP独立出来,专注于多模态。
https://github.com/PaddlePaddle/PaddleMIX
官方的介绍是:PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。
2023.7.31 发布 PaddleMIX v0.1,这个版本是从PPDiffusers升级后发布的第一个版本。
2023.10.7 发布 PaddleMIX v1.0,算是第一个正式版。
特性
这里也直接摘取官方的介绍了
- 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能
- 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
- 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能业界领先
- 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型
模型库
包括两大类,多模态预训练库和扩散类模型,简单讲就是一个是用于训练的,一个是用于应用的。
多模态预训练库包括
- 图文预训练
- EVA-CLIP
- CoCa
- CLIP
- BLIP-2
- miniGPT-4
- VIsualGLM
- 开放世界视觉模型
- Grounding DINO
- SAM
- 更多模态预训练模型
- ImageBind
扩散类模型包括
- 文生图
- Stable Diffusion
- ControlNet
- LDM
- Unidiffuser
- 文生视频
- LVDM
- 音频生成
- AudioLDM
代码结构
-
applications
应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下,虽然PaddleMix项目已经建立了独立的repo,但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP,参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst
这里包括了开放世界检测分割(Openset-Det-Sam),自动标注(AutoLabel),检测框引导的图像编辑(Det-Guided-Inpainting),文图生成(Text-to-Image Generation),文本引导的图像放大(Text-Guided Image Upscaling),文本引导的图像编辑(Text-Guided Image Inpainting),文本引导的图像变换(Image-to-Image Text-Guided Generation),文本条件的视频生成(Text-to-Video Generation),音频生成图像(Audio-to-Image Generation),音频描述(Audio-to-Caption Generation),音频对话(Audio-to-Chat Generation),音乐生成(Music Generation)这么几个应用。
前边三个都是比较传统,在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合,称得上是真正的多模态的应用。 -
deploy 导出和部署训练后的模型
-
docs/demo 就俩图片,没有文档
-
paddlemix
项目的核心目录,主要包括如下几个目录
1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow,是用于解决具体场景,打包的应用流程,算是一个轻量级的sdk吧。比如text2image_generation,定义了StableDiffusionTask,只需要将任务所需的参数封装到AppTask中作为入参给到这个Task,后边就启动这个任务就行了,至于构建模型_construct_model,预处理_preprocess,以及运行模型_run_model,都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。
2).datasets 数据集,提供了数据集处理的工具,不是实际的数据集。
3).examples 代码样例,包含了visualglm,groundingdion等样例。每个样例基本都可以直接在git clone安装依赖后,通过run_predict.py执行。
4).models 模型处理工具类,针对用到的不同模型,有各自的训练处理工具。
5).processors 数据预处理工具类,包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。
6).trainer 模型训练工具类,用来做调优和预/训练等。 -
ppdiffusers
扩散模型的核心目录,也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集,虽然整合到了paddlemix中,但是还是可以单独使用的,也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立,目前是在2023.9.27日发布了0.19.3版本。
ppdiffusers目录的结构和上层paddlemix的结构类似,也包含了类似appflow的scheduler,训练工具models,部署工具deploy等 -
scripts 脚本.主要包含了一个扩散模型转换的脚本,用于其他扩散模型转换到paddle的模型,还有一个是cocoeval,用于基于coco验证集评估模型。
-
tests 测试用例,主要包括了appflow和models两个测试集。
另外在测试中遇到的几个基础问题简单给大家提个醒。
1.如果测试环境使用虚机,要开启VT嵌套,否则会因为不支持AVX指令集,而导致会提示illegal instruction。或者使用windows的WSL。
2.PPMix项目存在国内大多项目存在的问题,文档并不够完善。PaddleMix项目目前是独立的,在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时,一定要去PaddlePaddle项目和PaddleNLP项目里找,把相关的前置依赖都安装好,一般就没什么问题了。
3.接2,安装文档中很多pyhon依赖都指向了清华的镜像,个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像,目前没有发现版本等问题,速度也很快。不知道为什么百度官方的文档不使用自己的镜像,很是诡异,难道是复制的ChatGLM的文档?。
4.如果有可能,可以使用百度的aistudio的juypter环境来做测试,会比自己搭建要省事不少。
相关文章:
PaddleMIX学习笔记(1)
写在前面 之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。 国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。 众所周知…...

【网络协议】聊聊HTTPS协议
前面的文章,我们描述了网络是怎样进行传输数据包的,但是网络是不安全的,对于这种流量门户网站其实还好,对于支付类场景其实容易将数据泄漏,所以安全的方式是通过加密,加密方式主要是对称加密和非对称加密。…...

2023.11.2事件纪念
然而造化又常常为庸人设计,以时间的流逝,来洗涤旧迹,仅以留下淡红的血色和微漠的悲哀。 回顾这次事件,最深的感触就是什么是团队的力量! 当我们看到希望快要成功的时候,大家洋溢出兴奋开心的表情,一起的欢声笑语;但看…...

Scala和Play WS库编写的爬虫程序
使用Scala和Play WS库编写的爬虫程序,该程序将爬取网页内容: import play.api.libs.ws._ import scala.concurrent.ExecutionContext.Implicits.global object BaiduCrawler {def main(args: Array[String]): Unit {val url ""val proxy…...

佳易王配件进出库开单打印进销存管理系统软件下载
用版配件进出库开单打印系统,可以有效的管理:供货商信息,客户信息,进货入库打印,销售出库打印,进货明细或汇总统计查询,销售出库明细或汇总统计查询,库存查询,客户往来账…...

【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...

【C语言:函数栈帧的创建与销毁】
文章目录 前言一、前期准备1.寄存器2.汇编指令3.测试代码 二、解开函数栈帧的神秘面纱1.栈帧大体轮廓2.main函数栈帧的创建3.main函数内执行有效代码4.烫烫烫5.函数参数的传递6.add函数栈帧的创建7.add函数内执行有效代码8.add是如何获得参数的9. add函数栈帧的销毁10.main函数…...
怎么在C++中实现云端存储变量
随着云计算技术的快速发展,现在我们可以将数据存储在云端,以便于在不同设备和地点访问。在C中,我们也可以通过一些方法来实现这个功能。本文将详细介绍如何在C中实现云端存储变量。 首先,我们需要理解,C本身并没有直接…...

短视频矩阵营销系统工具如何助力商家企业获客?
1.批量剪辑技术研发 做的数学建模算法,数学阶乘的组合乘组形式,采用两套查重机制,一套针对素材进行查重抽帧素材,一套针对成片进行抽帧素材打分制度查重,自动滤重计入打分。 2.账号矩阵分发开发 多平台,…...
PCL 计算一个平面与包围盒体素的相交线
文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 基于之前计算的包围盒体素(PCL 包围盒体素化显示),这里使用一个平面与其进行相交,并求出与其中体素单元的相交线。 二、实现代码 //标准文件 #include <iostream> #include <thread>//PCL...
面向教育的计算机视觉和深度学习5
面向教育的计算机视觉和深度学习5 1. 好处智能内容(Smart Content)任务自动化(Task Automation)缩小技能差距(Closing Skill Gap) 2. 应用程序学生学习与福利(Student Learning and Welfare&…...
FPGA芯片内部结构
参考链接:FPGA的进阶之第二章FPGA芯片内部结构(2)...

人工智能AI创作系统ChatGPT网站系统源码+AI绘画系统支持GPT4.0/支持Midjourney局部重绘
一、前言 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建…...
Google 开源项目风格指南
目录 C 风格指南 Objective-C 风格指南 Python 风格指南 Shell 风格指南 TypeScript 风格指南 Javascript 风格指南 HTML/CSS 风格指南 C 风格指南 C 风格指南 - 内容目录 — Google 开源项目风格指南 Objective-C 风格指南 Objective-C 风格指南 - 内容目录 — Googl…...

无限上下文,多级内存管理!突破ChatGPT等大语言模型上下文限制
目前,ChatGPT、Llama 2、文心一言等主流大语言模型,因技术架构的问题上下文输入一直受到限制,即便是Claude 最多只支持10万token输入,这对于解读上百页报告、书籍、论文来说非常不方便。 为了解决这一难题,加州伯克利…...
学习剑指jvm
一直弱,jvm 1、主要解决运行状态的线上系统突然卡死,造成系统无法访问,甚至直接内存溢出异常(Out of Memory,OOM) 2、希望解决线上JVM垃圾回收的相关问题,但无从下手。 3、新项目上线,对设置…...

java网络通信
浏览器中输入:“www.woaijava.com”之后都发生了什么? 请详细阐述 由域名→IP地址 寻找IP地址的过程依次经过了浏览器缓存、系统缓存、hosts文件、路由器缓存、 递归搜索根域名服务器。 建立TCP/IP连接(三次握手具体过程) 由浏览…...
Three.js之加载外部三维模型
参考资料 建模软件绘制3D场景…加载.gltf文件(模型加载全流程) 知识点 注:基于Three.jsv0.155.0 三维建模软件gltf格式加载.gltf文件 三维建模软件 D美术常用的三维建模软件,比如Blender、3dmax、C4D、maya等等 Blender(轻量开源)3dmaxC4Dmaya 特…...
【机器学习】正规方程与梯度下降API及案例预测
正规方程与梯度下降API及案例预测 文章目录 正规方程与梯度下降API及案例预测1. 正规方程与梯度下降正规方程(Normal Equation)梯度下降(Gradient Descent) 2. API3. 波士顿房价预测 1. 正规方程与梯度下降 回归模型是机器学习中…...

【SOC基础】单片机学习案例汇总 Part2:蜂鸣器、数码管显示
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...
postgresql|数据库|只读用户的创建和删除(备忘)
CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

ElasticSearch搜索引擎之倒排索引及其底层算法
文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...
【HTML-16】深入理解HTML中的块元素与行内元素
HTML元素根据其显示特性可以分为两大类:块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...
uniapp中使用aixos 报错
问题: 在uniapp中使用aixos,运行后报如下错误: AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...

AI书签管理工具开发全记录(十九):嵌入资源处理
1.前言 📝 在上一篇文章中,我们完成了书签的导入导出功能。本篇文章我们研究如何处理嵌入资源,方便后续将资源打包到一个可执行文件中。 2.embed介绍 🎯 Go 1.16 引入了革命性的 embed 包,彻底改变了静态资源管理的…...

Mac下Android Studio扫描根目录卡死问题记录
环境信息 操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象 在项目开发过程中,提示一个依赖外部头文件的cpp源文件需要同步,点…...
LRU 缓存机制详解与实现(Java版) + 力扣解决
📌 LRU 缓存机制详解与实现(Java版) 一、📖 问题背景 在日常开发中,我们经常会使用 缓存(Cache) 来提升性能。但由于内存有限,缓存不可能无限增长,于是需要策略决定&am…...

android13 app的触摸问题定位分析流程
一、知识点 一般来说,触摸问题都是app层面出问题,我们可以在ViewRootImpl.java添加log的方式定位;如果是touchableRegion的计算问题,就会相对比较麻烦了,需要通过adb shell dumpsys input > input.log指令,且通过打印堆栈的方式,逐步定位问题,并找到修改方案。 问题…...
苹果AI眼镜:从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会
在2025年的AI硬件浪潮中,苹果AI眼镜(Apple Glasses)正在引发一场关于“人机交互形态”的深度思考。它并非简单地替代AirPods或Apple Watch,而是开辟了一个全新的、日常可接受的AI入口。其核心价值不在于功能的堆叠,而在于如何通过形态设计打破社交壁垒,成为用户“全天佩戴…...
如何通过git命令查看项目连接的仓库地址?
要通过 Git 命令查看项目连接的仓库地址,您可以使用以下几种方法: 1. 查看所有远程仓库地址 使用 git remote -v 命令,它会显示项目中配置的所有远程仓库及其对应的 URL: git remote -v输出示例: origin https://…...