当前位置: 首页 > news >正文

PaddleMIX学习笔记(1)

写在前面

之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。
国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。
众所周知,目前在LLM领域比较成熟的场景,还是文字方面,包括文字的阅读和生成,即对输入内容的处理和根据提示输出文字两种,大家看到的也都很多了。但是我的工作内容需要对图片,特别是各种报告中的图进行解读和处理,目前还没有很好的案例,于是自己就想基于PP做一些尝试,所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法,也请在评论里不吝赐教。

简介

PaddleMix的前身是ppdiffusers,最开始只是专注在扩散模型。众所周知GAI早期重视Prompt,到2023年中开始重视多模态和Agent后,ppdiffusers从PaddleNLP独立出来,专注于多模态。
https://github.com/PaddlePaddle/PaddleMIX

官方的介绍是:PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。

2023.7.31 发布 PaddleMIX v0.1,这个版本是从PPDiffusers升级后发布的第一个版本。
2023.10.7 发布 PaddleMIX v1.0,算是第一个正式版。

特性

这里也直接摘取官方的介绍了

  • 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能
  • 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
  • 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能业界领先
  • 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型

模型库

包括两大类,多模态预训练库和扩散类模型,简单讲就是一个是用于训练的,一个是用于应用的。

多模态预训练库包括

  • 图文预训练
    • EVA-CLIP
    • CoCa
    • CLIP
    • BLIP-2
    • miniGPT-4
    • VIsualGLM
  • 开放世界视觉模型
    • Grounding DINO
    • SAM
  • 更多模态预训练模型
    • ImageBind

扩散类模型包括

  • 文生图
    • Stable Diffusion
    • ControlNet
    • LDM
    • Unidiffuser
  • 文生视频
    • LVDM
  • 音频生成
    • AudioLDM

代码结构

  1. applications
    应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下,虽然PaddleMix项目已经建立了独立的repo,但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP,参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst
    这里包括了开放世界检测分割(Openset-Det-Sam),自动标注(AutoLabel),检测框引导的图像编辑(Det-Guided-Inpainting),文图生成(Text-to-Image Generation),文本引导的图像放大(Text-Guided Image Upscaling),文本引导的图像编辑(Text-Guided Image Inpainting),文本引导的图像变换(Image-to-Image Text-Guided Generation),文本条件的视频生成(Text-to-Video Generation),音频生成图像(Audio-to-Image Generation),音频描述(Audio-to-Caption Generation),音频对话(Audio-to-Chat Generation),音乐生成(Music Generation)这么几个应用。
    前边三个都是比较传统,在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合,称得上是真正的多模态的应用。

  2. deploy 导出和部署训练后的模型

  3. docs/demo 就俩图片,没有文档

  4. paddlemix
    项目的核心目录,主要包括如下几个目录
    1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow,是用于解决具体场景,打包的应用流程,算是一个轻量级的sdk吧。比如text2image_generation,定义了StableDiffusionTask,只需要将任务所需的参数封装到AppTask中作为入参给到这个Task,后边就启动这个任务就行了,至于构建模型_construct_model,预处理_preprocess,以及运行模型_run_model,都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。
    2).datasets 数据集,提供了数据集处理的工具,不是实际的数据集。
    3).examples 代码样例,包含了visualglm,groundingdion等样例。每个样例基本都可以直接在git clone安装依赖后,通过run_predict.py执行。
    4).models 模型处理工具类,针对用到的不同模型,有各自的训练处理工具。
    5).processors 数据预处理工具类,包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。
    6).trainer 模型训练工具类,用来做调优和预/训练等。

  5. ppdiffusers
    扩散模型的核心目录,也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集,虽然整合到了paddlemix中,但是还是可以单独使用的,也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立,目前是在2023.9.27日发布了0.19.3版本。
    ppdiffusers目录的结构和上层paddlemix的结构类似,也包含了类似appflow的scheduler,训练工具models,部署工具deploy等

  6. scripts 脚本.主要包含了一个扩散模型转换的脚本,用于其他扩散模型转换到paddle的模型,还有一个是cocoeval,用于基于coco验证集评估模型。

  7. tests 测试用例,主要包括了appflow和models两个测试集。

另外在测试中遇到的几个基础问题简单给大家提个醒。
1.如果测试环境使用虚机,要开启VT嵌套,否则会因为不支持AVX指令集,而导致会提示illegal instruction。或者使用windows的WSL。
2.PPMix项目存在国内大多项目存在的问题,文档并不够完善。PaddleMix项目目前是独立的,在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时,一定要去PaddlePaddle项目和PaddleNLP项目里找,把相关的前置依赖都安装好,一般就没什么问题了。
3.接2,安装文档中很多pyhon依赖都指向了清华的镜像,个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像,目前没有发现版本等问题,速度也很快。不知道为什么百度官方的文档不使用自己的镜像,很是诡异,难道是复制的ChatGLM的文档?。
4.如果有可能,可以使用百度的aistudio的juypter环境来做测试,会比自己搭建要省事不少。

相关文章:

PaddleMIX学习笔记(1)

写在前面 之前对HyperLedger的阅读没有完全结束,和很多朋友一样,同时也因为工作的需要,最近开始转向LLM方向。 国内在大模型方面生态做的最好的,目前还是百度的PaddlePaddle,所以自己也就先从PP开始看起了。 众所周知…...

【网络协议】聊聊HTTPS协议

前面的文章,我们描述了网络是怎样进行传输数据包的,但是网络是不安全的,对于这种流量门户网站其实还好,对于支付类场景其实容易将数据泄漏,所以安全的方式是通过加密,加密方式主要是对称加密和非对称加密。…...

2023.11.2事件纪念

然而造化又常常为庸人设计,以时间的流逝,来洗涤旧迹,仅以留下淡红的血色和微漠的悲哀。 回顾这次事件,最深的感触就是什么是团队的力量! 当我们看到希望快要成功的时候,大家洋溢出兴奋开心的表情,一起的欢声笑语;但看…...

Scala和Play WS库编写的爬虫程序

使用Scala和Play WS库编写的爬虫程序,该程序将爬取网页内容: import play.api.libs.ws._ import scala.concurrent.ExecutionContext.Implicits.global ​ object BaiduCrawler {def main(args: Array[String]): Unit {val url ""val proxy…...

佳易王配件进出库开单打印进销存管理系统软件下载

用版配件进出库开单打印系统,可以有效的管理:供货商信息,客户信息,进货入库打印,销售出库打印,进货明细或汇总统计查询,销售出库明细或汇总统计查询,库存查询,客户往来账…...

【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...

【C语言:函数栈帧的创建与销毁】

文章目录 前言一、前期准备1.寄存器2.汇编指令3.测试代码 二、解开函数栈帧的神秘面纱1.栈帧大体轮廓2.main函数栈帧的创建3.main函数内执行有效代码4.烫烫烫5.函数参数的传递6.add函数栈帧的创建7.add函数内执行有效代码8.add是如何获得参数的9. add函数栈帧的销毁10.main函数…...

怎么在C++中实现云端存储变量

随着云计算技术的快速发展,现在我们可以将数据存储在云端,以便于在不同设备和地点访问。在C中,我们也可以通过一些方法来实现这个功能。本文将详细介绍如何在C中实现云端存储变量。 首先,我们需要理解,C本身并没有直接…...

短视频矩阵营销系统工具如何助力商家企业获客?

1.批量剪辑技术研发 做的数学建模算法,数学阶乘的组合乘组形式,采用两套查重机制,一套针对素材进行查重抽帧素材,一套针对成片进行抽帧素材打分制度查重,自动滤重计入打分。 2.账号矩阵分发开发 多平台,…...

PCL 计算一个平面与包围盒体素的相交线

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 基于之前计算的包围盒体素(PCL 包围盒体素化显示),这里使用一个平面与其进行相交,并求出与其中体素单元的相交线。 二、实现代码 //标准文件 #include <iostream> #include <thread>//PCL...

面向教育的计算机视觉和深度学习5

面向教育的计算机视觉和深度学习5 1. 好处智能内容&#xff08;Smart Content&#xff09;任务自动化&#xff08;Task Automation&#xff09;缩小技能差距&#xff08;Closing Skill Gap&#xff09; 2. 应用程序学生学习与福利&#xff08;Student Learning and Welfare&…...

FPGA芯片内部结构

参考链接&#xff1a;FPGA的进阶之第二章FPGA芯片内部结构&#xff08;2&#xff09;...

人工智能AI创作系统ChatGPT网站系统源码+AI绘画系统支持GPT4.0/支持Midjourney局部重绘

一、前言 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建…...

Google 开源项目风格指南

目录 C 风格指南 Objective-C 风格指南 Python 风格指南 Shell 风格指南 TypeScript 风格指南 Javascript 风格指南 HTML/CSS 风格指南 C 风格指南 C 风格指南 - 内容目录 — Google 开源项目风格指南 Objective-C 风格指南 Objective-C 风格指南 - 内容目录 — Googl…...

无限上下文,多级内存管理!突破ChatGPT等大语言模型上下文限制

目前&#xff0c;ChatGPT、Llama 2、文心一言等主流大语言模型&#xff0c;因技术架构的问题上下文输入一直受到限制&#xff0c;即便是Claude 最多只支持10万token输入&#xff0c;这对于解读上百页报告、书籍、论文来说非常不方便。 为了解决这一难题&#xff0c;加州伯克利…...

学习剑指jvm

一直弱&#xff0c;jvm 1、主要解决运行状态的线上系统突然卡死&#xff0c;造成系统无法访问&#xff0c;甚至直接内存溢出异常&#xff08;Out of Memory,OOM&#xff09; 2、希望解决线上JVM垃圾回收的相关问题&#xff0c;但无从下手。 3、新项目上线&#xff0c;对设置…...

java网络通信

浏览器中输入&#xff1a;“www.woaijava.com”之后都发生了什么&#xff1f; 请详细阐述 由域名→IP地址 寻找IP地址的过程依次经过了浏览器缓存、系统缓存、hosts文件、路由器缓存、 递归搜索根域名服务器。 建立TCP/IP连接&#xff08;三次握手具体过程&#xff09; 由浏览…...

Three.js之加载外部三维模型

参考资料 建模软件绘制3D场景…加载.gltf文件(模型加载全流程) 知识点 注&#xff1a;基于Three.jsv0.155.0 三维建模软件gltf格式加载.gltf文件 三维建模软件 D美术常用的三维建模软件&#xff0c;比如Blender、3dmax、C4D、maya等等 Blender(轻量开源)3dmaxC4Dmaya 特…...

【机器学习】正规方程与梯度下降API及案例预测

正规方程与梯度下降API及案例预测 文章目录 正规方程与梯度下降API及案例预测1. 正规方程与梯度下降正规方程&#xff08;Normal Equation&#xff09;梯度下降&#xff08;Gradient Descent&#xff09; 2. API3. 波士顿房价预测 1. 正规方程与梯度下降 回归模型是机器学习中…...

【SOC基础】单片机学习案例汇总 Part2:蜂鸣器、数码管显示

&#x1f4e2;&#xff1a;如果你也对机器人、人工智能感兴趣&#xff0c;看来我们志同道合✨ &#x1f4e2;&#xff1a;不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 &#x1f4e2;&#xff1a;文章若有幸对你有帮助&#xff0c;可点赞 &#x1f44d;…...

RAG 检索到了还是答错:从一个线上事故讲透 RAG 数据工程全链路

一个合同问答系统的线上事故 某企业法务团队上线了一套合同问答系统。用户问&#xff1a;“渠道商季度返点的计算条件是什么&#xff1f;” 系统返回了三段参考文档&#xff0c;生成了一段看起来完整的回答。法务审核时发现&#xff1a;引用的是 2024 年旧版渠道政策&#xf…...

印地语语音合成落地难?ElevenLabs官方未披露的4大限制、3种绕过技巧,及2个替代模型性能对比数据

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;印地语语音合成落地难&#xff1f;ElevenLabs官方未披露的4大限制、3种绕过技巧&#xff0c;及2个替代模型性能对比数据 ElevenLabs对印地语支持的真实现状 ElevenLabs虽在API文档中标注“支持印地语&#x…...

8.C# —— 随机数、DateTime时间、字符串

一、C# 随机数&#xff08;伪随机 安全随机&#xff09;1. 核心概念计算机中没有真正的随机数&#xff0c;生成的都是伪随机数&#xff08;通过算法 种子计算得出&#xff09;。种子相同 → 生成的随机数序列完全相同不指定种子 → 默认使用系统当前时间作为种子&#xff0c;…...

Vue3 入门学习

Vue3 技术文章大纲Vue3 核心特性与优势Composition API 的设计理念与优势Composition API 是 Vue3 的核心特性之一&#xff0c;旨在解决 Options API 在复杂组件中逻辑分散的问题。通过 setup 函数&#xff0c;可以将相关逻辑组织在一起&#xff0c;提高代码的可读性和可维护性…...

GEO优化避坑指南:告别关键词堆砌,用实体权威与结构化数据抢占AI推荐位

最近很多做技术的同行在后台问我&#xff1a;“为什么我写了那么多文章&#xff0c;AI搜索还是搜不到我的品牌&#xff1f;”这其实陷入了一个典型的误区&#xff1a;把GEO当成了换皮的SEO。在生成式AI时代&#xff0c;靠关键词堆砌和低质内容轰炸不仅无效&#xff0c;反而可能…...

毕业设计 深度学习动物识别系统(源码+论文)

文章目录 0 前言1 项目运行效果1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 …...

2026年5月19日OpenBSD 7.9发布:多架构更新、内核创新,安全与性能双提升!

2026年5月19日&#xff0c;开源操作系统OpenBSD 7.9正式发布&#xff0c;作为第60个版本&#xff0c;它带来内核与用户空间多层面更新&#xff0c;预计在开源社区持续发挥重要作用。平台支持全面扩展arm64架构新增Rockchip RK3588与RK3576芯片支持&#xff0c;amd64平台MAXCPUs…...

万店精灵上货软件引领电商时代

万店精灵上货软件&#xff1a;http://www.wandianjingling.com/q/r/FV02331&#xff0c;1688&#xff0c;淘宝&#xff0c;抖音&#xff0c;拼多多&#xff0c;微信小店&#xff0c;京东&#xff0c;天猫&#xff0c;快手 都可以上国外&#xff1a;TikTok Shop、Temu、Shopee2&…...

智慧树自动刷课插件:3分钟完成安装的终极学习效率工具

智慧树自动刷课插件&#xff1a;3分钟完成安装的终极学习效率工具 【免费下载链接】zhihuishu 智慧树刷课插件&#xff0c;自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习而烦恼吗&#xff1f…...

对比直接使用官方 API,Taotoken 在计费透明性上的优势体验

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直接使用官方 API&#xff0c;Taotoken 在计费透明性上的优势体验 对于需要调用多种大语言模型的开发者而言&#xff0c;成本控…...