当前位置: 首页 > article >正文

图像自回归生成(Auto-regressive image generation)实战学习(六)

相关项目下载链接基于 Transformer 的自回归图像生成模型完整的链路是1、先用 Patch AutoEncoder BSQ 量化器把原始图像压缩为离散的 token 序列每个整数 token 对应原图的一个小图像 patch2、训练这个自回归 Transformer 模型学习 token 之间的空间共现规律3、通过generate方法生成全新的token序列4、用 BSQ 量化器把 token 序列解码回可保存的 png 图片。本节内容主要介绍如何通过generate方法生成全新的 token 序列。定义主模型主模型对应的代码在autoregressive.py在上一节中我们并没有定义generation方法的具体实现本节对其逻辑进行补全。为了兼容补全后的generation方法还需要对前向传播算法进行维度匹配调整。补全generation方法torch.no_grad()defgenerate(self,B:int1,h:int20,w:int30,deviceNone)-torch.Tensor:ifdeviceisNone:deviceself.embedding.weight.device gen_seqtorch.zeros((B,h,w),dtypetorch.long,devicedevice)total_lenh*wforkinrange(total_len):# 把 1D 索引 k 转回 2D 坐标 (i,j)ik//w# 行号jk%w# 列号logits,_self.forward(gen_seq)next_token_logitslogits[:,i,j,:]/0.9next_tokentorch.multinomial(F.softmax(next_token_logits,dim-1),num_samples1).squeeze(1)gen_seq[:,i,j]next_tokenreturngen_seq调整前向传播算法defforward(self,x:torch.Tensor)-tuple[torch.Tensor,dict[str,torch.Tensor]]:# 对训练和推理进行维度匹配ifx.dim()4:xx.squeeze(1)B,h,wx.shape Lh*w# 展平成序列x_flatx.reshape(B,L)# 嵌入 位置编码token_embself.embedding(x_flat)pos_idxtorch.arange(L,devicex.device)pos_embself.pos_emb(pos_idx)x_embtoken_embpos_emb# 自回归右移关键x_embF.pad(x_emb,(0,0,1,0))[:,:-1]# 因果掩码maskself._generate_causal_mask(L,x.device)trans_outself.transformer(x_emb,maskmask)# 输出logitsself.fc_out(trans_out)logits_2dlogits.reshape(B,h,w,self.n_tokens)returnlogits_2d,{}模块测评下面进行图像生成的功能测试mkdir test python-m homework.generation checkpoints/BSQPatchAutoEncoder.pth checkpoints/AutoregressiveModel.pth8test所得的解码后的PNG图片如下所示将代码打包为压缩文件python bundle.py homework20260412进行评分自测python-m grader20260412.zip最终测试得分如下可选的优化方向更优的量化器更小的图像块、更高的码率缩小 patch 尺寸你当前patch_size5可改为 3或2。更小的图像块意味着更细的图像粒度大幅减少单 patch 的信息损失生成的图像细节更丰富、块效应更少。提升码本码率你当前codebook_bits10仅 1024 个码本可提升到 12或14。码本容量越大量化的精度越高单个 token 能表达的图像信息越丰富生成的画面连贯性更强。辅助优化提升 Patch AutoEncoder 的重建能力比如增加卷积层、调整 latent_dim降低量化器的基础重建 MSE从根源上提升 token 的质量。更大的 Transformer 模型参数量增加 Transformer 深度把 Encoder 层数从 2 层提升到 4/6 层更深的网络能拟合更复杂的 token 序列分布。提升隐层维度把d_latent从 128 提升到 256/512注意nhead必须能整除d_latent更高的维度能承载更丰富的图像语义信息。更优的训练策略增加训练轮次可提升到 10/20/50 轮配合学习率衰减策略让模型充分学习 patch 的空间分布和长距离依赖关系。优化学习率策略在 AdamW 优化器中加入「warmup 预热 余弦退火衰减」避免训练初期梯度爆炸同时让模型在训练后期更精细地拟合分布大幅提升生成效果。

相关文章:

图像自回归生成(Auto-regressive image generation)实战学习(六)

相关项目下载链接 基于 Transformer 的自回归图像生成模型完整的链路是:1、先用 Patch AutoEncoder BSQ 量化器,把原始图像压缩为离散的 token 序列(每个整数 token 对应原图的一个小图像 patch)2、训练这个自回归 Transformer …...

etcd Raft 实现:分布式一致性核心原理

# etcd Raft 实现:分布式一致性核心原理> **源码版本**: etcd 3.5.9 | Go 1.21.5 > **阅读时间**: 约 25 分钟 > **难度**: ⭐⭐⭐⭐## 📋 引言在分布式系统中,如何让多个节点达成一致是一个经典难题。etcd 作为云原生时代的核心…...

.NET 新特性概览与相关文章索引蜕

从 UI 工程师到 AI 应用架构者 13 年前,我的工作是让按钮在 IE6 上对齐; 13 年后,我用 fetch-event-source 订阅大模型的“思维流”,用 OCR 解锁图片中的文字——前端,正在成为 AI 产品的第一道体验防线。 最近&#x…...

Mware虚拟机去虚拟化DLL版

、 链接:https://pan.quark.cn/s/d2f35a95a54a...

【实战】Streamlit搭建Python章节代码可视化系统

【实战】Streamlit搭建Python章节代码可视化系统 在日常学习和教学中,我们经常会遇到多章节代码文件管理的问题,手动切换文件夹、打开文件查看代码效率极低。本文将手把手教你用Streamlit快速搭建一个Python章节代码可视化系统,支持左侧章节…...

.NET10之 HttpClient 使用指南

一、HttpClient 核心概念与工作原理 System.Net.Http.HttpClient 是 .NET 中用于发送 HTTP 请求和接收 HTTP 响应的核心类,它封装了与 HTTP 服务交互的底层细节,提供了简洁、一致的编程接口。每个 HttpClient 实例包含一套应用于所有请求的配置集合&…...

TinyXML2嵌入式XML解析实战指南

1. TinyXML2 嵌入式应用技术指南:轻量级 XML 解析器在资源受限环境中的工程实践TinyXML2 是一款专为嵌入式系统与资源受限平台设计的 C XML 解析库,其核心定位并非功能完备的全功能 XML 处理引擎,而是以“小、快、可靠”为设计哲学的底层数据…...

鸿蒙Flutter实战:30.在Pub上发布鸿蒙化插件

背景 当我们编写好鸿蒙化插件后,特别是以 xxx_ohos 命名的联合插件,可以将其发布到 pub.dev 仓库中,以便其他开发者可以轻松地使用。 步骤 准备工作 包括但不限于: 做好插件的测试,尤其要在真机上进行测试&#x…...

维普、万方、知网 AI 检测有什么区别?一文讲清三大平台差异

国内高校目前主要使用知网 AIGC 检测、维普 AI 检测和万方 AI 检测三大平台。很多同学发现,同一篇论文在不同平台上的检测率差异很大。本文将详细对比三大平台的差异,帮助你针对性地准备。 三大平台基本信息 平台全称主要用户检测方式知网 AIGC学术文献…...

HCIP---VRRP实验

网络拓扑:分析:1.pc1和pc2处于不同vlan,所以处于不同网段。2.sw1为vlan10即pc1的网关,sw2为vlan20即pc2的网关,所以要使用vlanif接口。3.实现负载分担效果,使用pc1流量主要从sw1过,如果sw1故障或…...

大模型到底是啥?运维人分钟搞懂(不用数学)匙

1. 流图:数据的河流 如果把传统的堆叠面积图想象成一块块整齐堆叠的积木,那么流图就像一条蜿蜒流淌的河流,河道的宽窄变化自然流畅,波峰波谷过渡平滑。 它特别适合展示多个类别数据随时间的变化趋势,尤其是当你想强调整…...

保姆级 uPyPi 教程|从 到 :MicroPython 驱动包一键安装 + 分享全攻略蕾

这个代码的核心功能是:基于输入词的长度动态选择反义词示例,并调用大模型生成反义词,体现了 “动态少样本提示(Dynamic Few-Shot Prompting)” 与 “上下文长度感知的示例选择” 的能力。 from langchain.prompts impo…...

【2026年最新600套毕设项目分享】基于微信小程序的商品展示(30033)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运行一键启动项目&…...

网络工程作业四:拓扑图配置(动态)

1.作业要求2.作业预览图3.实验过程(1).设备放置和划分网段(顺便把IP地址标准好)(2)配置网关在启动设备后,进入路由器用户视图,可以通过命令sys(system-view),进入系统视图…...

【2026年最新600套毕设项目分享】微信小程序的电子商城购物平台(30032)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运行一键启动项目&…...

RGB LCD显示屏残存显示问题

📊 ESP32-S3 RGB接口LCD(ST7701S等)显示异常问题全总结 结合你遇到的烧录后残影、断电恢复、花屏/竖条等现象,我把这类问题的根因分类、排查逻辑、避坑方案、应急解决做了完整梳理,方便你以后快速定位和根治。一、 核…...

用 Laravel AI SDK 构建多智能体工作流计

1.安装环境准备 1.1.查看物理内存 [rootaiserver ~]# free -m 1.2.操作系统版本 [rootaiserver ~]# cat /etc/redhat-release 1.3.操作系统内存 [rootaiserver ~]# df -h /dev/shm/ 1.4.磁盘空间 [rootaiserver ~]# df -TH [rootaiserver ~]# df -h /tmp/ [rootaiserver ~]# d…...

**发散创新:基于TypeScript的VSCode插件开发实战——打造高效代码片段管理神

发散创新:基于TypeScript的VSCode插件开发实战——打造高效代码片段管理神器 在现代前端开发中,提升编码效率是每一位开发者的核心诉求。VSCode作为当前最主流的代码编辑器之一,其强大的插件生态为开发者提供了无限可能。本文将围绕 TypeScri…...

**发散创新:基于以太坊 Layer2 的Rollup 架构实现与性能优化实践**在区块链技术持续演进的今天,Layer2

发散创新:基于以太坊 Layer2 的 Rollup 架构实现与性能优化实践 在区块链技术持续演进的今天,Layer2 扩容方案已成为解决以太坊主网拥堵、Gas 费高昂问题的核心路径之一。本文将深入探讨 Optimistic Rollup Ethereum 主网验证机制 的实现细节&#xff0…...

**发散创新:基于脉冲计算的神经形态编程实践与Python实现**在传统冯·诺依曼架构下,计算

发散创新:基于脉冲计算的神经形态编程实践与Python实现 在传统冯诺依曼架构下,计算和存储分离导致能效瓶颈日益突出。近年来,脉冲计算(Spiking Neural Computing, SNC)作为一种受生物神经系统启发的新范式,…...

保姆级教程:在Ubuntu 22.04上,用Gitee镜像5分钟搞定ESP-IDF环境(告别GitHub龟速)

5分钟极速搭建ESP-IDF开发环境:Ubuntu 22.04Gitee镜像全攻略 还在为GitHub龟速下载ESP-IDF而抓狂?作为国内开发者,每次看到git clone进度条卡住不动时,都恨不得砸键盘。别担心,今天教你用Gitee镜像乐鑫官方工具链&…...

BERT在小说大模型中的核心定位:理解者、解码者、守护者

在AI重塑文学创作与阅读体验的时代浪潮中,Transformer架构的大语言模型无疑是聚光灯下的绝对主角。GPT系列以惊人的生成能力续写故事,DeepSeek-R1在阅文集团的集成让网文创作迎来了智能化时刻。然而,一个微妙却关键的问题正在浮出水面&#x…...

嵌入式摇杆驱动库:ADC滤波、死区补偿与方向判定

1. 项目概述Joystick 库是一个轻量级、硬件无关的嵌入式 C 语言函数集合,专为读取模拟摇杆(Analog Joystick)输入而设计。其核心目标并非提供完整驱动框架,而是封装底层 ADC 采样、去抖动、死区补偿、坐标映射与方向判定等共性逻辑…...

算法的时间和空间复杂度

1算法效率主要取决于时间和空间,一般从时间和空间衡量一个算法的好坏2时间复杂度算法的时间复杂度是一个函数,算法基本的执行次数,为算法的时间复杂度。对于时间复杂度的计算,我们采用大O的渐进表示法。大O渐进表示法1用常数1取代…...

将盾CDN:WAF工作机制与多层次防御策略解析

将盾CDN:Web应用防火墙的工作机制与防御策略 在当前数字化浪潮中,Web应用面临着DDoS攻击、SQL注入、跨站脚本等多元化威胁。将盾CDN通过智能防护机制,为企业Web应用构建了多层次的安全防线。## 将盾CDN的核心防护机制将盾CDN的WAF功能部署在…...

嵌入式C语言轻量级工具库apputils核心解析

1. 项目概述apputils是一个面向嵌入式系统开发的轻量级通用工具库,其设计哲学高度契合资源受限环境下的工程实践:不追求功能堆砌,而专注解决高频、细粒度、跨项目复用的底层共性问题。从项目 README 的表述——“this utils functions to sma…...

万字拆解 LLM 运行机制:Token、上下文与采样参数弦

springboot自动配置 自动配置了大量组件,配置信息可以在application.properties文件中修改。 当添加了特定的Starter POM后,springboot会根据类路径上的jar包来自动配置bean(比如:springboot发现类路径上的MyBatis相关类&#xff…...

三星电机完成SAP S/4HANA云ERP切换:以一体化数据平台支撑实时经营决策

三星电机近日宣布,已完成基于 SAP S/4HANA 的新一代 ERP 系统部署,并正式进入全面运营阶段。这次升级的核心意义,并不只是把旧 ERP 换成新系统,而是借此打通企业内部长期分散的数据体系,将原本分别存在于 ERP、MES 和 …...

分享 种 .NET 桌面应用程序自动更新解决方案谓

一、Actor 模型:不是并发技巧,而是领域单元 Actor 模型的本质是: Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是: 如何在…...

别让AI代码,变成明天的技术债貉

如果有多个供应商,你也可以使用 [[CC-Switch]] 来可视化管理这些API key,以及claude code 的skills。 # 多平台安装指令 curl -fsSL https://claude.ai/install.sh | bash ## Claude Code 配置 GLM Coding Plan curl -O "https://cdn.bigmodel.…...