当前位置: 首页 > article >正文

机器学习周报三十九

文章目录摘要Abstract1.TurboDiffusion1.1 注意力改进1.2蒸馏模型1.3权重量化2 训练和推理2.1 训练阶段2.2 推理阶段3 Make It Count3.1数据集3.2损失函数总结摘要本周阅读了清华大学的论文《TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times》了解了扩散模型新的加速框架和恐怖的加速能力。AbstractThis week, I read the Tsinghua University paper ‘TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times’ and learned about a new acceleration framework for diffusion models and its astonishing speed-up capabilities.1.TurboDiffusion在视频生成领域扩散模型的推理延迟很高很高清华大学、生数科技和UC Berkeley联合发布了TurboDiffusion实现端到端的系统优化视频生成的速度提升了一百到二百倍质量却几乎没有损失。多重注意力机制加速结合低比特 SageAttention 与可训练的 Sparse-Linear Attention (SLA)大幅降低注意力计算开销。高效步数蒸馏采用最新的 rCM 蒸馏技术将采样步数从上百步压缩至 3-4 步。全链路量化方案引入 W8A8 (INT8) 权重与激活值量化优化线性层执行效率。极致工程优化基于 Triton 和 CUDA 重写 LayerNorm 等关键算子消除系统瓶颈。1.1 注意力改进(1) SageAttention (低比特加速)SageAttention 是一种针对 8-bit 量化设计的注意力加速算子。它在保证精度的前提下充分利用 Tensor Core 的算力。(2) Sparse-Linear Attention (SLA)SLA 通过引入稀疏性来打破平方复杂度的瓶颈。其核心思想是只计算部分关键权重的注意力。A t t e n t i o n ( Q , K , V ) S o f t m a x ( Q K T d × M ) V Attention(Q,K,V)Softmax(\frac{QK^T}{\sqrt d} \times M )VAttention(Q,K,V)Softmax(d​QKT​×M)VM MM是稀疏掩码矩阵由Top-K策略生成。× \times×代表逐元素生成。由于稀疏计算与低比特 Tensor Core 加速是正交的TurboDiffusion 将两者结合为 SageSLA实现了累加的性能提升。1.2蒸馏模型基于 rCM 的步数蒸馏为了减少推理步数TurboDiffusion 采用了 rCM (Score-regularized Continuous-time Consistency) 蒸馏技术。rCM 属于一致性模型Consistency Models的进阶版通过引入分数正则化使得学生模型在极少步数下如 3-4 步仍能保持极高的生成质量。1.3权重量化在扩散模型中有大量的线性层如nn.Linear(in_channel,d_model)这些操作的权重以及激活函数的激活值占据了大量的内存加载权重都花费了大量的时间也增加了显存所以采用W8A8粒度128 x 128的全量化方式128 x 128就是把权重矩阵切成128行x128列的小块每个小块肚子量化W8A8权重和激活值都用INT8的数据类型保存。2 训练和推理2.1 训练阶段稀疏适配将原预训练模型中的 Full Attention 替换为 SLA通过微调Fine-tuning让模型适应稀疏计算。并行蒸馏同时利用 rCM 技术将模型蒸馏为少步数模型。权重融合将 SLA 微调和 rCM 训练得到的权重更新合并形成最终的加速版模型。2.2 推理阶段算子替换SLA 升级为高性能的 SageSLA CUDA 实现。采样压缩设置步数为 3 或 4。动态量化在推理运行过程中对激活值进行实时 INT8 量化。在Wan2.1-T2V小参数量的模型下生成480p的视频只需要1.9s对14B的模型的加速效果达到了199倍而且只需要在单张5090就可以进行推理。3 Make It CountCVPR2025的论文《Make It Count: Text-to-Image Generation with an Accurate Number of Objects》论文针对的是生成模型生成的物体数量和提示词的不一致的问题他们提出了一种叫做CountGen的架构。文章的摘要尽管文本到图像的扩散模型取得了前所未有的成功但使用文本来控制描述对象的数量是非常困难的。这对于从技术文件、儿童读物到烹饪食谱的各种应用都很重要。生成对象正确的计数在本质上是具有挑战性的因为生成模型需要对对象的每个实例保持单独的身份感即使几个对象看起来相同或重叠然后在生成过程中隐式地执行全局计算。这种表象是否存在目前还不得而知。为了解决计数正确的生成问题我们首先在扩散模型中识别能够携带物体身份信息的特征。 然后使用它们在去噪过程中分离和统计对象的实例并检测过生成和欠生成。我们通过训练一个模型来修复后者该模型可以根据现有物体的布局来预测丢失物体的形状和位置并展示了它如何使用正确的物体计数来指导去噪。我们的方法CountGen并不依赖于外部来源来确定对象布局而是利用了来自扩散模型本身的先验创建了依赖提示和依赖种子的布局。在两个基准数据集上进行评估我们发现CountGen明显优于现有基线的计数精度。然后看到论文的第三章描述了他们的主要做法1输入提示词借助SDXL模型生成图片但是在生成过程中t500打断模型得到一个模糊的图像进行物体定位提取模糊的布局图。2训练一个ReLayout模型对原本的k个物体的布局图生成k1个无图的布局图迭代到正确的数量得到修正的布局图。3得到修正布局图回到扩散模型生成过程在文本提示的指导下继续生成得到正确物体数量的图片。3.1数据集模型训练需要k到k1的布局对的数据集作者发现提示词中除了指定物体的计数有变化其他的噪声之类的超参数都一致的情况下得到的生成图片布局类似就可以通过这个步骤生成布局数据集。3.2损失函数在掩码修正部分使用的是DCIE和Overlap掩码描述掩码之间的差异。L ( c , m ) − Σ i ω i ( m i l o g c i ( 1 − m i ) l o g ( 1 − c i ) ) L(c,m)-\Sigma_i \omega_i(m_ilog c_i (1-m_i)log(1-c_i))L(c,m)−Σi​ωi​(mi​logci​(1−mi​)log(1−ci​))论文定义了一个加权的二元交叉熵损失m是二值掩码m i 1 m_i1mi​1代表像素i属于物体m i 0 m_i0mi​0代表物体属于背景。c是从扩散模型提取的关于目标词的聚合交叉注意力分数c i c_ici​越高代表像素i属于物体概率越大。损失函数奖励m为1交叉注意力分数c越高的地方惩罚m为0出现高c值的位置。总结本周联系之前的内容在扩散模型的速度问题和计数问题上进行学习。

相关文章:

机器学习周报三十九

文章目录摘要Abstract1.TurboDiffusion1.1 注意力改进1.2蒸馏模型1.3权重量化2 训练和推理2.1 训练阶段2.2 推理阶段3 Make It Count3.1数据集3.2损失函数总结摘要 本周阅读了清华大学的论文《TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times》&#…...

LightOnOCR-2-1B实操手册:Gradio界面上传限制绕过与Base64编码调试技巧

LightOnOCR-2-1B实操手册:Gradio界面上传限制绕过与Base64编码调试技巧 1. 开篇:为什么需要绕过Gradio上传限制? 如果你用过LightOnOCR-2-1B的Gradio界面,可能会遇到这样的困扰:上传大一点的图片就报错,或…...

GitHub协作开发AnythingtoRealCharacters2511项目指南

GitHub协作开发AnythingtoRealCharacters2511项目指南 1. 项目概述与协作价值 AnythingtoRealCharacters2511是一个专门将动漫角色转换为写实真人形象的AI模型项目。这个模型基于Lora技术,经过30900步训练,使用103组图组(合计206张图片&…...

通义千问1.5-1.8B-Chat-GPTQ-Int4入门:C语言基础概念问答助手

通义千问1.5-1.8B-Chat-GPTQ-Int4入门:C语言基础概念问答助手 刚学C语言那会儿,指针、结构体这些概念真是让人头大。书上讲得抽象,网上资料又太零散,要是当时有个能随时提问、还能给出代码例子的“随身老师”就好了。现在&#x…...

语音情感识别在心理评估中的应用:Emotion2Vec+镜像实战案例

语音情感识别在心理评估中的应用:Emotion2Vec镜像实战案例 1. 语音情感识别技术概述 语音情感识别(Speech Emotion Recognition, SER)技术正在改变传统心理评估的方式。这项技术通过分析语音中的声学特征,能够准确识别说话者的情…...

VideoAgentTrek-ScreenFilter智能体(Agent)实践:自主决策的视频内容净化流程

VideoAgentTrek-ScreenFilter智能体实践:自主决策的视频内容净化流程 最近在做一个视频内容平台的项目,团队最头疼的问题就是每天海量的UGC视频审核。人工审核不仅成本高、效率低,而且标准还容易不统一。后来我们尝试引入了一些AI内容识别工…...

ClawdBot部署全流程:从安装到设备授权,手把手带你跑通

ClawdBot部署全流程:从安装到设备授权,手把手带你跑通 1. ClawdBot简介与核心价值 ClawdBot是一个可以在本地设备上运行的个人AI助手,它使用vLLM提供后端模型能力。与常见的云端AI服务不同,ClawdBot的设计理念强调: …...

告别BLAST卡顿!用FastANI和Skani快速搞定微生物基因组ANI计算(附实战对比)

微生物基因组分析提速指南:FastANI与Skani的性能对决与实战应用 当实验室的测序仪日夜不停地吐出海量微生物基因组数据时,生物信息学分析流程中的ANI计算环节往往成为效率瓶颈。传统BLAST-based方法在应对数十甚至上百个基因组比较时,不仅耗时…...

Mirage Flow 运维效率提升实战:智能日志排查与故障自愈方案

Mirage Flow 运维效率提升实战:智能日志排查与故障自愈方案 你是不是也经历过这样的深夜?告警短信突然炸了锅,几十上百条日志涌进来,你得像侦探一样,在成百上千行日志里大海捞针,试图找出那个导致系统崩溃…...

万象视界灵坛惊艳效果:CLIP-ViT-L/14在低分辨率图像上的鲁棒性语义解析

万象视界灵坛惊艳效果:CLIP-ViT-L/14在低分辨率图像上的鲁棒性语义解析 1. 平台概览与核心价值 万象视界灵坛是一款基于OpenAI CLIP-ViT-L/14模型构建的多模态智能感知平台。不同于传统视觉识别系统的单调界面,这个平台将复杂的语义对齐过程转化为直观…...

关键词SEO服务对网站排名有什么影响_关键词SEO服务与移动端优化有什么关系

SEO服务对网站排名有什么影响 在当前数字化时代,网站排名的重要性不言而喻。无论是企业、个人博客还是新媒体,网站的流量直接关系到业务的发展和品牌的影响力。而在这其中,关键词SEO服务起到了至关重要的作用。关键词SEO服务对网站排名究竟有…...

Intv_AI_MK11 架构设计咨询:后端微服务拆分与通信方案评估

Intv_AI_MK11 架构设计咨询:后端微服务拆分与通信方案评估 1. 微服务架构的核心挑战 想象你正在设计一个电商平台的后端系统。随着业务增长,单体架构开始暴露出各种问题:部署周期长、扩展困难、技术栈单一。这时微服务架构自然成为解决方案…...

Qwen-Image-Lightning部署教程:国产昇腾/海光平台适配可行性初探

Qwen-Image-Lightning部署教程:国产昇腾/海光平台适配可行性初探 1. 项目概述 Qwen-Image-Lightning是一个基于Qwen/Qwen-Image-2512旗舰模型构建的文生图应用,集成了最新的Lightning LoRA加速技术。这个方案最大的特点是实现了极速生成和高稳定性&…...

Intv_AI_MK11 Node.js全栈开发指南:环境配置与AI服务端集成

Node.js全栈开发指南:环境配置与AI服务端集成 1. 前言:为什么选择Node.js开发AI应用 Node.js已经成为现代Web开发的热门选择,特别是在需要处理高并发、实时数据流的场景下。当我们将AI能力集成到Web应用中时,Node.js的非阻塞I/O…...

FireRedASR Pro代码详解:从音频预处理到文本后处理全流程

FireRedASR Pro代码详解:从音频预处理到文本后处理全流程 1. 引言 如果你对语音识别感兴趣,想知道一段音频是怎么变成文字的,那么这篇文章就是为你准备的。我们这次不聊怎么用现成的工具,而是直接打开一个叫FireRedASR Pro的语音…...

ICLR2025杰出论文启示录:大模型安全、微调与知识编辑的三大前沿突破

1. 深度安全对齐:从表层防御到系统级防护 大语言模型的安全性问题一直是业界关注的焦点。普林斯顿大学和Google DeepMind的研究团队发现,当前主流的安全对齐方法存在一个致命缺陷——它们只停留在模型输出的前几个token层面。这就好比给房子装防盗门却忘…...

Qwen3-VL-8B-Instruct-GGUF实战:上传图片秒懂内容,智能问答体验分享

Qwen3-VL-8B-Instruct-GGUF实战:上传图片秒懂内容,智能问答体验分享 1. 模型概述与核心优势 Qwen3-VL-8B-Instruct-GGUF是阿里通义最新推出的中量级多模态模型,它最大的特点可以用一句话概括:用8B参数实现72B级别的视觉语言理解…...

all-MiniLM-L6-v2效果展示:实测文本相似度计算,准确率惊艳

all-MiniLM-L6-v2效果展示:实测文本相似度计算,准确率惊艳 1. 模型能力概览 all-MiniLM-L6-v2作为轻量级语义嵌入模型的代表,在保持高效推理的同时,展现出令人惊喜的文本理解能力。这个基于BERT架构的模型通过知识蒸馏技术&…...

基础入门-版本控制-GitLab/Gitea 基本使用

GitLab/Gitea 基本使用 在前面的章节中,我们学习了 Git 基础命令和团队协作流程。在实际工作中,这些操作都是围绕着代码托管平台展开的。GitLab 和 Gitea 是两种广泛使用的自托管 Git 仓库管理工具,它们提供了仓库管理、权限控制、代码审查、CI/CD 等功能,是运维团队进行配…...

DeepSeek LeetCode 1210. 穿过迷宫的最少移动次数 public int minimumMoves(int[][] grid)

我来分析 LeetCode 1210 “穿过迷宫的最少移动次数” 的解题思路和实现。 问题分析 我们有一条长度为 2 的蛇,需要从起点 (0,0) 和 (0,1)(水平放置)移动到终点 (n-1, n-2) 和 (n-1, n-1)(仍为水平放置)。蛇可以&#x…...

DeepSeek linux-6.19/kernel/events/ring_buffer.c 源码分析

我来分析 Linux 6.19 内核中 kernel/events/ring_buffer.c 的源码。这个文件实现了 perf events 子系统的环形缓冲区管理,用于在内核和用户空间之间高效传递性能事件数据。 文件概述 ring_buffer.c 是 perf events 系统的核心组件,负责管理用于存储性能事…...

PyTorch 2.8镜像智能助手:科研人员用预装Jupyter+Pandas快速分析训练指标

PyTorch 2.8镜像智能助手:科研人员用预装JupyterPandas快速分析训练指标 1. 为什么科研人员需要这个镜像 深度学习研究中最耗时的往往不是算法设计,而是环境配置和数据准备。传统开发流程中,研究人员需要花费大量时间在: 安装C…...

未来之窗昭和仙君(八十八)东方仙盟神识FACLAW说明书—东方仙盟

东方仙盟类md5算法功能说明书未来之窗昭和仙君 - cyberwin_fairyalliance_webquery一、功能概述东方仙盟类md5算法主要用于对输入的文本进行压缩处理,生成一个32位的十六进制字符串。该算法通过加权计算、哈希强化、位置扰动等步骤,确保即使对于超长文本…...

Qwen3-TTS在VSCode中的开发调试技巧:从语音克隆到音色设计

Qwen3-TTS在VSCode中的开发调试技巧:从语音克隆到音色设计 1. 开发环境搭建 1.1 Python虚拟环境配置 在VSCode中开发Qwen3-TTS项目,首先需要配置合适的Python环境。推荐使用conda或venv创建独立的虚拟环境,避免依赖冲突。 # 使用conda创建…...

Qwen3-Reranker-0.6B效果实测:轻量级模型重排序能力展示

Qwen3-Reranker-0.6B效果实测:轻量级模型重排序能力展示 1. 引言:为什么需要重排序模型? 在信息检索和问答系统中,我们经常会遇到这样的场景:用户输入一个问题,系统返回多个相关文档。但如何判断哪些文档…...

别再让YOLO的检测框丑哭你!手把手教你根据图片大小动态调整边框粗细(附Ultralytics源码修改)

让YOLO检测框颜值翻倍:基于图像尺寸的动态边框优化实战 在计算机视觉领域,YOLO系列算法因其出色的实时性和准确性,已成为目标检测任务的首选工具之一。然而,许多开发者在实际应用中发现,虽然模型的检测精度令人满意&am…...

从经典控制器到前沿控制的发展

目录 前言 一、PID控制 1.数字PID 2.PID参数的优化 1.微分项的问题 2.积分项的问题 3.PID参数整定法 3.PID参数对系统性能指标的影响 二、模糊控制 1.模糊控制的五大核心步骤 1.模糊化 2.建立模糊规控制规则 3.模糊推理与解模糊 2.模糊PID 1.直接型模糊PID 2.增…...

Jimeng LoRA惊艳效果:同一LoRA版本在不同seed下风格稳定性测评

Jimeng LoRA惊艳效果:同一LoRA版本在不同seed下风格稳定性测评 1. 项目简介 今天我们来聊聊一个很有意思的话题:同一个LoRA模型,用不同的随机种子(seed)生成图片,它的风格到底稳不稳定? 为了…...

小白也能用!M2FP多人人体解析服务一键部署教程

小白也能用!M2FP多人人体解析服务一键部署教程 1. 什么是M2FP多人人体解析服务? M2FP(Mask2Former-Parsing)是目前业界领先的语义分割算法,专注于多人人体解析任务。它能精准识别图像中多个人物的不同身体部位&#…...

图像二值化实战指南:从传统阈值到智能自适应算法的技术演进

1. 图像二值化技术基础入门 第一次接触图像二值化时,我盯着显示器上那些黑白分明的图片看了好久。这种看似简单的技术,在实际项目中却能解决大问题。简单来说,图像二值化就是把彩色或灰度图像转换成只有黑白两种颜色的图像,就像我…...