当前位置: 首页 > article >正文

FLUX.1-dev模型微调指南:基于LoRA的个性化风格训练

FLUX.1-dev模型微调指南基于LoRA的个性化风格训练想用FLUX.1-dev生成独一无二的专属风格图片吗比如把照片一键变成你最喜欢的插画师风格或者让模型学会生成特定品牌的设计元素。今天我们就来聊聊怎么用LoRA技术给这个强大的开源图像模型“开小灶”让它学会你的独家风格。整个过程其实不难就像教一个聪明的学生临摹名画。你准备好一批“范本”数据集告诉它“照着这个感觉来”训练最后它就能独立创作出类似风格的作品了。下面我就带你一步步走完这个流程。1. 准备工作理解LoRA与FLUX.1-dev在开始动手之前我们先花几分钟搞清楚两件事我们要用的“学生”FLUX.1-dev和“教学方法”LoRA到底是什么。1.1 FLUX.1-dev一个强大的开源画师FLUX.1-dev是Black Forest Labs开源的一个图像生成模型你可以把它理解成一个基础能力很强的AI画师。它已经看过海量的图片和文字描述学会了根据“一只在太空戴墨镜的猫”这样的提示词生成相应的图像。它的特点是质量高、对提示词理解准确而且是开源的这意味着我们可以深入它的内部对它进行定制化的改造。1.2 LoRA轻量高效的“风格植入术”那么如何高效地教会这个画师一种新风格呢全部重新训练它这叫做全参数微调就像让一个大学生从小学课本重新学起成本极高需要大量的计算资源和数据。LoRALow-Rank Adaptation技术则聪明得多。它像是一种“微创手术”。我们不去改动模型原有的、庞大的神经网络权重可以理解为画师的基础绘画知识和技能而是在这个网络上附加一些小小的、额外的“适配层”。在训练时我们只更新这些新增的小层参数。打个比方FLUX.1-dev就像一个已经掌握了所有绘画技法的画家。LoRA训练不是让他忘记过去重新学习而是给他一本薄薄的、特定风格的“参考画册”。在创作时他既运用自己深厚的功底同时参考这本画册就能画出兼具基础质量和特定风格的作品。这本“画册”非常轻便文件很小训练起来也快得多。2. 搭建你的训练环境理论清楚了我们开始动手。首先需要一个能跑起来训练代码的地方。这里我推荐使用Google Colab因为它能提供免费的GPU对于LoRA这种轻量训练完全够用。2.1 环境配置与依赖安装我们打开一个新的Google Colab笔记本将运行时类型设置为“T4 GPU”或更高。然后在第一个代码单元格中安装必要的软件包。# 安装核心依赖Diffusers模型库、Transformers、Accelerate加速训练以及LoRA相关库 !pip install -q diffusers transformers accelerate peft !pip install -q datasets torchvision !pip install -q xformers # 可选用于优化注意力计算提升训练速度并节省显存安装完成后我们导入接下来会用到的模块。import torch from torch.utils.data import Dataset from PIL import Image import os from diffusers import FluxPipeline, FluxTransformer2DModel from peft import LoraConfig, get_peft_model from transformers import CLIPTextModel, CLIPTokenizer import numpy as np from tqdm.auto import tqdm2.2 准备你的风格数据集这是最关键的一步。你的数据集质量直接决定了模型能学到什么。我们以“训练一个水彩画风格”为例。数据集要求主题一致所有图片最好是同一种风格比如都是水彩风景。质量清晰图片分辨率不要太低建议512x512像素以上。数量适中对于LoRA训练15-50张高质量图片通常就能有不错的效果。当然越多越好但要注意过拟合模型只记住了你的图片而不会举一反三。文本标注每张图片都需要一个对应的文本描述.txt文件。描述要简洁并突出风格。例如一张水彩森林的图片其对应的forest.jpg.txt文件内容可以是“A watercolor painting of a serene forest with soft light filtering through the trees.”如何组织文件夹在你的Google Drive或本地创建一个文件夹比如叫做watercolor_style。里面像这样摆放watercolor_style/ ├── image1.jpg ├── image1.jpg.txt ├── image2.png ├── image2.png.txt └── ...在Colab中我们可以从Google Drive加载这个数据集。from google.colab import drive drive.mount(/content/drive) # 假设你的数据集在Google Drive的 MyDrive/datasets/watercolor_style 路径下 dataset_path /content/drive/MyDrive/datasets/watercolor_style image_paths [os.path.join(dataset_path, f) for f in os.listdir(dataset_path) if f.endswith((.jpg, .png, .jpeg))] caption_paths [p.replace(os.path.splitext(p)[1], .txt) for p in image_paths] print(f找到 {len(image_paths)} 张图片。)接下来我们创建一个PyTorch数据集类来方便地读取这些图片和文本。class StyleDataset(Dataset): def __init__(self, image_paths, caption_paths, tokenizer, size512): self.image_paths image_paths self.caption_paths caption_paths self.tokenizer tokenizer self.size size def __len__(self): return len(self.image_paths) def __getitem__(self, idx): # 加载和预处理图片 image Image.open(self.image_paths[idx]).convert(RGB) # 简单调整大小和中心裁剪更复杂的可以使用数据增强 from torchvision import transforms transform transforms.Compose([ transforms.Resize(self.size), transforms.CenterCrop(self.size), transforms.ToTensor(), transforms.Normalize([0.5], [0.5]) # 将像素值归一化到[-1, 1] ]) image_tensor transform(image) # 加载文本描述 caption if os.path.exists(self.caption_paths[idx]): with open(self.caption_paths[idx], r) as f: caption f.read().strip() else: caption A painting # 后备描述 # 使用tokenizer将文本转换为模型可读的格式 text_input self.tokenizer( caption, paddingmax_length, max_lengthself.tokenizer.model_max_length, truncationTrue, return_tensorspt, ) # 返回图片张量、输入ID和注意力掩码 return { pixel_values: image_tensor, input_ids: text_input.input_ids.squeeze(), attention_mask: text_input.attention_mask.squeeze(), }3. 配置并启动LoRA训练环境搭好了数据备齐了现在进入核心环节——训练。3.1 加载基础模型并注入LoRA我们首先加载原始的FLUX.1-dev模型然后使用PEFT库为其中的关键模块如注意力层注入LoRA适配层。# 指定模型ID model_id black-forest-labs/FLUX.1-dev # 加载文本编码器和分词器FLUX使用CLIP tokenizer CLIPTokenizer.from_pretrained(model_id, subfoldertokenizer) text_encoder CLIPTextModel.from_pretrained(model_id, subfoldertext_encoder) # 加载FLUX的核心Transformer模型 transformer FluxTransformer2DModel.from_pretrained(model_id, subfoldertransformer) # 将模型设置为评估模式并放到GPU上 text_encoder.eval() transformer.eval() text_encoder.to(cuda) transformer.to(cuda) # 冻结基础模型的参数我们只训练LoRA层 for param in text_encoder.parameters(): param.requires_grad False for param in transformer.parameters(): param.requires_grad False # 配置LoRA参数 lora_config LoraConfig( r16, # LoRA的秩rank决定适配层的大小。值越大能力越强但参数越多。4-32是常用范围。 lora_alpha32, # 缩放因子通常设置为r的2倍。 target_modules[to_q, to_k, to_v, to_out.0], # 将LoRA注入到注意力机制的查询、键、值、输出投影层。 lora_dropout0.1, # Dropout率防止过拟合。 biasnone, # 不训练偏置项。 ) # 将LoRA适配器应用到Transformer模型上 transformer get_peft_model(transformer, lora_config) transformer.print_trainable_parameters() # 打印可训练参数数量你会发现只占原模型的极小一部分3.2 准备数据集和数据加载器使用我们之前定义的数据集类。dataset StyleDataset(image_paths, caption_paths, tokenizer, size512) # 创建数据加载器用于在训练时批量提供数据 from torch.utils.data import DataLoader dataloader DataLoader(dataset, batch_size1, shuffleTrue) # LoRA训练时batch_size通常为1或2取决于显存3.3 设置训练参数与优化器# 训练轮数Epoch根据数据集大小调整。通常需要几百到几千步。 num_epochs 100 # 学习率LoRA训练的学习率通常比全参数微调高一些。 learning_rate 1e-4 # 只优化Transformer中可训练的LoRA参数 optimizer torch.optim.AdamW(transformer.parameters(), lrlearning_rate) # 学习率调度器可以在训练过程中动态调整学习率 from torch.optim.lr_scheduler import CosineAnnealingLR scheduler CosineAnnealingLR(optimizer, T_maxnum_epochs * len(dataloader))3.4 编写训练循环这是训练的核心逻辑。简单来说就是让模型看图片和描述尝试去“理解”这种风格然后我们根据它的“理解”和真实图片的差距来调整LoRA参数。transformer.train() # 将transformer设置为训练模式 losses [] for epoch in range(num_epochs): epoch_loss 0 progress_bar tqdm(dataloader, descfEpoch {epoch1}/{num_epochs}) for batch in progress_bar: # 将数据移到GPU pixel_values batch[pixel_values].to(cuda) input_ids batch[input_ids].to(cuda) attention_mask batch[attention_mask].to(cuda) # 1. 将图片编码到潜在空间这是FLUX等扩散模型的标准流程 # 注意FLUX有自己的图像编码器VQVAE这里为了简化我们假设pixel_values已经是潜在表示。 # 在实际完整的FLUX训练中需要使用其自带的编码器。 # 对于LoRA风格训练一个常见的简化方法是使用一个预编码好的潜在张量或者使用一个冻结的编码器。 # 此处我们以pixel_values作为输入进行概念性说明。 latents pixel_values # 2. 获取文本嵌入 with torch.no_grad(): # 文本编码器是冻结的不需要计算梯度 text_embeddings text_encoder(input_ids, attention_maskattention_mask)[0] # 3. 添加噪声模拟扩散过程的前向过程 noise torch.randn_like(latents) timesteps torch.randint(0, 1000, (latents.shape[0],), devicelatents.device).long() noisy_latents noise latents # 简化版的加噪实际扩散过程更复杂 # 4. 前向传播让transformer预测噪声 noise_pred transformer(noisy_latents, timesteps, encoder_hidden_statestext_embeddings).sample # 5. 计算损失预测的噪声和真实噪声的差距 loss torch.nn.functional.mse_loss(noise_pred, noise) # 6. 反向传播和优化 optimizer.zero_grad() loss.backward() torch.nn.utils.clip_grad_norm_(transformer.parameters(), max_norm1.0) # 梯度裁剪防止爆炸 optimizer.step() scheduler.step() epoch_loss loss.item() progress_bar.set_postfix({loss: loss.item()}) losses.append(loss.item()) avg_loss epoch_loss / len(dataloader) print(fEpoch {epoch1} 平均损失: {avg_loss:.4f}) # 每隔一定轮数保存一次LoRA权重 if (epoch 1) % 20 0: lora_save_path f/content/drive/MyDrive/lora_weights/watercolor_style_epoch_{epoch1} transformer.save_pretrained(lora_save_path) print(fLoRA权重已保存至: {lora_save_path})4. 使用训练好的LoRA生成图片训练完成后我们得到了一个.bin或.safetensors文件这就是我们的“风格画册”。现在来看看怎么用它来画画。4.1 加载基础模型和LoRA权重from diffusers import FluxPipeline import torch # 加载原始FLUX.1-dev管道 pipe FluxPipeline.from_pretrained(black-forest-labs/FLUX.1-dev, torch_dtypetorch.float16) pipe pipe.to(cuda) # 加载我们训练好的LoRA权重 lora_path /content/drive/MyDrive/lora_weights/watercolor_style_epoch_100 pipe.transformer.load_attn_procs(lora_path) # 将LoRA权重加载到注意力模块 # 或者使用PEFT的merge_and_unload方法将LoRA权重合并到原模型可能会轻微提升推理速度 # transformer transformer.merge_and_unload() # pipe.transformer transformer4.2 使用风格化提示词生成关键点来了为了让模型触发你训练的风格你需要在提示词中加入一个特殊的“触发词”。这个触发词通常是你数据集中文本描述里反复出现的一个词或者是一个你自定义的、在训练时与风格绑定的独特标识符。假设我们在训练时所有文本描述都加上了前缀“watercolor_style”。那么prompt watercolor_style, a majestic castle on a hill at sunset negative_prompt blurry, bad anatomy, ugly # 负面提示词告诉模型避免什么 # 生成图像 image pipe( promptprompt, negative_promptnegative_prompt, height512, width512, num_inference_steps50, # 推理步数越多通常质量越高耗时越长 guidance_scale7.5, # 提示词引导强度 generatortorch.Generator(cuda).manual_seed(42) # 固定随机种子以便复现 ).images[0] image.save(watercolor_castle.png) image.show()5. 效果评估与调优建议生成图片后怎么判断效果好不好呢风格一致性生成的图片是否具有你数据集中的水彩画特征如笔触、色彩晕染内容可控性改变提示词中的主体如把“城堡”换成“港口”风格是否还能保持图像质量图片是否清晰有无明显的结构扭曲或伪影如果效果不理想可以尝试以下调优方法调整触发词试试在触发词前后加括号来增强效果例如(watercolor_style:1.2)。数字可以控制风格强度。检查数据集回头看看你的图片是否风格统一、标注是否准确。杂乱的数据集很难教出好学生。调整训练参数适当增加r值比如从16调到32、增加训练轮数、或者稍微降低学习率。使用更高级的技术可以尝试LoRA增加更多可训练模块、或者使用DreamBooth等专门针对主体或风格微调的方法它们通常能产生更精确、更强烈的绑定效果。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

FLUX.1-dev模型微调指南:基于LoRA的个性化风格训练

FLUX.1-dev模型微调指南:基于LoRA的个性化风格训练 想用FLUX.1-dev生成独一无二的专属风格图片吗?比如,把照片一键变成你最喜欢的插画师风格,或者让模型学会生成特定品牌的设计元素。今天,我们就来聊聊怎么用LoRA技术…...

开发者必备:Chandra调试技巧与常见问题解决

开发者必备:Chandra调试技巧与常见问题解决 1. 引言 调试是每个开发者都绕不开的必修课,尤其是在使用Chandra这样的AI工具时。你可能已经遇到过这样的情况:模型运行好好的突然就卡住了,或者生成的文本总是偏离预期,又…...

墨语灵犀本地知识库构建:基于开源模型的Agent智能体开发

墨语灵犀本地知识库构建:基于开源模型的Agent智能体开发 最近和几个做企业服务的朋友聊天,发现大家有个共同的痛点:公司内部有大量的产品文档、技术手册、客户案例,但新员工上手慢,老员工查资料也费劲。市面上那些通用…...

造相-Z-Image-Turbo 计算机网络基础:理解模型API的HTTP请求与响应

造相-Z-Image-Turbo 计算机网络基础:理解模型API的HTTP请求与响应 你是不是也遇到过这种情况?在网上看到一个很酷的AI画图模型,比如“造相-Z-Image-Turbo”,兴冲冲地找到它的API文档,结果满眼都是“HTTP POST”、“JS…...

AI普及74%,仍超6成团队陷延期?

大模型时代,项目管理该是什么新形态?AI工具的深度应用如何切实赋能岗位工作?项目交付延期的核心症结该如何破解?跨角色协作的效率瓶颈该如何突破……大家好!为更真实地了解当前IT行业项目管理的现状,我们面…...

基于动态分时电价的电动汽车有序充放电实时优化调度系统研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

UDOP-large完整指南:英文文档标题提取、摘要生成、布局分析全流程

UDOP-large完整指南:英文文档标题提取、摘要生成、布局分析全流程 你是不是经常需要处理一堆英文PDF文档,比如学术论文、报告或者发票?手动去翻找标题、总结内容、提取关键信息,不仅耗时耗力,还容易出错。今天&#x…...

两级式光伏并网逆变器低电压穿越LVRT仿真模型:改进MPPT、改进电流环、DSOGI锁相环与电流前馈控制(仿真+配套设计说明文档+参考文献)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

mPLUG视觉问答功能体验:支持多格式图片,分析结果秒级返回

mPLUG视觉问答功能体验:支持多格式图片,分析结果秒级返回 1. 视觉问答技术的新体验 当你面对一张复杂的照片时,是否曾希望有个助手能立即告诉你图片中的内容?mPLUG视觉问答工具让这个愿望成为现实。这个基于ModelScope官方模型的…...

MiniCPM-V-2_6跨模态对齐解析:图文匹配度评估与错误定位实战

MiniCPM-V-2_6跨模态对齐解析:图文匹配度评估与错误定位实战 1. 理解跨模态对齐的核心价值 跨模态对齐是多模态AI领域的核心技术,它让机器能够理解图像和文本之间的深层关联。想象一下,当你看到一张图片时,大脑会自动理解图片内…...

Swin2SR算力适配优化:24G显存下稳定输出4K画质

Swin2SR算力适配优化:24G显存下稳定输出4K画质 1. 引言:当AI显微镜遇上显存瓶颈 你有没有遇到过这种情况?在网上找到一张绝佳的参考图,但分辨率低得可怜,放大后全是马赛克;或者用AI生成了一张满意的概念图…...

Z-Image Turbo步数设置指南:4/8/12步生成效果对比与选型建议

Z-Image Turbo步数设置指南:4/8/12步生成效果对比与选型建议 1. 引言:为什么步数设置如此重要? 在使用Z-Image Turbo进行AI绘图时,步数(Steps)是最影响生成效果和速度的核心参数之一。很多用户都有这样的…...

Wan2.1-UMT5入门:C语言开发者也能懂的模型调用原理

Wan2.1-UMT5入门:C语言开发者也能懂的模型调用原理 如果你有C语言基础,习惯了和内存、指针、结构体打交道,第一次接触像Wan2.1-UMT5这样的大模型,可能会觉得它像个黑盒子,里面充满了“张量”、“注意力”、“前向传播…...

Phi-3-vision-128k-instruct 赋能JavaScript开发:浏览器端图片上传与AI分析

Phi-3-vision-128k-instruct 赋能JavaScript开发:浏览器端图片上传与AI分析 1. 场景价值与核心思路 想象这样一个场景:用户在你的电商网站上随手拍了一张商品照片,页面立即显示出该商品的详细参数和购买链接。这种"拍照识物"的体…...

树莓派Ubuntu开机卡在initramfs?3步搞定磁盘修复(附blkid和fsck详细用法)

树莓派Ubuntu开机卡在initramfs?3步搞定磁盘修复(附blkid和fsck详细用法) 当你满心期待地按下树莓派的电源键,准备继续昨天的项目时,屏幕上却突然跳出陌生的(initramfs)提示符——这种场景恐怕是每个嵌入式开发者的噩梦…...

手把手教你部署Qwen3-Embedding-4B:一键实现智能语义匹配

手把手教你部署Qwen3-Embedding-4B:一键实现智能语义匹配 1. 为什么选择Qwen3-Embedding-4B进行语义搜索? 传统关键词搜索就像拿着放大镜在图书馆里找书——只能看到书名里有没有你要的字,却不知道书里到底讲了什么。比如搜索"如何重启…...

FDTD Script实战:farfield3d命令参数详解与常见错误排查指南

FDTD Script实战:farfield3d命令参数详解与常见错误排查指南 在光学仿真领域,FDTD(时域有限差分)方法因其对复杂电磁场问题的精确模拟能力而广受青睐。而farfield3d命令作为FDTD Script中的关键功能,能够将近场数据转换…...

NSIS安装包必知必会:3个默认参数详解(附实际应用场景)

NSIS安装包必知必会:3个默认参数详解(附实际应用场景) 在软件分发和自动化部署领域,NSIS(Nullsoft Scriptable Install System)因其轻量级和高度可定制性成为众多开发者的首选安装包制作工具。对于需要频繁…...

避坑指南:CloudCompare点云显示六大常见误区与优化方案(2024版)

避坑指南:CloudCompare点云显示六大常见误区与优化方案(2024版) 第一次打开CloudCompare加载点云数据时,很多人会被默认的显示效果震惊——锯齿状的方形点、昏暗的渐变背景、生硬的渲染效果,让本应精美的三维点云看起…...

小白也能玩转大模型!Qwen2.5-7B-Instruct一键Docker部署实战

小白也能玩转大模型!Qwen2.5-7B-Instruct一键Docker部署实战 1. 前言:为什么选择Qwen2.5-7B-Instruct 大语言模型正在改变我们与技术交互的方式,而阿里通义千问的Qwen2.5系列无疑是当前最值得关注的模型之一。作为1.5B/3B轻量版的进阶旗舰款…...

高效媒体处理:LosslessCut实现零质量损失的视频剪辑解决方案

高效媒体处理:LosslessCut实现零质量损失的视频剪辑解决方案 【免费下载链接】lossless-cut The swiss army knife of lossless video/audio editing 项目地址: https://gitcode.com/gh_mirrors/lo/lossless-cut 在数字内容创作领域,视频剪辑效率…...

5个专业级技巧:如何通过游戏外设调校实现射击精准控制

5个专业级技巧:如何通过游戏外设调校实现射击精准控制 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 在竞技射击游戏中,…...

深蓝词库转换:20+输入法格式互转的终极解决方案

深蓝词库转换:20输入法格式互转的终极解决方案 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 在数字时代,输入法词库已成为用户个性化体验的…...

罗技鼠标宏压枪脚本:精准射击算法的工程化实现方案

罗技鼠标宏压枪脚本:精准射击算法的工程化实现方案 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 在竞技射击游戏中,后坐…...

lychee-rerank-mm与LangChain集成指南:构建智能文档检索系统

lychee-rerank-mm与LangChain集成指南:构建智能文档检索系统 用最简单的方式,让AI看懂你的图片和文字 1. 开篇:为什么需要多模态检索? 你有没有遇到过这样的情况:想找一张去年会议的合影,但只记得当时讨论…...

LFM2.5-1.2B进阶技巧:3个方法控制AI写作长度、语气和角色

LFM2.5-1.2B进阶技巧:3个方法控制AI写作长度、语气和角色 你已经用Ollama把LFM2.5-1.2B-Thinking模型装进了电脑,也用它写过几篇文案。但有没有遇到过这种情况:让它“写一段简短介绍”,结果它洋洋洒洒写了三百字;让它…...

雯雯的后宫-造相Z-Image-瑜伽女孩提示词进阶:加入‘电影感布光’‘Canon EOS R5’等风格增强词

雯雯的后宫-造相Z-Image-瑜伽女孩提示词进阶:加入‘电影感布光’‘Canon EOS R5’等风格增强词 想让AI生成的瑜伽女孩图片,从“还不错”跃升到“惊艳”吗?你肯定遇到过这种情况:生成的图片构图、人物都对,但总觉得少了…...

Windows Cleaner:3分钟解决C盘爆红的终极系统清理指南

Windows Cleaner:3分钟解决C盘爆红的终极系统清理指南 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner Windows Cleaner是一款专为Windows系统设计的智…...

THE LEATHER ARCHIVE作品集:赛博都市风皮衣穿搭一键生成

THE LEATHER ARCHIVE作品集:赛博都市风皮衣穿搭一键生成 1. 项目概览 今天要介绍的是一个能让时尚设计师和动漫爱好者眼前一亮的AI工具——THE LEATHER ARCHIVE。这个工具专门用于生成高端皮衣穿搭设计,特别擅长打造赛博都市风格的时尚大片。 不同于传…...

VideoAgentTrek-ScreenFilter移动端适配:在Android平台实现轻量级实时视频过滤

VideoAgentTrek-ScreenFilter移动端适配:在Android平台实现轻量级实时视频过滤 最近在做一个挺有意思的项目,想把一个叫VideoAgentTrek-ScreenFilter的视频过滤模型搬到手机上去。想法很简单,就是让用户打开手机摄像头,就能实时看…...