当前位置：首页 > news >正文

媲美Midjourney-v6，Kolors最新文生图模型部署

news 2026/2/11 4:10:50

Kolors模型是由快手团队开发的大型文本到图像生成模型，专门用于将文本描述转换成高质量的图像。

Kolors模型支持中英文双语输入，生成效果与Midjourney-v6相媲美，能够处理长达256个字符的文本输入，具备生成中英文文字的能力。

Kolors模型的技术优势在于其使用了基于U-Net架构的隐空间扩散模型，并引入了大语言模型进行文本表征，这使得它在处理复杂长文本方面表现出色。

Kolors模型在图像美感和质量上达到了国际领先水平，这得益于其两阶段的概念学习和美感提升的渐进训练策略以及针对高分辨率图像特性优化的全新加噪策略。

在评测方面，Kolors模型在智源FlagEval文生图模型评测榜单中主观综合评分全球第二，尤其在主观图像质量上表现突出，评分排名第一。

github项目地址：https://github.com/Kwai-Kolors/Kolors。

一、环境安装

1、python环境

建议安装python版本在3.8以上。

2、pip库安装

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install pydantic==1.10.2 protobuf==3.20 tensorboard>=1.15.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

3、Kolors模型下载：

git lfs install

git clone https://huggingface.co/Kwai-Kolors/Kolors.git

二、功能测试

1、运行测试：

（1）python调用测试

import torch
from kolors.pipelines.pipeline_stable_diffusion_xl_chatglm_256 import StableDiffusionXLPipeline
from kolors.models.modeling_chatglm import ChatGLMModel
from kolors.models.tokenization_chatglm import ChatGLMTokenizer
from diffusers import UNet2DConditionModel, AutoencoderKL
from diffusers import EulerDiscreteScheduler# 定义模型权重路径
ckpt_dir = 'Kolors'def infer(prompt):# 加载文本编码器模型text_encoder = ChatGLMModel.from_pretrained(f'{ckpt_dir}/text_encoder',torch_dtype=torch.float16).half()# 加载分词器tokenizer = ChatGLMTokenizer.from_pretrained(f'{ckpt_dir}/text_encoder')# 加载图片解码器 VAEvae = AutoencoderKL.from_pretrained(f"{ckpt_dir}/vae", revision=None).half()# 加载调度器用于生成步骤scheduler = EulerDiscreteScheduler.from_pretrained(f"{ckpt_dir}/scheduler")# 加载 U-Net 模型unet = UNet2DConditionModel.from_pretrained(f"{ckpt_dir}/unet", revision=None).half()# 设置图像生成管道pipe = StableDiffusionXLPipeline(vae=vae,text_encoder=text_encoder,tokenizer=tokenizer,unet=unet,scheduler=scheduler,force_zeros_for_empty_prompt=False)# 将管道模型移至 GPUpipe = pipe.to("cuda")# 启用模型 CPU 卸载功能pipe.enable_model_cpu_offload()# 生成图像image = pipe(prompt=prompt,height=1024,                # 图像高度width=1024,                 # 图像宽度num_inference_steps=50,     # 推理步数guidance_scale=5.0,         # 指导比例num_images_per_prompt=1,    # 每个提示生成的图像数量generator=torch.Generator(pipe.device).manual_seed(66)  # 随机种子).images[0]# 保存生成的图像output_path = 'scripts/outputs/sample_test.jpg'image.save(output_path)print(f"图像已保存至：{output_path}")if __name__ == '__main__':# 定义生成图像的提示prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"good"'infer(prompt)

（2）web端测试

未完......

更多详细的内容欢迎关注：杰哥新技术

媲美Midjourney-v6，Kolors最新文生图模型部署

Kolors模型是由快手团队开发的大型文本到图像生成模型，专门用于将文本描述转换成高质量的图像。 Kolors模型支持中英文双语输入，生成效果与Midjourney-v6相媲美，能够处理长达256个字符的文本输入，具备生成中英文文字的能力。 Ko…...

编程日记 2024/7/22 6:26:15

深度学习程序环境配置

深度学习环境配置因为之前轻薄本没有显卡跑不起来，所以换了台电脑重新跑程序，故记录一下配置环境的步骤及常见错误本人数学系，计算机部分知识比较匮乏，计算机专业同学可以略过部分内容深度学习环境配置深度学习环境配置 CUD…...

编程日记 2024/7/22 6:25:14

【STM32 HAL库】全双工I2S+双缓冲DMA的使用

1、配置I2S 我们的有效数据是32位的，使用飞利浦格式。 2、配置DMA **这里需要注意：**i2s的DR寄存器是16位的，如果需要发送32位的数据，是需要写两次DR寄存器的，所以DMA的外设数据宽度设置16位，而不是32位。…...

编程日记 2024/7/22 6:24:13

【Spring Boot】网页五子棋项目中遇到的困难及解决方法

目录一、HikariPool-1 - Starting异常二、Invalid bound statement (not found)异常三、The driver is automatically registered via the SPI and manual loading of the driver class is generally unnecessary异常四、The server time zone value时区报错异常五、补充知识点…...

编程日记 2024/7/22 6:21:08

营销策划方案模板

这应该是目前最详细最完整的营销策划方案模板，营销公司内部都在使用的标准版本，你可以根据自己的营销内容直接填入这个模板，很快就能写好一份至少80分的营销策划方案。如果暂时用不到也可以先收藏，以备不时之需。废话不多说&a…...

编程日记 2024/7/22 6:16:04

Python入门基础教程（非常详细）

现在找工作真的越来越难了！今年更是难上加难前几天在网上刷到这样一条热搜： #23岁找工作因年龄大被HR拒绝了# 是这个世界疯了还是我疯了？ 合着只想要有20年以上工作经验的应届毕业生是吧这好像就是现在的就业市场现状：“35岁…...

编程日记 2024/7/22 6:15:03

LeetCode 常见题型汇总

前30 22 生成括号剪枝 51 N皇后 37 解数独二分查找 69 求平方根字典树位运算 191 求1的个数 231 2的N次方 338 求0到N的比特位为1的个数动态规划并查集 LRU缓存布隆过滤器...

编程日记 2024/7/22 6:14:02

el-select选择器修改背景颜色

<template><div class"topSearch-container"><div class"search-item"><div class"item-name&quo…...

编程日记 2024/7/22 6:13:00

Shell程序设计

各位看官，从今天开始，我们进入新的专栏Shell学习，Shell 是操作系统的命令行界面，它允许用户通过输入命令与操作系统交互。常见的 Shell 有 Bash 和 Zsh，它们可以执行用户输入的命令或运行脚本文件。Shell 广泛应用于系…...

编程日记 2024/7/22 6:11:58

PyQT6---环境搭建

1、虚拟环境搭建创建虚拟环境 create -n pyqt6_39 python3.9 切换虚拟环境 conda activate pyqt6_39 2、安装pyqt6 安装pyqt6和pyqt6-tools pip install PyQt6 -i https://pypi.tuna.tsinghua.edu.cn/simplepip install pyqt6-tools -i https://pypi.tuna.tsinghua.edu.cn/…...

编程日记 2024/7/22 6:10:57

whisper-api语音识别语音翻译高性能兼容openai接口协议的开源项目

whisper-api 介绍使用openai的开源项目winsper语音识别开源模型封装成openai chatgpt兼容接口软件架构使用uvicorn、fastapi、openai-whisper等开源库实现高性能接口更多介绍 https://blog.csdn.net/weixin_40986713/article/details/138712293 使用说明下载代码安装…...

编程日记 2024/7/22 6:05:52

面试题：Java中堆内存和栈内存的区别，缓存数据是把数据放到哪里

目录堆内存（Heap）栈内存（Stack）String字符串的hashcode缓存在Java中，堆内存（Heap）和栈内存（Stack）是两种不同类型的内存区域。它们各自扮演着不同的角色，并…...

编程日记 2024/7/22 6:02:49

【开源库学习】libodb库学习（一）

Hello World Example 在本章中，我们将使用传统的“Hello World”示例展示如何创建一个依赖于ODB进行对象持久化的简单C应用程序。特别是，我们将讨论如何声明持久类、生成数据库支持代码以及编译和运行我们的应用程序。我们还将学习如何使对象持久化&…...

编程日记 2024/7/22 6:01:47

Java中SPI机制原理解析

使用SPI机制前后的代码变化加载MySQL对JDBC的Driver接口实现在未使用SPI机制之前，使用JDBC操作数据库的时候，一般会写如下的代码：// 通过这行代码手动加载MySql对Driver接口的实现类 Class.forName("com.mysql.jdbc.Driver") Dr…...

编程日记 2024/7/22 5:55:41

数学建模~~~SPSS相关和回归分析

目录 1.双变量相关分析 1.1理论基础 1.2简单散点图的绘制介绍 1.3相关性分析 1.4分析相关性结果 2.简单线性回归分析 2.1简单概括 2.2分析过程 2.3结果分析 3.曲线回归分析 3.1问题介绍 3.2分析过程 3.3结果分析 1.双变量相关分析 1.1理论基础双变量相关分析并不…...

编程日记 2024/7/22 5:54:39

【Android】常用基础布局

布局是一种可用于放置很多控件的容器，它可以按照一定的规律调整内部控件的位置，从而编写出精美的界面，布局内不单单可以放控件，也可以嵌套布局，这样可以完成一些复杂的界面，下面就来认识一些常用的布局吧。…...

编程日记 2024/7/22 5:53:38

服务攻防-中间件安全（漏洞复现）

一.中间件-IIS-短文件&解析&蓝屏 IIS现在用的也少了，漏洞也基本没啥用 1、短文件：信息收集 2、文件解析：还有点用 3、HTTP.SYS：蓝屏崩溃没有和权限挂钩 4、CVE-2017-7269 条件过老 windows 2003上面的漏洞二.中…...

编程日记 2024/7/22 5:51:36

【SD】深入理解Stable Diffusion与ComfyUI的使用

【SD】深入理解Stable Diffusion与ComfyUI的使用 1. Stable Diffusion（SD）原理概述2. 各部件详解3. SD的工作流程4. ComfyUI与SD的结合5. 总结 1. Stable Diffusion（SD）原理概述整体结构：SD不是单一模型，…...

编程日记 2024/7/22 5:48:34

Linux 12：多线程2

1. 生产者消费者模型生产者消费者模型有三种关系，两个角色，一个交易场所。三种关系： 生产者之间是什么关系?竞争 - 互斥消费者和消费者之间?竞争 - 互斥消费者和消费者之间?互斥和同步两个角色： 生产者和消费者一个交…...

编程日记 2024/7/22 5:47:33

Android RSA 加解密

文章目录一、RSA简介二、RSA 原理介绍三、RSA 秘钥对生成1. 密钥对生成2. 获取公钥3. 获取私钥四、PublicKey 和PrivateKey 的保存1. 获取公钥十六进制字符串1. 获取私钥十六进制字符串五、PublicKey 和 PrivateKey 加载1. 加载公钥2. 加载私钥六、 RSA加解密1. RSA 支持三…...

编程日记 2024/7/22 5:45:31

19c补丁后oracle属主变化，导致不能识别磁盘组

补丁后服务器重启，数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后，存在与用户组权限相关的问题。具体表现为，Oracle 实例的运行用户（oracle）和集…...

编程新知 2026/2/8 4:37:10

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现，玩家控制一个角色（龙）躲避障碍物（仙人掌和乌鸦）。以下是代码的详细介绍：…...

编程新知 2026/2/8 20:43:07

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括：采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中，设置任务排序规则尤其重要，因为它让看板视觉上直观地体…...

编程新知 2026/1/23 12:42:28

centos 7 部署awstats 网站访问检测

一、基础环境准备（两种安装方式都要做） bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats&#xff0…...

编程新知 2026/1/23 8:33:56

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架，支持"一次开发，多端部署"，可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务，为旅游应用带来&#xf…...

编程新知 2026/2/5 20:33:43

Rust 异步编程

Rust 异步编程引言 Rust 是一种系统编程语言，以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天，异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。异步编程基础什么是异步…...

编程新知 2025/11/17 18:58:56

uniapp中使用aixos 报错

问题： 在uniapp中使用aixos，运行后报如下错误： AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...

编程新知 2025/11/29 21:26:48

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路在Android中，可以通过监听键盘的显示和隐藏事件，动态调整弹窗的位置。关键点在于获取键盘高度，并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

编程新知 2025/10/6 18:46:56

LangFlow技术架构分析

🔧 LangFlow 的可视化技术栈前端节点编辑器底层框架：基于 （一个现代化的 React 节点绘图库） 功能： 拖拽式构建 LangGraph 状态机实时连线定义节点依赖关系可视化调试循环和分支逻辑与 LangGraph 的深…...

编程新知 2025/6/10 21:26:51

一、环境安装

二、功能测试

相关文章：