当前位置：首页 > article >正文

GLM-OCR在ComfyUI工作流中的应用：构建可视化OCR处理节点

article 2026/3/26 19:39:26

GLM-OCR在ComfyUI工作流中的应用构建可视化OCR处理节点如果你经常用ComfyUI做图片生成或者编辑可能会遇到一个挺麻烦的事儿怎么把图片里的文字快速提取出来然后用到下一步工作流里比如你想把一张海报上的文案自动翻译成英文或者把一张截图里的产品描述变成新的营销文案。以前的做法要么是手动抄写要么是切出去用别的OCR工具处理完再复制粘贴回来流程一下就断了特别不顺畅。今天要聊的就是把GLM-OCR这个强大的文字识别模型直接做成一个ComfyUI的自定义节点。这样一来你就能在熟悉的拖拽界面里像用其他图像处理节点一样直接把图片丢进去然后拿到结构化的文字结果无缝连接到后面的文本生成或者翻译节点上。整个过程其实不难核心就是三步把GLM-OCR的服务封装好在ComfyUI里写一个自定义节点去调用它最后把服务部署到能稳定运行的地方。下面我就带你一步步把它实现出来。1. 为什么要在ComfyUI里集成OCR在深入动手之前我们先聊聊为什么这事儿值得做。ComfyUI的魅力在于它把复杂的AI流程变成了可视化的节点连接让创作过程直观又灵活。但它的能力边界往往止于“视觉”一旦涉及到“视觉中的文字”就需要跳出这个工作流。想象几个实际场景多语言内容创作你生成了一张中文海报现在想快速出英文版。你需要先识别图中的中文文案翻译再用新的文案控制图生图节点。没有OCR节点你就得手动搬运文字。信息提取与重组你有一批产品截图需要批量提取产品名和规格然后自动生成产品介绍文档。手动处理效率极低。工作流自动化你想做一个自动解析漫画对话框并生成配音脚本的流程。OCR是其中不可或缺的一环。把GLM-OCR做成节点就是为了打破这个壁垒。它让文字识别变成了工作流里的一个标准组件输入是图片输出是结构化的文本数据可以流向任何需要文本的节点比如大语言模型LLM节点、翻译节点、文本格式化节点等。这样一个真正端到端的、从图到文再到图的自动化流程就成为可能。2. 第一步封装GLM-OCR为API服务GLM-OCR本身是一个模型我们需要让它变成一个可以通过网络调用的服务这样ComfyUI节点才能和它通信。这里我们使用简单高效的FastAPI来搭建这个桥梁。首先确保你的Python环境已经准备好然后安装必要的依赖pip install fastapi uvicorn python-multipart pillow torch transformers接下来我们创建一个名为glm_ocr_service.py的文件。代码的核心是加载GLM-OCR模型并提供一个接收图片、返回识别结果的接口。from fastapi import FastAPI, File, UploadFile from PIL import Image import io import torch from transformers import AutoProcessor, AutoModelForVision2Seq import json app FastAPI(titleGLM-OCR API Service) # 全局加载模型和处理器避免每次请求重复加载 print(正在加载GLM-OCR模型请稍候...) processor AutoProcessor.from_pretrained(THUDM/glm-ocr) model AutoModelForVision2Seq.from_pretrained(THUDM/glm-ocr) print(模型加载完毕) app.post(/ocr/) async def recognize_text(image_file: UploadFile File(...)): 接收上传的图片文件返回GLM-OCR的识别结果。返回格式为JSON包含识别出的文本及其位置信息。 # 1. 读取上传的图片 contents await image_file.read() image Image.open(io.BytesIO(contents)).convert(RGB) # 2. 使用处理器准备模型输入 inputs processor(imagesimage, return_tensorspt) # 3. 模型推理 with torch.no_grad(): generated_ids model.generate(**inputs, max_length1024) # 4. 解码输出 generated_text processor.batch_decode(generated_ids, skip_special_tokensTrue)[0] # 5. 解析输出GLM-OCR的输出通常是结构化文本这里简单返回 # 实际应用中你可能需要根据其输出格式如带坐标的文本行进行更精细的解析 result { raw_text: generated_text, # 你可以在这里添加逻辑来解析文本框、置信度等更详细的结构化信息 message: 识别成功 } return result if __name__ __main__: import uvicorn uvicorn.run(app, host0.0.0.0, port7860)这段代码做了几件事用FastAPI创建了一个Web服务。在启动时加载GLM-OCR模型THUDM/glm-ocr。定义了一个/ocr/接口它接收一张图片。在接口内部对图片进行预处理送入模型推理并将生成的文本解码返回。你可以通过运行python glm_ocr_service.py来启动这个服务。它会默认在本地机器的7860端口监听。你可以用Postman或者curl工具上传一张图片到http://127.0.0.1:7860/ocr/测试一下看看返回的JSON里是不是包含了图片中的文字。3. 第二步开发ComfyUI自定义节点服务跑起来之后我们就要在ComfyUI这边创建一个新节点来调用它。ComfyUI的节点本质是一个Python类需要定义输入、输出和核心的处理函数。在你的ComfyUI自定义节点目录下通常是ComfyUI/custom_nodes/创建一个新文件夹比如叫comfyui_glm_ocr_node然后在里面创建__init__.py和nodes.py。nodes.py是核心代码如下import torch import numpy as np from PIL import Image, ImageOps import io import requests import json import folder_paths import nodes class GLM_OCR_Node: GLM-OCR识别节点输入一张图片调用远程API服务输出识别出的文本。 classmethod def INPUT_TYPES(cls): return { required: { image: (IMAGE,), api_url: (STRING, { default: http://127.0.0.1:7860/ocr/, multiline: False }), }, } RETURN_TYPES (STRING,) RETURN_NAMES (text,) FUNCTION do_ocr CATEGORY GLM-OCR DESCRIPTION 调用GLM-OCR API识别图片中的文字 def do_ocr(self, image, api_url): # 1. 将ComfyUI的IMAGE张量转换为PIL Image # ComfyUI的IMAGE格式是[B, H, W, C]且值在0-1之间 i 255. * image[0].cpu().numpy() img Image.fromarray(np.clip(i, 0, 255).astype(np.uint8)) # 2. 将图片转换为字节流准备上传 img_byte_arr io.BytesIO() img.save(img_byte_arr, formatPNG) img_byte_arr img_byte_arr.getvalue() # 3. 构建请求调用OCR API files {image_file: (image.png, img_byte_arr, image/png)} try: response requests.post(api_url, filesfiles) response.raise_for_status() # 检查HTTP错误 result response.json() # 4. 从API响应中提取文本 extracted_text result.get(raw_text, ) if not extracted_text: extracted_text 未识别到文字或API返回为空。 except requests.exceptions.RequestException as e: extracted_text fAPI调用失败: {e} except json.JSONDecodeError: extracted_text API返回了非JSON格式的响应。 # 5. 返回识别出的文本 return (extracted_text,) # 将节点注册到ComfyUI NODE_CLASS_MAPPINGS { GLM_OCR_Node: GLM_OCR_Node } NODE_DISPLAY_NAME_MAPPINGS { GLM_OCR_Node: GLM OCR Recognizer }这个节点类GLM_OCR_Node定义了INPUT_TYPES: 指定节点输入这里需要一个图片和一个API地址输入框。FUNCTION: 指定处理函数为do_ocr。do_ocr方法这是核心逻辑。它把ComfyUI内部的图片格式转换成标准的PNG字节流然后通过HTTP POST请求发送给我们第一步搭建的API服务最后把API返回的文本提取出来作为节点的输出。把这两个文件放到自定义节点目录后重启ComfyUI。你应该能在节点列表里找到一个新的类别“GLM-OCR”里面有一个叫“GLM OCR Recognizer”的节点。把它拖到工作区连上一张图片把API地址填对如果服务跑在本地就是http://127.0.0.1:7860/ocr/执行一下看看输出面板里是不是出现了图片里的文字。4. 第三步在星图GPU平台部署与对接本地测试没问题了但要想长期稳定使用或者分享给团队最好把服务部署在云端的GPU服务器上。星图GPU平台提供了现成的环境部署起来很方便。在星图平台部署GLM-OCR API服务创建实例在星图平台选择一台带有GPU的实例GLM-OCR推理需要一些显存比如RTX 4090或A100规格的。准备环境通过终端连接到你的实例。通常平台会提供预装好的Python和CUDA环境。你只需要像在本地一样安装我们第一步提到的那些依赖fastapi, uvicorn, torch, transformers等。上传代码将我们写的glm_ocr_service.py文件上传到实例的某个目录下。启动服务在实例的终端里运行python glm_ocr_service.py。为了让服务在后台持续运行你可以使用nohup或tmux这样的工具。nohup python glm_ocr_service.py ocr_service.log 21 获取公网地址星图平台会给你的实例分配一个公网IP和端口。假设你的实例公网IP是123.45.67.89那么你的OCR API地址就变成了http://123.45.67.89:7860/ocr/。在ComfyUI节点中配置新地址回到你的ComfyUI工作流只需要将“GLM OCR Recognizer”节点里的api_url输入框中的地址从本地的http://127.0.0.1:7860/ocr/修改为云端的http://123.45.67.89:7860/ocr/即可。现在你的ComfyUI工作流就可以调用云端强大的GPU资源进行OCR识别了速度快且稳定。5. 构建端到端的工作流示例节点和服务都就绪后我们就可以玩点有趣的了。这里展示一个简单的端到端工作流识别图片中的中文文案并翻译成英文。加载图片使用Load Image节点加载一张包含中文的图片。文字识别将图片连接到我们刚做好的GLM OCR Recognizer节点。确保节点的API地址指向你正在运行的服务。文本翻译将OCR节点的文本输出连接到一个文本处理节点。这里我们可以利用另一个自定义节点比如一个调用GPT API或本地翻译模型的节点。为了演示假设我们有一个简单的Text Translator节点你需要根据实际使用的翻译服务来实现或寻找现成节点。输出或进一步处理翻译后的英文文本可以直接显示也可以作为提示词输入给一个文生图节点生成新的英文版海报。通过这样的节点连接你只需要点一下“执行队列”ComfyUI就会自动完成“读图-识文-翻译”的全过程。你甚至可以把这整个流程保存为一个模板以后遇到类似任务加载模板、换张图片就能一键完成。6. 总结与扩展思考把GLM-OCR集成进ComfyUI看起来是加了一个小节点实际上是打通了视觉与语言处理之间的管道。它让自动化、智能化的内容创作流程向前迈进了一小步。实际操作下来API服务的封装和节点的开发都不算复杂关键是思路的转变——把外部能力“节点化”。这个基础版本还有不少可以优化和扩展的地方。比如GLM-OCR本身能输出带坐标的文本框信息你可以修改API和节点把每个文字块的位置也返回出来这样下游节点不仅能拿到文字还能知道它在图片的哪个区域。再比如可以增加对批量图片的处理支持或者在节点内部加入一些简单的文本后处理如去除换行符、整理格式。更重要的是这个模式可以复用到其他模型上。任何提供HTTP接口的AI服务无论是语音识别、视频分析还是专项检测模型都可以用类似的方式封装成ComfyUI节点。当你积累的这类节点越来越多ComfyUI就真正变成了一个可视化的AI工作流集成平台能够调度和组合各种AI能力去完成更复杂的创意或生产任务。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

GLM-OCR在ComfyUI工作流中的应用：构建可视化OCR处理节点

相关文章：

GLM-OCR在ComfyUI工作流中的应用：构建可视化OCR处理节点

突破性AI音乐创作革新：腾讯SongGeneration开源项目全解析

Unity JSON处理革新性方案：Newtonsoft.Json-for-Unity全解析

League Akari：你的英雄联盟智能助手终极指南

深蓝词库转换：20+输入法词库互通的完整实战指南

智能客服体验问题诊断：从技术架构到优化实践

AI 辅助开发实战：基于低代码与智能生成的五金店管理系统毕设架构设计

轴承‘健康度’预测新思路：用LSTM处理振动信号，我对比了PyTorch和TensorFlow 2.x的实现差异

基于dify智能客服工作流的多智能体架构实战：高并发场景下的设计与优化

抖音无水印视频批量下载器：从零开始的高效内容采集指南

别再为传感器数据缺失头疼了！用PyPOTS的SAITS模型，5分钟搞定时间序列插补（附完整代码）

高效解决付费墙难题：Bypass Paywalls Clean实用技术指南

告别风扇噪音与过热：FanControl智能控温完全指南

基于STM32CubeMX的AD9850驱动开发与频率合成实战

工单系统已经上线，但 IT 管理并没有真正变好

瑞萨RA6E2评估板Keil MDK5开发全攻略：从RA Smart Configurator到烧录调试

ai辅助c语言开发：让快马智能生成复杂格式文件读写代码

旅游网站毕业设计：从零构建高可用前后端分离架构的技术实践

为什么你的BUCK电路动态响应慢？从Fm增益公式反推电感选型技巧

手把手教你用两块STM32F103C8T6实现CAN总线点对点通信（附完整代码）

ComfyUI图片生成视频大模型技术选型与实战：从原理到生产环境部署

MySQL安全加固十大硬核操作

CSS线性渐变实战：5分钟搞定炫酷按钮背景（附完整代码）

RVC 技术指南：从问题解决到效率提升

基于RAG的智能客服系统实战：从架构设计到生产环境优化

ComfyUI实战：如何加载基于Flux.1微调的LoRA模型并优化推理流程

Frida安装后别急着‘玩’！这5个必做的环境验证与排错步骤你做了吗？

Llama-3.2V-11B-cot惊艳效果：多对象遮挡场景下的因果关系链推演

一种路径优化和速度优化算法实现（仿照百度Apollo方案），只提供代码，有相关的readme文...

MAAAssistantArknights：智能自动化的明日方舟游戏助手解决方案