当前位置: 首页 > article >正文

GLM-OCR在ComfyUI工作流中的应用:构建可视化OCR处理节点

GLM-OCR在ComfyUI工作流中的应用构建可视化OCR处理节点如果你经常用ComfyUI做图片生成或者编辑可能会遇到一个挺麻烦的事儿怎么把图片里的文字快速提取出来然后用到下一步工作流里比如你想把一张海报上的文案自动翻译成英文或者把一张截图里的产品描述变成新的营销文案。以前的做法要么是手动抄写要么是切出去用别的OCR工具处理完再复制粘贴回来流程一下就断了特别不顺畅。今天要聊的就是把GLM-OCR这个强大的文字识别模型直接做成一个ComfyUI的自定义节点。这样一来你就能在熟悉的拖拽界面里像用其他图像处理节点一样直接把图片丢进去然后拿到结构化的文字结果无缝连接到后面的文本生成或者翻译节点上。整个过程其实不难核心就是三步把GLM-OCR的服务封装好在ComfyUI里写一个自定义节点去调用它最后把服务部署到能稳定运行的地方。下面我就带你一步步把它实现出来。1. 为什么要在ComfyUI里集成OCR在深入动手之前我们先聊聊为什么这事儿值得做。ComfyUI的魅力在于它把复杂的AI流程变成了可视化的节点连接让创作过程直观又灵活。但它的能力边界往往止于“视觉”一旦涉及到“视觉中的文字”就需要跳出这个工作流。想象几个实际场景多语言内容创作你生成了一张中文海报现在想快速出英文版。你需要先识别图中的中文文案翻译再用新的文案控制图生图节点。没有OCR节点你就得手动搬运文字。信息提取与重组你有一批产品截图需要批量提取产品名和规格然后自动生成产品介绍文档。手动处理效率极低。工作流自动化你想做一个自动解析漫画对话框并生成配音脚本的流程。OCR是其中不可或缺的一环。把GLM-OCR做成节点就是为了打破这个壁垒。它让文字识别变成了工作流里的一个标准组件输入是图片输出是结构化的文本数据可以流向任何需要文本的节点比如大语言模型LLM节点、翻译节点、文本格式化节点等。这样一个真正端到端的、从图到文再到图的自动化流程就成为可能。2. 第一步封装GLM-OCR为API服务GLM-OCR本身是一个模型我们需要让它变成一个可以通过网络调用的服务这样ComfyUI节点才能和它通信。这里我们使用简单高效的FastAPI来搭建这个桥梁。首先确保你的Python环境已经准备好然后安装必要的依赖pip install fastapi uvicorn python-multipart pillow torch transformers接下来我们创建一个名为glm_ocr_service.py的文件。代码的核心是加载GLM-OCR模型并提供一个接收图片、返回识别结果的接口。from fastapi import FastAPI, File, UploadFile from PIL import Image import io import torch from transformers import AutoProcessor, AutoModelForVision2Seq import json app FastAPI(titleGLM-OCR API Service) # 全局加载模型和处理器避免每次请求重复加载 print(正在加载GLM-OCR模型请稍候...) processor AutoProcessor.from_pretrained(THUDM/glm-ocr) model AutoModelForVision2Seq.from_pretrained(THUDM/glm-ocr) print(模型加载完毕) app.post(/ocr/) async def recognize_text(image_file: UploadFile File(...)): 接收上传的图片文件返回GLM-OCR的识别结果。 返回格式为JSON包含识别出的文本及其位置信息。 # 1. 读取上传的图片 contents await image_file.read() image Image.open(io.BytesIO(contents)).convert(RGB) # 2. 使用处理器准备模型输入 inputs processor(imagesimage, return_tensorspt) # 3. 模型推理 with torch.no_grad(): generated_ids model.generate(**inputs, max_length1024) # 4. 解码输出 generated_text processor.batch_decode(generated_ids, skip_special_tokensTrue)[0] # 5. 解析输出GLM-OCR的输出通常是结构化文本这里简单返回 # 实际应用中你可能需要根据其输出格式如带坐标的文本行进行更精细的解析 result { raw_text: generated_text, # 你可以在这里添加逻辑来解析文本框、置信度等更详细的结构化信息 message: 识别成功 } return result if __name__ __main__: import uvicorn uvicorn.run(app, host0.0.0.0, port7860)这段代码做了几件事用FastAPI创建了一个Web服务。在启动时加载GLM-OCR模型THUDM/glm-ocr。定义了一个/ocr/接口它接收一张图片。在接口内部对图片进行预处理送入模型推理并将生成的文本解码返回。你可以通过运行python glm_ocr_service.py来启动这个服务。它会默认在本地机器的7860端口监听。你可以用Postman或者curl工具上传一张图片到http://127.0.0.1:7860/ocr/测试一下看看返回的JSON里是不是包含了图片中的文字。3. 第二步开发ComfyUI自定义节点服务跑起来之后我们就要在ComfyUI这边创建一个新节点来调用它。ComfyUI的节点本质是一个Python类需要定义输入、输出和核心的处理函数。在你的ComfyUI自定义节点目录下通常是ComfyUI/custom_nodes/创建一个新文件夹比如叫comfyui_glm_ocr_node然后在里面创建__init__.py和nodes.py。nodes.py是核心代码如下import torch import numpy as np from PIL import Image, ImageOps import io import requests import json import folder_paths import nodes class GLM_OCR_Node: GLM-OCR识别节点 输入一张图片调用远程API服务输出识别出的文本。 classmethod def INPUT_TYPES(cls): return { required: { image: (IMAGE,), api_url: (STRING, { default: http://127.0.0.1:7860/ocr/, multiline: False }), }, } RETURN_TYPES (STRING,) RETURN_NAMES (text,) FUNCTION do_ocr CATEGORY GLM-OCR DESCRIPTION 调用GLM-OCR API识别图片中的文字 def do_ocr(self, image, api_url): # 1. 将ComfyUI的IMAGE张量转换为PIL Image # ComfyUI的IMAGE格式是[B, H, W, C]且值在0-1之间 i 255. * image[0].cpu().numpy() img Image.fromarray(np.clip(i, 0, 255).astype(np.uint8)) # 2. 将图片转换为字节流准备上传 img_byte_arr io.BytesIO() img.save(img_byte_arr, formatPNG) img_byte_arr img_byte_arr.getvalue() # 3. 构建请求调用OCR API files {image_file: (image.png, img_byte_arr, image/png)} try: response requests.post(api_url, filesfiles) response.raise_for_status() # 检查HTTP错误 result response.json() # 4. 从API响应中提取文本 extracted_text result.get(raw_text, ) if not extracted_text: extracted_text 未识别到文字或API返回为空。 except requests.exceptions.RequestException as e: extracted_text fAPI调用失败: {e} except json.JSONDecodeError: extracted_text API返回了非JSON格式的响应。 # 5. 返回识别出的文本 return (extracted_text,) # 将节点注册到ComfyUI NODE_CLASS_MAPPINGS { GLM_OCR_Node: GLM_OCR_Node } NODE_DISPLAY_NAME_MAPPINGS { GLM_OCR_Node: GLM OCR Recognizer }这个节点类GLM_OCR_Node定义了INPUT_TYPES: 指定节点输入这里需要一个图片和一个API地址输入框。FUNCTION: 指定处理函数为do_ocr。do_ocr方法这是核心逻辑。它把ComfyUI内部的图片格式转换成标准的PNG字节流然后通过HTTP POST请求发送给我们第一步搭建的API服务最后把API返回的文本提取出来作为节点的输出。把这两个文件放到自定义节点目录后重启ComfyUI。你应该能在节点列表里找到一个新的类别“GLM-OCR”里面有一个叫“GLM OCR Recognizer”的节点。把它拖到工作区连上一张图片把API地址填对如果服务跑在本地就是http://127.0.0.1:7860/ocr/执行一下看看输出面板里是不是出现了图片里的文字。4. 第三步在星图GPU平台部署与对接本地测试没问题了但要想长期稳定使用或者分享给团队最好把服务部署在云端的GPU服务器上。星图GPU平台提供了现成的环境部署起来很方便。在星图平台部署GLM-OCR API服务创建实例在星图平台选择一台带有GPU的实例GLM-OCR推理需要一些显存比如RTX 4090或A100规格的。准备环境通过终端连接到你的实例。通常平台会提供预装好的Python和CUDA环境。你只需要像在本地一样安装我们第一步提到的那些依赖fastapi, uvicorn, torch, transformers等。上传代码将我们写的glm_ocr_service.py文件上传到实例的某个目录下。启动服务在实例的终端里运行python glm_ocr_service.py。为了让服务在后台持续运行你可以使用nohup或tmux这样的工具。nohup python glm_ocr_service.py ocr_service.log 21 获取公网地址星图平台会给你的实例分配一个公网IP和端口。假设你的实例公网IP是123.45.67.89那么你的OCR API地址就变成了http://123.45.67.89:7860/ocr/。在ComfyUI节点中配置新地址回到你的ComfyUI工作流只需要将“GLM OCR Recognizer”节点里的api_url输入框中的地址从本地的http://127.0.0.1:7860/ocr/修改为云端的http://123.45.67.89:7860/ocr/即可。现在你的ComfyUI工作流就可以调用云端强大的GPU资源进行OCR识别了速度快且稳定。5. 构建端到端的工作流示例节点和服务都就绪后我们就可以玩点有趣的了。这里展示一个简单的端到端工作流识别图片中的中文文案并翻译成英文。加载图片使用Load Image节点加载一张包含中文的图片。文字识别将图片连接到我们刚做好的GLM OCR Recognizer节点。确保节点的API地址指向你正在运行的服务。文本翻译将OCR节点的文本输出连接到一个文本处理节点。这里我们可以利用另一个自定义节点比如一个调用GPT API或本地翻译模型的节点。为了演示假设我们有一个简单的Text Translator节点你需要根据实际使用的翻译服务来实现或寻找现成节点。输出或进一步处理翻译后的英文文本可以直接显示也可以作为提示词输入给一个文生图节点生成新的英文版海报。通过这样的节点连接你只需要点一下“执行队列”ComfyUI就会自动完成“读图-识文-翻译”的全过程。你甚至可以把这整个流程保存为一个模板以后遇到类似任务加载模板、换张图片就能一键完成。6. 总结与扩展思考把GLM-OCR集成进ComfyUI看起来是加了一个小节点实际上是打通了视觉与语言处理之间的管道。它让自动化、智能化的内容创作流程向前迈进了一小步。实际操作下来API服务的封装和节点的开发都不算复杂关键是思路的转变——把外部能力“节点化”。这个基础版本还有不少可以优化和扩展的地方。比如GLM-OCR本身能输出带坐标的文本框信息你可以修改API和节点把每个文字块的位置也返回出来这样下游节点不仅能拿到文字还能知道它在图片的哪个区域。再比如可以增加对批量图片的处理支持或者在节点内部加入一些简单的文本后处理如去除换行符、整理格式。更重要的是这个模式可以复用到其他模型上。任何提供HTTP接口的AI服务无论是语音识别、视频分析还是专项检测模型都可以用类似的方式封装成ComfyUI节点。当你积累的这类节点越来越多ComfyUI就真正变成了一个可视化的AI工作流集成平台能够调度和组合各种AI能力去完成更复杂的创意或生产任务。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

GLM-OCR在ComfyUI工作流中的应用:构建可视化OCR处理节点

GLM-OCR在ComfyUI工作流中的应用:构建可视化OCR处理节点 如果你经常用ComfyUI做图片生成或者编辑,可能会遇到一个挺麻烦的事儿:怎么把图片里的文字快速提取出来,然后用到下一步工作流里?比如,你想把一张海…...

突破性AI音乐创作革新:腾讯SongGeneration开源项目全解析

突破性AI音乐创作革新:腾讯SongGeneration开源项目全解析 【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也…...

Unity JSON处理革新性方案:Newtonsoft.Json-for-Unity全解析

Unity JSON处理革新性方案:Newtonsoft.Json-for-Unity全解析 【免费下载链接】Newtonsoft.Json-for-Unity Newtonsoft.Json (Json.NET) 10.0.3, 11.0.2, 12.0.3, & 13.0.1 for Unity IL2CPP builds, available via Unity Package Manager 项目地址: https://g…...

League Akari:你的英雄联盟智能助手终极指南

League Akari:你的英雄联盟智能助手终极指南 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为英雄联盟中的繁琐操…...

深蓝词库转换:20+输入法词库互通的完整实战指南

深蓝词库转换:20输入法词库互通的完整实战指南 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 你是否曾在切换输入法时,为无法迁移多年积累的…...

智能客服体验问题诊断:从技术架构到优化实践

智能客服体验问题诊断:从技术架构到优化实践 智能客服作为企业与用户交互的重要窗口,其体验好坏直接影响用户满意度和业务转化率。一个响应迟钝、答非所问的客服机器人,不仅无法解决问题,反而会加剧用户的不满。本文将从一个开发者…...

AI 辅助开发实战:基于低代码与智能生成的五金店管理系统毕设架构设计

最近在帮学弟学妹们看毕业设计,发现“五金店管理系统”是个高频选题。但很多人做着做着就陷入了“增删改查”的泥潭,前端界面简陋,业务逻辑也写得七零八落,最后答辩时演示效果平平,技术深度更是无从谈起。这让我开始思…...

轴承‘健康度’预测新思路:用LSTM处理振动信号,我对比了PyTorch和TensorFlow 2.x的实现差异

轴承健康预测实战:PyTorch与TensorFlow 2.x的LSTM实现深度对比 在工业设备维护领域,轴承作为旋转机械的核心部件,其健康状态直接影响整机运行安全。传统基于阈值的报警方式往往滞后于实际故障发生,而采用LSTM(长短期记…...

基于dify智能客服工作流的多智能体架构实战:高并发场景下的设计与优化

背景痛点:当智能客服遭遇流量洪峰 最近在负责一个电商大促期间的智能客服系统保障,真切体会到了传统单体智能体架构的“力不从心”。我们的客服机器人基于一个大语言模型构建,平时QPS在50左右时,响应时间(RT&#xff0…...

抖音无水印视频批量下载器:从零开始的高效内容采集指南

抖音无水印视频批量下载器:从零开始的高效内容采集指南 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 你是否曾遇到过这样的困境?想要保存抖音上的精彩视频用于学习参考,…...

别再为传感器数据缺失头疼了!用PyPOTS的SAITS模型,5分钟搞定时间序列插补(附完整代码)

工业传感器数据缺失的智能修复:PyPOTS与SAITS实战指南 在工业4.0时代,生产线上的温度、压力和振动传感器如同设备的"神经系统",每秒产生海量时序数据。但当网络波动或设备故障导致数据缺失时,就像神经信号中断——设备状…...

高效解决付费墙难题:Bypass Paywalls Clean实用技术指南

高效解决付费墙难题:Bypass Paywalls Clean实用技术指南 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在数字信息时代,付费墙已成为获取优质内容的主要障碍&…...

告别风扇噪音与过热:FanControl智能控温完全指南

告别风扇噪音与过热:FanControl智能控温完全指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanC…...

基于STM32CubeMX的AD9850驱动开发与频率合成实战

1. 从零开始认识AD9850与STM32CubeMX 第一次接触AD9850这个芯片时,我完全被它的性能震撼到了——这个比指甲盖还小的芯片,居然能产生0.0291Hz分辨率的信号!当时我正在做一个射频测试项目,需要生成精确的正弦波信号。市面上常见的…...

工单系统已经上线,但 IT 管理并没有真正变好

在很多企业中,引入 IT 工单系统往往被视为 IT 管理升级的重要一步。 有了统一入口、有了记录机制、有了流程流转,看起来一切都开始变得规范起来。但实际运行一段时间后,不少团队会发现: 工单确实在增加,流程也在走&…...

瑞萨RA6E2评估板Keil MDK5开发全攻略:从RA Smart Configurator到烧录调试

瑞萨RA6E2评估板Keil MDK5开发全流程实战指南 对于嵌入式开发者而言,瑞萨RA6E2系列MCU凭借其高性能和丰富外设正成为工业控制、物联网终端设备的优选方案。而Keil MDK5作为Arm生态中最成熟的开发环境之一,与瑞萨官方工具链的深度整合为开发者提供了高效…...

ai辅助c语言开发:让快马智能生成复杂格式文件读写代码

最近在开发一个C语言程序时需要处理自定义数据包格式,正好体验了用AI辅助开发的便捷。这个数据包格式包含包头标识、包体长度和JSON格式的包体数据,需要实现读写功能。下面分享我的实现过程和AI辅助开发的实用技巧。 数据包结构分析 首先明确数据包由三部…...

旅游网站毕业设计:从零构建高可用前后端分离架构的技术实践

作为一名计算机专业的学生,毕业设计是检验学习成果的重要一环。我选择了“旅游网站”这个既有实际应用场景又充满挑战的课题。在实践过程中,我发现很多同学的项目都存在一些共性问题,比如代码结构混乱、前后端职责不清、缺乏基本的安全意识等…...

为什么你的BUCK电路动态响应慢?从Fm增益公式反推电感选型技巧

为什么你的BUCK电路动态响应慢?从Fm增益公式反推电感选型技巧 在电源设计领域,BUCK电路的动态响应速度常常成为工程师调试的痛点。当负载突变时输出电压的恢复时间过长,或者环路补偿怎么调都不理想,问题很可能出在最基础的电感参…...

手把手教你用两块STM32F103C8T6实现CAN总线点对点通信(附完整代码)

从零开始实现STM32F103C8T6双板CAN总线通信实战指南 在嵌入式开发领域,CAN总线因其高可靠性和实时性成为工业控制、汽车电子等场景的首选通信协议。对于初学者而言,使用两块STM32F103C8T6开发板搭建CAN通信系统是掌握该技术的经典入门项目。本文将彻底拆…...

ComfyUI图片生成视频大模型技术选型与实战:从原理到生产环境部署

最近在搞一个AI视频生成的项目,用到了ComfyUI这个可视化工作流工具。说实话,刚开始选模型的时候真是眼花缭乱,Stable Diffusion Video、ModelScope、RunwayML……每个都说自己好,但实际用起来坑真不少。今天就把我趟过的路和总结的…...

MySQL安全加固十大硬核操作

MySQL安全加固十大硬核操作大纲数据库访问控制限制数据库的访问权限,仅允许授权用户和IP访问。修改MySQL配置文件中的bind-address参数,确保仅监听必要的网络接口。强化root账户安全禁止root账户远程登录,创建具有特定权限的替代管理账户。修…...

CSS线性渐变实战:5分钟搞定炫酷按钮背景(附完整代码)

CSS线性渐变实战:5分钟搞定炫酷按钮背景(附完整代码) 最近在重构一个企业官网时,产品经理突然要求把所有按钮的纯色背景换成"更有设计感"的效果。面对30多个不同尺寸的按钮,手动设计图片背景显然不现实。这时…...

RVC 技术指南:从问题解决到效率提升

RVC 技术指南:从问题解决到效率提升 【免费下载链接】rvc RVC is a Linux console UI for vSphere, built on the RbVmomi bindings to the vSphere API. 项目地址: https://gitcode.com/gh_mirrors/rvc/rvc 问题场景→核心原理→分步方案→进阶技巧 一、环…...

基于RAG的智能客服系统实战:从架构设计到生产环境优化

最近在做一个智能客服系统的升级项目,之前用规则引擎维护起来太痛苦了,纯用大模型又贵又不准。经过一番折腾,最终用RAG(检索增强生成)技术搞定了,效果提升非常明显。今天就来分享一下从架构设计到上线优化的…...

ComfyUI实战:如何加载基于Flux.1微调的LoRA模型并优化推理流程

最近在项目里用 ComfyUI 部署基于 Flux.1 微调的 LoRA 模型,踩了不少坑。从模型加载失败到推理时显存爆炸,问题层出不穷。经过一番折腾,总算梳理出一套比较稳定的流程,这里把实战经验记录下来,希望能帮到有同样需求的同…...

Frida安装后别急着‘玩’!这5个必做的环境验证与排错步骤你做了吗?

Frida安装后必做的5个环境验证与排错步骤 当你兴冲冲地按照教程安装完Frida和Server,准备开始"玩耍"时,却发现frida-ps -U毫无反应,或者遇到各种连接失败的问题。这种"安装成功却用不了"的尴尬,往往源于环境…...

Llama-3.2V-11B-cot惊艳效果:多对象遮挡场景下的因果关系链推演

Llama-3.2V-11B-cot惊艳效果:多对象遮挡场景下的因果关系链推演 1. 视觉推理新标杆 在计算机视觉领域,多对象遮挡场景下的因果关系推演一直是个技术难题。传统方法往往只能识别可见部分,而无法理解遮挡背后的逻辑关系。Llama-3.2V-11B-cot的…...

一种路径优化和速度优化算法实现(仿照百度Apollo方案),只提供代码,有相关的readme文...

一种路径优化和速度优化算法实现(仿照百度Apollo方案),只提供代码,有相关的readme文件。 自动驾驶 ,路径优化,速度优化,pnc。 的代码最近在折腾自动驾驶的路径规划模块,发现实际落地…...

MAAAssistantArknights:智能自动化的明日方舟游戏助手解决方案

MAAAssistantArknights:智能自动化的明日方舟游戏助手解决方案 【免费下载链接】MaaAssistantArknights 一款明日方舟游戏小助手 项目地址: https://gitcode.com/GitHub_Trending/ma/MaaAssistantArknights 价值解析:如何通过三大核心技术解决玩家…...