当前位置：首页 > article >正文

GLM-OCR入门教程：3步完成Ubuntu20.04环境部署与首次调用

article 2026/3/17 2:30:41

GLM-OCR入门教程3步完成Ubuntu20.04环境部署与首次调用你是不是也遇到过这种情况手头有一堆图片里面全是文字信息比如扫描的文档、截图的聊天记录或者拍下来的白板内容。一个个手动敲键盘录入太费时间了。用一些在线工具又担心隐私问题。今天要聊的GLM-OCR就是一个能帮你解决这个烦恼的本地化工具。简单来说它就是一个能看懂图片里文字的AI模型。你给它一张图它就能把里面的文字识别出来变成可编辑的文本。这篇教程就是专门给使用Ubuntu 20.04系统的朋友准备的。我会带你走一遍在星图GPU平台上从找到镜像到成功调用GLM-OCR的全过程。整个过程就三步跟着做半小时内你就能让这个AI助手跑起来并处理你的第一张图片。1. 第一步在星图平台找到并启动GLM-OCR万事开头难但这一步其实很简单。我们的目标是在星图GPU平台上找到一个已经配置好GLM-OCR的“环境包”然后把它运行起来。1.1 找到正确的镜像首先你需要登录星图GPU平台。进入控制台后找到“镜像”或者“应用市场”相关的入口。在搜索框里直接输入“GLM-OCR”进行搜索。你会看到一系列相关的镜像结果。这里有个小技巧注意看镜像的标签或描述优先选择那些明确标注了“最新版”、“Ubuntu 20.04”兼容并且下载量或评分较高的镜像。这能帮你避开一些潜在的兼容性问题。选好之后点击“部署”或“创建实例”。1.2 配置你的计算实例接下来平台会让你配置这个实例的参数。对于GLM-OCR这样的OCR任务它主要吃的是CPU和内存对GPU的要求反而不像图像生成模型那么高。不过为了获得更快的处理速度尤其是如果你打算批量处理图片我建议按以下配置选择GPU规格选择一款具有至少8GB显存的GPU型号例如NVIDIA T4或同等级别就完全足够了。如果没有GPU纯CPU也能运行只是速度会慢一些。系统盘建议分配50GB以上的空间给系统和后续可能存放的图片留足余地。公网IP这一步非常重要。务必勾选“分配公网IP”选项这样你才能从你自己的电脑上访问到这台云服务器里的OCR服务。配置完成后点击确认平台就会开始为你创建这个带有GLM-OCR环境的云服务器了。这个过程通常需要几分钟你可以先去喝杯水。2. 第二步连接服务器并启动OCR服务当实例状态显示为“运行中”时我们的“AI盒子”就准备好了。现在我们需要进去把它启动。2.1 登录你的云服务器在实例的管理页面找到你刚创建的那台服务器你会看到它的公网IP地址。打开你电脑上的终端如果是Windows可以使用PuTTY或WSL用SSH命令连接它。连接命令通常是这样的ssh root你的公网IP地址系统会提示你输入密码这个密码通常在实例创建时由平台提供或者是你自己设置的。输入密码后你就进入了Ubuntu 20.04系统的命令行界面。2.2 启动GLM-OCR服务成功登录后GLM-OCR的相关软件和依赖其实已经由镜像预装好了。我们只需要找到它并启动。首先我们可以检查一下服务是否已经存在。一个常见的方法是使用systemctl命令查看相关服务或者直接去常见的安装目录看看。你可以尝试输入cd /usr/local/glm-ocr # 这是一个可能的安装路径具体请参考你所用镜像的说明文档 ls -la如果看到里面有start.sh、server.py之类的启动脚本或文件那就找对地方了。启动服务通常就是运行一个命令。假设启动脚本是start.sh那么bash start.sh或者如果是Python脚本python server.py运行命令后终端会开始滚动日志。当你看到类似“Server started on port 8000”或者“Running on http://0.0.0.0:8000”这样的信息时就说明OCR服务已经成功在后台启动了。关键点请记下日志里显示的端口号比如这里的8000。我们下一步会用到它。3. 第三步编写你的第一个识别程序服务在云端跑起来了现在该我们的主角——图片——上场了。我们需要写一个简单的小程序从我们自己的电脑上把图片“送”到云端的OCR服务再把识别结果“拿”回来。3.1 准备一个Python测试脚本在你的本地电脑上不是云服务器新建一个Python文件比如叫做test_ocr.py。把下面的代码复制进去。import requests import base64 import json # 1. 配置参数这里换成你自己的信息 SERVER_URL http://你的公网IP地址:8000 # 端口号要换成你第二步记下的那个 IMAGE_PATH ./test_image.jpg # 这里放你要识别的图片路径 # 2. 读取图片并编码 def image_to_base64(image_path): with open(image_path, rb) as image_file: encoded_string base64.b64encode(image_file.read()).decode(utf-8) return encoded_string # 3. 构建请求数据 def build_payload(image_base64): payload { image: image_base64, # 以下是一些可选参数可以让识别更精准 detect_direction: True, # 是否检测文字方向 language_type: CHN_ENG, # 语言类型中英文混合 } return payload # 4. 发送请求并获取结果 def ocr_request(url, payload): headers {Content-Type: application/json} try: response requests.post(url, datajson.dumps(payload), headersheaders, timeout30) response.raise_for_status() # 检查请求是否成功 return response.json() except requests.exceptions.RequestException as e: print(f请求出错: {e}) return None # 5. 主程序 if __name__ __main__: # 读取图片 print(f正在读取图片: {IMAGE_PATH}) img_base64 image_to_base64(IMAGE_PATH) # 构建请求 data build_payload(img_base64) # 发送请求 print(正在向OCR服务发送请求...) result ocr_request(f{SERVER_URL}/ocr, data) # 注意这里的端点路径可能是 /ocr, /predict, 请参考镜像文档 # 处理结果 if result and text in result: print(\n 识别成功 ) print(识别出的文本内容) print(result[text]) elif result: print(\n识别完成但返回格式可能不同:) print(json.dumps(result, indent2, ensure_asciiFalse)) else: print(\n识别失败请检查服务状态和网络连接。)3.2 运行脚本并查看结果在运行脚本前确保三件事脚本中的SERVER_URL已经替换成了你云服务器的公网IP和正确的端口号。IMAGE_PATH指向的图片比如test_image.jpg确实存在并且最好是包含清晰文字的图片比如一张书页的截图。你的本地电脑可以访问云服务器的公网IP通常没问题。然后在终端里运行它python test_ocr.py如果一切顺利几秒钟后你就能在终端里看到图片中的文字被清晰地打印出来了。恭喜你你已经完成了GLM-OCR的首次调用4. 常见问题与解决方法第一次尝试难免会遇到一些小波折。这里我列举几个最常见的问题和解决办法。4.1 连接失败无法访问服务症状运行Python脚本时提示“连接超时”或“拒绝连接”。检查清单IP和端口再仔细核对一遍SERVER_URL里的IP地址和端口号一个数字都不能错。服务器状态回到星图平台控制台确认你的云服务器实例是“运行中”状态。安全组/防火墙这是最容易被忽略的一点。你需要到云服务器的安全组规则里添加一条“入方向”规则允许你本地电脑的IP地址或者直接允许所有IP0.0.0.0/0访问你使用的那个端口比如8000。通常协议类型选TCP。4.2 服务启动报错症状在服务器上执行启动命令后报错退出比如提示“端口被占用”或“模块未找到”。解决办法端口占用如果默认端口如8000被占用可以在启动命令中指定另一个端口例如python server.py --port 8080并记得在Python脚本中也修改端口号。依赖缺失虽然镜像已预装但极端情况下可能缺失。可以尝试根据错误提示使用pip install安装缺失的Python包。例如pip install opencv-python-headless。4.3 识别结果不理想症状文字能识别出来但错别字多或者排版混乱。优化建议提供更清晰的图片确保图片光线均匀、文字清晰、没有严重倾斜。调整请求参数回头看看Python脚本里build_payload函数中的可选参数。比如对于竖排文字可以试试设置“detect_direction”: True。如果主要是英文可以把“language_type”改成“ENG”。预处理图片在发送前可以先用简单的图像处理库如PIL对图片进行灰度化、二值化或降噪处理有时能显著提升识别精度。整个流程走下来感觉GLM-OCR的部署确实比想象中要简单。核心就是利用星图平台提供的预置镜像省去了自己搭建环境、解决依赖冲突这些最头疼的步骤。实际识别效果对于清晰的印刷体文字来说相当可靠作为自动化录入的第一步工具完全够用。如果你在尝试过程中遇到了上面没提到的问题或者有更复杂的应用场景想探讨比如批量处理、特定格式文档转换那可能需要更深入地研究一下它的高级API和配置。不过对于入门和大多数日常需求来说这三步已经能帮你打开OCR自动化的大门了。下次再遇到图片转文字的需求就让你的云端AI助手来帮忙吧。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

GLM-OCR入门教程：3步完成Ubuntu20.04环境部署与首次调用

相关文章：

GLM-OCR入门教程：3步完成Ubuntu20.04环境部署与首次调用

为RVC模型设计自动化测试流水线：确保模型更新后的质量稳定

【CVPR26-Min Tan-杭电】基于多线索学习的伪标签进化融合与优化：用于无监督伪装检测

Python战棋游戏开发：六边形地图A*寻路算法实战（附完整代码）

开源大模型实践：软萌拆拆屋LoRA融合多专家模型探索

DJI Windows SDK开发避坑指南：从注册到成功运行（VS2019实测）

Windows 上 openclaw onboard --install-daemon 命令的安装位置和启动配置

PyTorch钩子方法实战：如何用register_forward_hook提取中间层特征图（附代码避坑指南）

ChatGLM3-6B在医疗领域的创新应用：智能问诊与病历分析

AirLLM技术教程：低资源环境下的大模型部署解决方案

RTOS技术路线之争的办公室江湖

AI超清画质增强镜像：图片细节修复与降噪功能体验

Wan2.1问题解决指南：视频生成失败、质量不高怎么办？

美国FDA官网的这些宝藏文件，撰写综述类文章的优质参考资料

Alpamayo-R1-10B基础操作：Front/Left/Right三摄像头图像上传与格式规范

NEURAL MASK 版本管理与协作：使用Git进行代码和模型资产的版本控制

避开这3个坑！用nRF Connect调试BLE信标时90%人会犯的错误

2024年中国多属性建筑矢量数据（CMAB）｜3100万栋单体建筑｜含高度/功能/年份/质量｜Sci Data权威发布

实时口罩检测-通用GPU优化部署：FP16精度下吞吐量提升2.1倍实测

如何用Lima在macOS上构建高效Linux开发环境：从入门到精通

Lingyuxiu MXJ LoRA Python入门：从零开始的艺术生成

StructBERT中文情感模型部署教程：Kubernetes Helm Chart封装方案

AI在制造业落地全解析：3大核心场景+实操代码+企业案例

LaTeX新手必看：IEEEtran参考文献格式全解析（含期刊会议缩写查询）

基于Kubernetes弹性部署LumiPixel Canvas Quest：应对流量高峰的实战策略

广角拍照人像变形？3种主流校正算法对比与实战选择指南

Android面试指南：从基础到高级的知识体系构建

PDF书签目录一键生成神器PdgCntEditor保姆级教程（附下载链接）

Qwen2.5-32B-Instruct保姆级教程：Ubuntu20.04环境部署全流程

Qwen-Audio智能语音助手效果对比：与传统ASR系统差异