当前位置: 首页 > article >正文

C# 结合 llama.cpp 实现 PaddleOCR-VL-1.5:本地 OCR 客户端开发全攻略

一、前言在日常工作中我们经常需要从图片中提取文字信息。虽然市面上有不少 OCR 服务但它们往往需要联网、存在隐私风险或者需要付费。2026 年百度发布了开源文档解析模型 PaddleOCR-VL-1.5该模型不仅支持常规文字识别还支持表格、公式、图表、印章等任务。更重要的是它提供了 GGUF 格式版本可以直接在本地使用 llama.cpp 进行推理。本文将详细介绍如何使用 C# WinForm 结合 llama.cpp 打造一个完整的桌面端 OCR 客户端实现本地离线、安全高效的多功能 OCR 识别。二、架构总览整个方案的架构非常简单清晰由三部分组成┌─────────────────┐ HTTP (OpenAI API) ┌─────────────────┐ │ C# WinForm │ ────────────────────────── │ llama-server │ │ (RestSharp) │ ────────────────────────── │ (llama.cpp) │ └─────────────────┘ JSON Response └─────────────────┘ │ ▼ ┌─────────────────┐ │ PaddleOCR-VL │ │ 1.5 GGUF 模型 │ └─────────────────┘llama-server由 llama.cpp 提供的轻量级 HTTP 服务器与 OpenAI API 完全兼容负责加载 GGUF 模型并提供推理 API。PaddleOCR-VL-1.5 GGUF 模型包含模型权重和视觉投影仪两个文件。C# WinForm 客户端使用 RestSharp 通过 HTTP 调用本地服务实现图片选择、发送、结果显示的全流程。这种架构的好处非常明显服务端与客户端完全解耦你可以随时升级服务端版本或更换模型而无需修改任何客户端代码。三、环境准备组件 版本/说明 llama.cpp b9101 (预编译 CUDA 12.4 版本) 模型文件 PaddleOCR-VL-1.5-GGUF.gguf PaddleOCR-VL-1.5-GGUF-mmproj.gguf .NET .NET Framework 4.8 C# 语言版本 7.3 RestSharp 114.x (v107 新 API) Newtonsoft.Json 13.0.3四、服务端启动启动 llama-server 先进入 llama.cpp 的可执行文件目录打开终端执行llama-server.exe -m ../PaddleOCR-VL-1.5-GGUF/PaddleOCR-VL-1.5.gguf --mmproj ../PaddleOCR-VL-1.5-GGUF/PaddleOCR-VL-1.5-mmproj.gguf --port 8080 --host 0.0.0.0 --temp 0关键参数解读-m 指定 GGUF 模型文件路径--mmproj 指定多模态投影仪文件VLM 必需--port 8080 服务监听端口--host 0.0.0.0 允许局域网其他设备访问--temp 0 温度设为 0使输出结果确定、稳定效果客户端C#代码using Newtonsoft.Json; using Newtonsoft.Json.Linq; using RestSharp; using System; using System.Collections.Generic; using System.Diagnostics; using System.Drawing; using System.IO; using System.Security.Cryptography; using System.Threading.Tasks; using System.Windows.Forms; namespace PaddleOCR_Client { public partial class Form1 : Form { // 定义 PaddleOCR-VL 支持的核心任务类型 public enum OcrTaskType { ocr, // 文字识别 formula, // 公式识别 table, // 表格识别 chart, // 图表识别 seal // 印章识别 } // 内部结果类包含识别文本及分阶段耗时 private class OcrResult { public string Text { get; set; } public Dictionarystring, long Timings { get; set; } new Dictionarystring, long(); } public Form1() { InitializeComponent(); } private string currentImagePath; private void btnSelectImage_Click(object sender, EventArgs e) { using (var dlg new OpenFileDialog()) { dlg.Filter 图片文件|*.jpg;*.jpeg;*.png;*.bmp; string defaultDir System.IO.Path.Combine(System.Windows.Forms.Application.StartupPath, test_img); dlg.InitialDirectory defaultDir; if (dlg.ShowDialog() ! DialogResult.OK) return; currentImagePath dlg.FileName; pictureBox1.Image new Bitmap(currentImagePath); txtResult.Text string.Empty; } } // 核心任务调度器已包含服务端推理时间展示 private async Task ExecuteOcrTask(OcrTaskType taskType) { if (string.IsNullOrEmpty(currentImagePath)) { MessageBox.Show(请先选择一张图片, 提示, MessageBoxButtons.OK, MessageBoxIcon.Warning); return; } SetButtonsEnabled(false); txtResult.Text $正在进行{taskType}任务请稍候...; var swTotal Stopwatch.StartNew(); try { OcrResult result await OcrImageGeneralAsync(currentImagePath, taskType); swTotal.Stop(); // 构建耗时分项信息 string timingDetails 【各阶段耗时】\r\n; foreach (var kvp in result.Timings) { timingDetails $ {kvp.Key}: {kvp.Value} ms\r\n; } // 换行显示问题 string displayText result.Text.Replace(\n, Environment.NewLine); txtResult.Text $【{taskType}任务完成】\r\n $客户端总耗时{swTotal.ElapsedMilliseconds} ms\r\n timingDetails $——————————————\r\n displayText; } catch (Exception ex) { swTotal.Stop(); txtResult.Text $【{taskType}任务失败】\r\n $客户端总耗时{swTotal.ElapsedMilliseconds} ms\r\n $错误信息{ex.Message}; } finally { SetButtonsEnabled(true); } } private void Form1_Load(object sender, EventArgs e) { } /// summary /// 通用的OCR/VL任务调用方法返回识别结果及分步耗时含服务端推理耗时 /// /summary private async TaskOcrResult OcrImageGeneralAsync(string imagePath, OcrTaskType taskType) { var result new OcrResult(); var sw Stopwatch.StartNew(); // 步骤1读取文件 byte[] imgBytes File.ReadAllBytes(imagePath); result.Timings[读取文件] sw.ElapsedMilliseconds; sw.Restart(); // 步骤2Base64编码 string mime GetMimeType(Path.GetExtension(imagePath)); string base64Image $data:{mime};base64,{Convert.ToBase64String(imgBytes)}; result.Timings[Base64编码] sw.ElapsedMilliseconds; sw.Restart(); // 步骤3构造请求Payload序列化 string taskPrompt BuildPromptForTask(taskType); var payload new { messages new[] { new { role user, content new object[] { new { type image_url, image_url new { url base64Image } }, new { type text, text taskPrompt } } } } }; string jsonBody JsonConvert.SerializeObject(payload); result.Timings[构造请求] sw.ElapsedMilliseconds; sw.Restart(); // 步骤4发送HTTP请求并等待响应 var options new RestClientOptions(http://localhost:8080); // 你的启动端口 using (var client new RestClient(options)) { var request new RestRequest(/v1/chat/completions, Method.Post); request.AddHeader(Content-Type, application/json); request.AddParameter(application/json, jsonBody, ParameterType.RequestBody); RestResponse response await client.ExecuteAsync(request); result.Timings[网络请求] sw.ElapsedMilliseconds; sw.Restart(); if (!response.IsSuccessful) { string errorDetail string.IsNullOrEmpty(response.Content) ? response.StatusDescription : response.Content; throw new Exception($服务器错误 ({response.StatusCode}): {errorDetail}); } // 步骤5解析响应JSON JObject jResult JObject.Parse(response.Content); string content jResult[choices]?[0]?[message]?[content]?.ToString(); result.Timings[解析响应] sw.ElapsedMilliseconds; // 提取服务端推理耗时 (prompt_ms predicted_ms) JToken timingsToken jResult[timings]; if (timingsToken ! null) { double promptMs timingsToken.Valuedouble(prompt_ms); double predictedMs timingsToken.Valuedouble(predicted_ms); result.Timings[服务端编码(Prompt)] (long)promptMs; result.Timings[服务端生成(Predict)] (long)predictedMs; result.Timings[服务端总推理] (long)(promptMs predictedMs); } sw.Stop(); string finalText content ?? 未能提取到识别文本; result.Text finalText; return result; } } /// summary /// 为不同任务构建提示词 /// /summary private string BuildPromptForTask(OcrTaskType taskType) { switch (taskType) { case OcrTaskType.ocr: return__media__OCR:; case OcrTaskType.formula: return__media__Formula:; case OcrTaskType.table: return__media__Table:; case OcrTaskType.chart: return__media__Chart:; case OcrTaskType.seal: return__media__Seal:; default: return__media__OCR:; } } /// summary /// 根据扩展名获取MIME类型 /// /summary private string GetMimeType(string ext) { switch (ext.ToLower()) { case.jpg: case.jpeg: returnimage/jpeg; case.png: returnimage/png; case.bmp: returnimage/bmp; default: returnimage/jpeg; } } /// summary /// 统一设置所有功能按钮的启用/禁用状态 /// /summary private void SetButtonsEnabled(bool enabled) { btnOCR.Enabled enabled; btnFormula.Enabled enabled; btnTable.Enabled enabled; btnChart.Enabled enabled; btnSeal.Enabled enabled; } // 各任务按钮事件处理 async private void btnOCR_Click(object sender, EventArgs e) { await ExecuteOcrTask(OcrTaskType.ocr); } async private void btnFormula_Click(object sender, EventArgs e) { await ExecuteOcrTask(OcrTaskType.formula); } async private void btnTable_Click(object sender, EventArgs e) { await ExecuteOcrTask(OcrTaskType.table); } async private void btnChart_Click(object sender, EventArgs e) { await ExecuteOcrTask(OcrTaskType.chart); } async private void btnSeal_Click(object sender, EventArgs e) { await ExecuteOcrTask(OcrTaskType.seal); } } }

相关文章:

C# 结合 llama.cpp 实现 PaddleOCR-VL-1.5:本地 OCR 客户端开发全攻略

一、前言在日常工作中,我们经常需要从图片中提取文字信息。虽然市面上有不少 OCR 服务,但它们往往需要联网、存在隐私风险,或者需要付费。2026 年百度发布了开源文档解析模型 PaddleOCR-VL-1.5,该模型不仅支持常规文字识别&#x…...

Gemini总结准确率暴跌?YouTube多语种/口音/技术术语场景全避坑指南,仅限内部测试版参数曝光

更多请点击: https://intelliparadigm.com 第一章:Gemini YouTube内容总结准确率暴跌现象溯源 近期多位开发者与内容分析团队反馈,Gemini API 在处理 YouTube 视频字幕(via transcript 或 transcript_with_timestamps&#xff0…...

C#/.NET/.NET Core技术前沿周刊 | 第 70 期(2026年5.01-5.10)

前言C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。欢迎投稿、推荐或…...

别墅装修里的石材,选错是费钱,用错是麻烦

每次去工地,尤其是那些还没完工的别墅,总能看到角落里堆着几块大板。业主或者设计师会指着它们,兴奋地描述这里用爵士白,那里用鱼肚灰。但说实话,很多时候,这些选择在落地前,就已经埋下了后期保…...

HubSpot如何通过联盟计划快速增长?内容驱动型联盟营销的成功案例解析

在 SaaS 获客成本(CAC)不断攀升的今天,HubSpot 的增长奇迹始终是行业研究的焦点。除了教科书级的「集客营销(Inbound Marketing)」,其 HubSpot Affiliate Program(联盟营销计划)更是…...

壹:烧录Linux系统

名词解析:OTG:On-The-Go,含义:OTG 是一种 USB 的扩展功能,允许设备(如手机、开发板)在没有主机(如电脑)的情况下,既可以作为 USB 主机(Host&#…...

智能语音转文字终极指南:如何用AsrTools轻松完成音频转字幕

智能语音转文字终极指南:如何用AsrTools轻松完成音频转字幕 【免费下载链接】AsrTools ✨ AsrTools: Smart Voice-to-Text Tool | Efficient Batch Processing | User-Friendly Interface | No GPU Required | Supports SRT/TXT Output | Turn your audio into accu…...

一文读懂STA(静态时序分析):定义、价值、应用及实操指南

在数字集成电路设计领域,时序性能是决定芯片能否稳定、高效运行的核心因素,而静态时序分析(Static Timing Analysis,简称STA)作为时序验证的核心手段,早已成为芯片设计流程中不可或缺的一环。无论是FPGA还是…...

1394-AM75伺服驱动器

1394-AM75 是艾伦-布拉德LEY(Allen-Bradley)系列的一款伺服驱动器,控制精度高、响应迅速,适用于工业自动化中的精密运动控制。中间 15 条特点:结构紧凑,便于安装于控制柜内。支持宽电压输入范围&#xff0c…...

大模型SFT泛化能力受多因素制约,推理提升或伴随安全性下降

大模型SFT泛化能力研究背景随着大模型后训练(Post - training)技术的发展,强化学习(RL)在提升模型推理能力方面表现备受瞩目。在此背景下,学术界形成了“ SFT记忆,RL泛化(SFT memori…...

ARM设备运行x86_64程序:Box64高效兼容方案深度解析

ARM设备运行x86_64程序:Box64高效兼容方案深度解析 【免费下载链接】box64 Box64 - Linux Userspace x86_64 Emulator with a twist, targeted at ARM64, RV64 and LoongArch Linux devices 项目地址: https://gitcode.com/gh_mirrors/bo/box64 你是否曾在AR…...

Atlassian Agent:企业级Atlassian产品激活的终极解决方案

Atlassian Agent:企业级Atlassian产品激活的终极解决方案 【免费下载链接】atlassian-agent Atlassians productions crack. 项目地址: https://gitcode.com/gh_mirrors/at/atlassian-agent Atlassian Agent是一款专为JIRA、Confluence等Atlassian产品设计的…...

从手机拍照到工业质检:聊聊自适应白平衡算法在实际项目里的那些‘坑’

从手机拍照到工业质检:自适应白平衡算法的实战避坑指南 在工业视觉检测线上,一台价值百万的自动化设备突然频繁误判产品颜色——原因竟是车间顶灯老化导致色温偏移,而算法团队引以为傲的"完美反射"白平衡模型完全失效。类似场景每天…...

从社交推荐到金融风控:动态链路预测在工业界的5个落地场景详解

动态链路预测:从理论到商业价值的五大实战场景 社交平台上那些"可能认识的人"推荐,金融交易中突然拦截的欺诈提醒,电商首页精准推送的"猜你喜欢"——这些看似无关的场景背后,都藏着一个关键技术:动…...

如何快速清理电脑中的重复图片:AntiDupl.NET终极指南

如何快速清理电脑中的重复图片:AntiDupl.NET终极指南 【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 你是否曾因电脑中堆积如山的重复图片而烦恼&#xff1…...

本地Cookie管理新选择:Get-cookies.txt-LOCALLY完全指南

本地Cookie管理新选择:Get-cookies.txt-LOCALLY完全指南 【免费下载链接】Get-cookies.txt-LOCALLY Get cookies.txt, NEVER send information outside. 项目地址: https://gitcode.com/gh_mirrors/ge/Get-cookies.txt-LOCALLY 在浏览器日常使用中&#xff0…...

从STM32F103到RP2040:新手如何用Arduino快速上手这块‘网红’双核MCU(附Wokwi在线仿真链接)

从STM32F103到RP2040:用Arduino生态快速征服双核MCU 第一次拿到RP2040开发板时,我习惯性地翻出STM32的工程模板准备移植——直到发现这个拇指大小的板子藏着两个能跑到133MHz的Arm Cortex-M0核心。作为从STM32F103时代走过来的开发者,我们早…...

Poppins几何无衬线字体:跨语言设计的现代主义杰作与技术实现指南

Poppins几何无衬线字体:跨语言设计的现代主义杰作与技术实现指南 【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins Poppins是一款融合现代主义几何美学与跨语言排版功…...

MediaCreationTool.bat:Windows部署自动化脚本封装架构深度解析

MediaCreationTool.bat:Windows部署自动化脚本封装架构深度解析 【免费下载链接】MediaCreationTool.bat Universal MCT wrapper script for all Windows 10/11 versions from 1507 to 21H2! 项目地址: https://gitcode.com/gh_mirrors/me/MediaCreationTool.bat …...

如何反查竞品最近30天内新增的差评关键词,并优化Listing卖点?

很多亚马逊卖家做竞品分析,只盯价格、BSR、广告位、关键词排名,却很少认真看竞品最近30天新增的差评。其实,最新差评往往比老差评更有价值。老差评更多反映历史问题,可能来自旧批次、旧包装、旧版本;但最近30天新增差评…...

非洲车商采购中国二手车的完整流程:从找车到提车七步走

操作目标:帮助非洲车商、进口商、批发商及其采购代理,系统性地完成中国二手车采购。适用对象:想了解采购中国二手车完整流程的海外B端买家。采购流程SOP第一步:找车源渠道说明适用场景广州出口基地南沙、番禺、白云实地考察线上平…...

ChromaControl:如何用智能技术终结RGB设备控制混乱局面

ChromaControl:如何用智能技术终结RGB设备控制混乱局面 【免费下载链接】ChromaControl 3rd party device lighting support for Razer Synapse. 项目地址: https://gitcode.com/gh_mirrors/ch/ChromaControl 想象一下这样的场景:你的桌面上摆放着…...

航空航天装备行业技术岗结构设计工程师晋升CTO

下面我直接给你:航空航天装备行业「结构设计工程师 → CTO」的完整岗位链 每级年限 薪资(军工院所 vs 商业航天 2026 实价) 关键跃迁点,全部按结构岗真实晋升路线写死,不掺虚的。一、总路线(结构工程师 →…...

简单学习 --> WebSocket

websocketwebsocket 是应用层 协议, 基于传输层Tcp 协议 的协议 ;这个协议可以实现服务器主动给客户端推送信息功能(本身Tcp就可以做到,但是HTTP不行)websocket报文格式websocket 和服务器建立连接的过程首先 客户端 发送 HTTP请求 给服务器 , 请求里 包含了一些特殊header , (…...

OBS高级计时器插件:如何高效管理直播时间的完整指南

OBS高级计时器插件:如何高效管理直播时间的完整指南 【免费下载链接】obs-advanced-timer 项目地址: https://gitcode.com/gh_mirrors/ob/obs-advanced-timer OBS高级计时器插件是专为OBS Studio用户设计的专业时间管理工具,通过6种智能计时模式…...

5分钟永久激活Windows和Office:KMS智能激活终极指南

5分钟永久激活Windows和Office:KMS智能激活终极指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗?Office文档突然变成只读…...

【Amazon Quick 桌面 AI 助手初体验】把重复造轮子的活交给 Quick 大显身手

🪪 本文作者:许业宝 ✍️ 作者信息: 🌞 VSTECS云解决方案架构师 | AWS APN Ambassador | 🪪 AWS Community Builder | 亚马逊云科技技能云博主 | UGL ⭐ 已获得 AWS 认证大满贯(13 个…...

简单学习 --> Cookie 和Session

CookieCookie是 http请求 header 中的一个属性; (是浏览器 持久化存储数据的一种 机制) ;网页无法 访问 服务器的文件系统, 要存储数据就得使用其他方式 ;(Cookie 中保存的数据,也是 键值对格式(用户自定义的),最终也是要把这个键值对和请求一起发送回服务器的, 服务Cookie 会存…...

Midjourney提示词工程终极护城河:基于CLIP文本嵌入空间的向量对齐技术(附Python可视化调试工具)

更多请点击: https://intelliparadigm.com 第一章:Midjourney提示词工程终极护城河:基于CLIP文本嵌入空间的向量对齐技术(附Python可视化调试工具) 在生成式AI实践中,提示词质量差异常导致图像语义漂移——…...

C++ 条件变量 condition_variable

<condition_variable> 是 C 标准库中用于多线程同步的核心头文件。它主要提供了条件变量&#xff08;Condition Variable&#xff09;机制&#xff0c;用来协调多个线程的执行顺序。 简单来说&#xff0c;它的作用就是让一个或多个线程在特定条件不满足时进入休眠&#x…...