当前位置：首页 > article >正文

Donut端到端票据识别：小票图像直出结构化JSON

article 2026/5/22 22:30:38

1. 项目概述一张小票如何让AI“看懂”并结构化输出你有没有试过把超市小票拍张照想让手机自动提取“总金额¥89.50”“商品牛奶×2”“时间2024-03-12 18:23”这些信息不是OCR识别出一堆乱序文字而是直接返回一个干净的JSON——{total: 89.50, items: [{name: 纯牛奶, qty: 2, price: 12.80}], date: 2024-03-12}。这正是Donut模型要干的事它不靠传统OCR规则匹配的老路而是用端到端视觉语言理解把整张图像当“文档”直接读取、理解、生成结构化文本。我第一次在实验室用它处理本地菜市场手写收据时只改了不到20行代码模型就在3小时后准确识别出“青椒 ¥6.5/斤 × 1.2斤 ¥7.80”这种带计算逻辑的条目——而此前用Tesseract正则硬啃光写匹配规则就花了两天还总被“¥”和“”符号搞崩溃。Donut的核心价值不是替代OCR而是跳过OCR这个中间环节让模型自己学会“看图说话”。它特别适合处理格式多变、印刷质量差、含手写体、有表格线或印章遮挡的票据类图像比如餐饮小票、物流面单、医疗处方、银行回单。如果你正在做财务自动化、报销系统、供应链单据处理或者只是想给自家小店做个扫码记账工具Donut就是那个能让你从“调参炼丹”回归“业务落地”的务实选择。它不要求你有GPU集群一台带32GB内存的MacBook Pro M2 Max就能跑通全流程它也不要求你精通Transformer架构真正需要你动手写的就是数据准备、微调脚本和结果后处理三块。接下来我会带你从零开始把Donut模型真正变成你手边可用的“小票翻译器”每一步都附上我踩过的坑、实测有效的参数和可直接复制的命令。2. 核心技术拆解为什么Donut是票据识别的“最优解”2.1 Donut到底是什么它和传统OCR的根本区别在哪DonutDocument Understanding Transformer不是OCR引擎也不是NLP模型而是一个视觉-语言联合建模的端到端生成式模型。它的名字直译是“甜甜圈”但技术内核非常扎实输入是一张票据图像输出是结构化文本如JSON字符串整个过程没有显式的文本检测、识别、版面分析等中间步骤。你可以把它想象成一个刚入职的财务实习生——你给他看一张小票照片他不需要先用放大镜逐字抄下来OCR再拿纸笔比对模板填空规则匹配而是直接盯着图片结合上下文比如“TOTAL”旁边大概率是数字“ITEM”下面跟着的是商品名一口气把关键信息“说”出来。这个“说”的过程用的是类似ChatGPT的自回归语言生成机制但它的“词汇表”里不仅有文字还有图像特征编码。具体来说Donut由两部分组成Swin Transformer视觉编码器和BART-style文本解码器。Swin负责把整张小票压缩成一组富含语义的视觉向量比如“右下角红色印章区域”“左上角模糊的日期字体”“中间带虚线分隔的商品列表”BART则根据这些视觉向量像写作文一样一个token一个token地生成JSON字符串。这种设计绕开了OCR的致命短板当小票被咖啡渍晕染、被折叠压痕、或使用非标准字体时OCR引擎如Tesseract会把“¥89.50”识别成“Y89.50”或“¥89.S0”后续所有规则都崩盘。而Donut看到的是“整体视觉模式”只要“总价”区域的形状、位置、颜色对比度足够典型它就能稳定输出正确数字。我做过对比测试在100张模糊小票上Tesseract正则的准确率是63%而Donut微调后达到89%。这不是算法玄学而是端到端学习带来的鲁棒性提升。2.2 为什么必须微调Fine-tune预训练模型不能直接用吗Donut官方发布的预训练模型如naver-clova/donut-base-finetuned-docvqa是在DocVQA文档视觉问答数据集上训练的任务是回答“这张发票的供应商是谁”这类问题。它擅长理解文档结构但对“小票”这个特定领域毫无概念。就像一个精通法律文书的律师突然让他去解读菜市场手写收据他得先学“青椒”“毛豆”“称重”这些本地词汇和常见格式。微调的本质就是用你的小票数据教会模型“小票的语言”。这里的关键洞察是Donut的微调成本极低。它不像BERT那样需要海量标注数据因为它的解码器是自回归的只要提供“图像→JSON”这对样本模型就能通过最大似然估计学习映射关系。我们团队实测用仅200张高质量标注小票覆盖不同超市、不同打印质量、含手写备注微调10个epoch模型在验证集上的字段级F1值就从预训练的41%跃升至78%。更关键的是Donut的微调不涉及修改视觉编码器权重——我们只训练解码器和连接层这使得显存占用大幅降低。在RTX 3090上batch size2时单步训练耗时仅1.2秒而全参数微调要3.8秒。这意味着你完全可以用消费级显卡在下班前启动训练第二天早上就能拿到可用模型。很多人误以为微调重头训练其实Donut的微调更像“给模型装上一副新眼镜”让它专注看清小票的细节而不是换掉整个大脑。2.3 数据准备为什么“200张好数据”比“2000张烂数据”管用十倍这是我在三个客户项目中反复验证的铁律票据识别效果的天花板80%取决于数据质量而非模型复杂度。Donut对噪声极其敏感——如果标注JSON里把“subtotal”错写成“sub_total”模型会认真学会这个错误并在推理时稳定复现。因此数据准备阶段必须像审计账目一样严谨。核心原则就一条标注必须100%忠实于图像呈现不做任何推断或补全。例如一张小票上“优惠-¥5.00”被油渍盖住后半部分你只能标discount: -¥5.绝不能脑补成-5.00如果“日期”栏是手写的“3/12”你必须标date: 3/12而不是标准化为2024-03-12。后者看似“友好”实则教会模型忽略原始视觉线索。我们内部有一套数据清洗checklist图像分辨率统一为1280×1800像素Donut默认输入尺寸用双三次插值缩放避免拉伸变形每张图必须有且仅有一个JSON文件文件名与图像同名内容为扁平化JSON无嵌套数组除非业务强需求字段命名全部小写下划线如total_amount,item_list禁用驼峰和空格所有数值字段保留原始格式含货币符号、千分位逗号后期用正则清洗对模糊/遮挡区域用unk占位符如cashier: unk而非留空。这套规则让我们在客户现场验收时一次通过率从35%提升到92%。记住Donut不是在学“财务知识”它在学“图像到字符串的映射”。你给它什么它就记住什么。3. 实操全流程从环境搭建到部署上线的每一步3.1 环境配置避开CUDA版本陷阱的实操指南Donut对PyTorch和CUDA版本极其挑剔这是我踩过最深的坑。官方文档推荐PyTorch 1.13 CUDA 11.7但实际在Ubuntu 22.04上pip install torch1.13.1cu117会因cuDNN版本冲突导致训练时显存泄漏。经过三天编译测试我确认最稳组合是PyTorch 2.0.1 CUDA 11.8。以下是经过10台服务器验证的安装命令请严格按顺序执行# 卸载所有旧torch pip uninstall torch torchvision torchaudio -y # 安装指定版本注意必须用--force-reinstall否则conda可能缓存旧包 pip install --force-reinstall torch2.0.1cu118 torchvision0.15.2cu118 torchaudio2.0.2cu118 --extra-index-url https://download.pytorch.org/whl/cu118 # 安装Donut依赖注意transformers必须4.27.0否则解码器报错 pip install transformers4.35.2 datasets2.15.0 sentencepiece0.1.99 python-Levenshtein0.21.1 # 验证CUDA是否生效运行后应显示True python -c import torch; print(torch.cuda.is_available())提示如果你用Mac M系列芯片直接跳过CUDA安装用pip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2即可。Donut在M2 Max上推理速度比RTX 3060快15%因为其Swin编码器对Apple Neural Engine优化极好。环境配好后务必测试基础功能。创建test_donut.pyfrom transformers import DonutProcessor, VisionEncoderDecoderModel processor DonutProcessor.from_pretrained(naver-clova/donut-base-finetuned-docvqa) model VisionEncoderDecoderModel.from_pretrained(naver-clova/donut-base-finetuned-docvqa) print(✅ 环境验证通过模型加载成功)运行无报错说明环境已就绪。这一步看似简单但能帮你避开后续80%的“ModuleNotFoundError”和“CUDA out of memory”问题。3.2 数据集构建用Python脚本自动化生成合规数据集手工整理200张小票的JSON太反人类。我写了一个轻量脚本build_dataset.py它能自动完成三件事图像预处理、JSON模板生成、数据集目录结构化。核心逻辑如下import os from PIL import Image import json def preprocess_image(image_path, output_path): 统一缩放锐化提升小票文字清晰度 img Image.open(image_path).convert(RGB) # Donut最佳输入尺寸1280x1800宽高比≈0.71 img img.resize((1280, 1800), Image.Resampling.BICUBIC) # 对文字区域做轻微锐化增强OCR-like特征 from PIL import ImageFilter img img.filter(ImageFilter.UnsharpMask(radius1, percent150, threshold3)) img.save(output_path) def generate_json_template(image_name): 生成标准JSON模板字段按小票常见顺序排列 return { store_name: , date: , time: , items: [], subtotal: , tax: , total_amount: , payment_method: } # 批量处理 raw_dir ./raw_images proc_dir ./dataset/images os.makedirs(proc_dir, exist_okTrue) for img_file in os.listdir(raw_dir): if img_file.lower().endswith((.png, .jpg, .jpeg)): # 预处理图像 preprocess_image(os.path.join(raw_dir, img_file), os.path.join(proc_dir, img_file)) # 生成JSON模板 json_data generate_json_template(img_file) json_path os.path.join(./dataset/jsons, img_file.replace(.jpg, .json).replace(.png, .json)) os.makedirs(os.path.dirname(json_path), exist_okTrue) with open(json_path, w, encodingutf-8) as f: json.dump(json_data, f, ensure_asciiFalse, indent2)运行此脚本后你会得到标准的dataset/目录dataset/ ├── images/ # 处理后的1280x1800 JPG ├── jsons/ # 空白JSON模板待人工填写 └── train_val_split.json # 训练/验证集划分8:2注意train_val_split.json必须手动编写格式为{train: [IMG_001.jpg, IMG_002.jpg], validation: [IMG_199.jpg]}。别用随机划分要把同一超市、同一批次打印的小票尽量分在同一集合避免数据泄露。3.3 微调训练用Hugging Face Trainer实现零代码训练Donut的微调无需写训练循环Hugging Face的Trainer类已封装好所有细节。关键在于配置TrainingArguments——这里全是血泪经验from transformers import TrainingArguments, Trainer from donut_dataset import DonutDataset # 自定义数据集类后文详解 # 数据集加载重点必须用Donut专用数据集类 train_dataset DonutDataset( dataset_namemy_receipts, max_length512, splittrain, task_start_tokens_receipt, prompt_end_token/s ) # 训练参数实测最优值 training_args TrainingArguments( output_dir./donut-finetuned, per_device_train_batch_size2, # RTX 3090最大安全值 per_device_eval_batch_size1, # 验证时显存更紧张 gradient_accumulation_steps4, # 模拟batch_size8解决小批量不稳定 num_train_epochs10, # 少于8轮欠拟合多于12轮过拟合 warmup_ratio0.1, # 前10%步数线性升温防初期震荡 learning_rate3e-5, # Donut解码器敏感5e-5必发散 adam_beta20.999, # 官方推荐提升收敛稳定性 fp16True, # 必开节省40%显存加速30% save_strategyepoch, evaluation_strategyepoch, logging_steps5, save_total_limit2, remove_unused_columnsFalse, # 关键Donut需要原始图像列 push_to_hubFalse, report_tonone, # 关闭WB避免网络超时 ) # 初始化Trainer trainer Trainer( modelmodel, argstraining_args, train_datasettrain_dataset, eval_dataseteval_dataset, tokenizerprocessor, # Donut用processor当tokenizer ) trainer.train()关键参数解析gradient_accumulation_steps4意味着模型每4个batch才更新一次权重这相当于用小批量模拟大批量既保证显存不爆又让梯度更稳定。learning_rate3e-5是Donut的黄金值——我试过2e-5收敛慢、4e-5loss曲线剧烈抖动只有3e-5能让loss从12.5平稳降到2.1。fp16True不是可选项是必需项否则RTX 3090会在第3个epoch直接OOM。3.4 自定义数据集类解决图像加载的“最后一公里”Hugging Face的datasets库无法直接加载图像JSON对必须自定义DonutDataset类。这个类要处理三件事图像解码、JSON序列化、prompt拼接。以下是精简版核心代码完整版见GitHub仓库from datasets import Dataset from PIL import Image import torch class DonutDataset(torch.utils.data.Dataset): def __init__(self, dataset_name, max_length, split, task_start_token, prompt_end_token): self.dataset load_dataset(dataset_name, splitsplit) # 加载HuggingFace数据集 self.max_length max_length self.task_start_token task_start_token self.prompt_end_token prompt_end_token def __len__(self): return len(self.dataset) def __getitem__(self, idx): sample self.dataset[idx] # 1. 加载并预处理图像 image Image.open(sample[image_path]).convert(RGB) pixel_values processor(image, random_paddingFalse).pixel_values # Donut专用预处理 # 2. 构建prompts_receipts_answer...JSON.../s json_string json.dumps(sample[ground_truth], ensure_asciiFalse) prompt f{self.task_start_token}{self.prompt_end_token}{json_string} # 3. 编码prompt注意Donut用processor.encode非tokenizer labels processor.tokenizer( prompt, add_special_tokensFalse, max_lengthself.max_length, paddingmax_length, truncationTrue, return_tensorspt ).input_ids return { pixel_values: torch.tensor(pixel_values), labels: labels.squeeze(0) # 移除batch维度 }这个类的关键在于processor(image)——Donut的DonutProcessor会自动将图像转为pixel_values张量并做归一化mean[0.5,0.5,0.5], std[0.5,0.5,0.5]。如果你用transforms.ToTensor()手动处理会导致输入分布不匹配训练loss永远卡在10以上。3.5 推理与后处理把模型输出变成真正可用的数据训练完的模型输出是token ID序列需解码为JSON。但Donut的输出常含噪音必须后处理def inference(model, processor, image_path): # 1. 图像预处理 image Image.open(image_path).convert(RGB) pixel_values processor(image, return_tensorspt).pixel_values # 2. 生成关键参数no_repeat_ngram_size防重复 task_prompt s_receipt decoder_input_ids processor.tokenizer( task_prompt, add_special_tokensFalse, return_tensorspt ).input_ids outputs model.generate( pixel_values, decoder_input_idsdecoder_input_ids, max_lengthprocessor.tokenizer.model_max_length, early_stoppingTrue, pad_token_idprocessor.tokenizer.pad_token_id, eos_token_idprocessor.tokenizer.eos_token_id, use_cacheTrue, num_beams1, # Donut用贪婪搜索比beam search更准 bad_words_ids[[processor.tokenizer.unk_token_id]], # 禁用unk no_repeat_ngram_size3 # 防止total total total式重复 ) # 3. 解码并清洗 seq processor.batch_decode(outputs, skip_special_tokensTrue)[0] # 清洗移除prompt头尾修复JSON格式 seq seq.replace(task_prompt, ).strip() try: result json.loads(seq) return result except json.JSONDecodeError: # JSON解析失败时用正则提取关键字段保底方案 import re result {} result[total_amount] re.search(rtotal_amount\s*:\s*([^]), seq) result[date] re.search(rdate\s*:\s*([^]), seq) return {k: v.group(1) if v else for k, v in result.items()} # 使用示例 result inference(model, processor, ./test_receipt.jpg) print(json.dumps(result, indent2, ensure_asciiFalse))实操心得num_beams1贪婪搜索比num_beams3准确率高7%因为Donut的解码器在小样本上容易被beam search带偏。no_repeat_ngram_size3能有效防止“amount amount amount”这种灾难性重复。后处理中的正则保底方案是我们在线上服务中必备的“安全阀”哪怕模型崩了也能返回部分关键字段。4. 常见问题与避坑指南那些文档里不会写的实战真相4.1 “Loss不下降”问题排查90%的情况是数据路径错了这是新手最常遇到的“幽灵bug”。训练启动后loss恒定在12.5左右几小时不动。别急着调学习率先检查三件事检查项正确做法错误做法后果图像路径image_path字段必须是绝对路径或相对于dataset/的相对路径用./images/xxx.jpg但脚本在上级目录运行FileNotFoundError但Trainer静默跳过loss不变JSON格式JSON必须是UTF-8无BOM编码用VS Code另存为时选“UTF-8”用Windows记事本保存编码为ANSI解析时UnicodeDecodeErrorTrainer丢弃样本有效batch_size0字段名一致性所有JSON的key必须完全一致大小写、下划线有的写total有的写TOTAL模型学不会任何字段loss恒高诊断命令在训练前加一行print(next(iter(train_dataset)))确认输出的pixel_values是torch.Size([3, 1280, 1800])labels是torch.Size([512])。如果不是问题一定出在数据集类。4.2 “CUDA Out of Memory”终极解决方案即使batch_size1也OOM试试这四个组合拳降分辨率Donut支持最小输入尺寸768x1024。在DonutDataset.__getitem__中把processor(image)改为processor(image, size{height: 1024, width: 768})显存占用立降35%关掉梯度检查点Donut默认开启gradient_checkpointingTrue但它在小图像上反而增加显存。在TrainingArguments中添加gradient_checkpointingFalse用CPU offload在Trainer初始化时传入argstraining_args, data_collatorcollator其中collator把pixel_values移到CPU只在forward时加载到GPU终极手段量化。用bitsandbytes库对解码器做4-bit量化from bitsandbytes import quantize_model model.decoder quantize_model(model.decoder, quant_typebnb.nn.Linear4bit)我们用这四招把RTX 306012GB的极限batch_size从1提升到4训练速度反增12%。4.3 字段识别不准可能是prompt设计没对齐Donut对prompt极其敏感。如果你发现total_amount总被识别成subtotal不是模型问题是prompt没教对。正确做法在JSON模板中把total_amount字段放在subtotal之后强制模型学习顺序在DonutDataset.__getitem__中把prompt构造为prompt f{self.task_start_token}s_answer{{total_amount: {sample[total_amount]}}}/s而不是直接拼整个JSON。这样模型聚焦学习单字段再逐步扩展。我们有个客户小票的“合计”字样被印在红色印章上OCR永远识别错。改用单字段prompt后准确率从42%飙升至91%——因为模型不再被其他字段干扰专攻“红色区域数字”的视觉模式。4.4 部署到生产环境Flask API的轻量级封装训练好的模型要集成到报销系统用Flask写个API最简单from flask import Flask, request, jsonify from PIL import Image import io app Flask(__name__) # 全局加载模型避免每次请求都加载 model VisionEncoderDecoderModel.from_pretrained(./donut-finetuned) processor DonutProcessor.from_pretrained(./donut-finetuned) app.route(/extract, methods[POST]) def extract_receipt(): if image not in request.files: return jsonify({error: No image provided}), 400 image_file request.files[image] image Image.open(io.BytesIO(image_file.read())).convert(RGB) # 推理加超时保护 try: result inference(model, processor, image) # 复用前述inference函数 return jsonify(result) except Exception as e: return jsonify({error: fInference failed: {str(e)}}), 500 if __name__ __main__: app.run(host0.0.0.0, port5000, debugFalse) # 生产环境关debug部署时注意用gunicorn启动worker数设为CPU核心数每个worker内存限制2GB。我们线上服务QPS稳定在12RTX 3090平均响应时间380ms完全满足财务系统需求。5. 进阶技巧与场景扩展让Donut成为你的业务引擎5.1 多语言小票支持只需替换prompt tokenDonut原生支持多语言但需要微调prompt。比如处理日文小票把task_start_token从s_receipt改为s_receipt_ja并在训练时加入日文JSON样本。我们为一家跨国零售客户做了中/英/日三语支持方法很简单在DonutDataset中根据图像文件名后缀_cn.jpg,_en.jpg,_jp.jpg动态切换prompt模型自动学会区分。无需重新训练只需在原有checkpoint上继续微调5个epoch。5.2 手写体增强用StyleGAN3合成训练数据小票手写部分识别率低别收集真实手写数据——太慢。用StyleGAN3生成合成手写体。我们训练了一个轻量StyleGAN3仅2层生成器输入是打印体文本如“青椒 6.50”输出是带自然笔迹、墨水晕染的手写图。生成1000张后微调Donut手写字段F1从58%提升至83%。关键技巧生成时加入“纸张纹理”和“轻微旋转”让合成数据更接近真实扫描件。5.3 与RPA流程集成用UiPath调用Donut API财务机器人RPA需要结构化数据。在UiPath中用“HTTP Request”活动调用/extract接口返回JSON后用“Deserialize JSON”活动转为字典再用“Excel Application Scope”写入报销表。我们帮客户实现了“员工拍照→RPA调用Donut→自动填入SAP报销单”的全自动流程报销处理时效从2天缩短至15分钟。5.4 持续学习机制当新小票格式出现时怎么办业务永远在变。上周客户新增了电子发票二维码Donut不认识。我们的方案是用ZBar库从图像中定位二维码区域把二维码截图作为新样本标注{qr_code_data: https://invoice.xxx.com/12345}用LoRALow-Rank Adaptation技术只训练0.1%的参数1小时完成增量微调。这套机制让模型始终保持对新格式的适应力客户再也不用等我们“升级模型”。我个人在实际操作中发现Donut的价值不在技术多炫酷而在它把一个原本需要3个工程师OCR专家规则引擎开发前端对接的项目压缩成1个懂Python的业务分析师就能交付。上周我帮朋友的小餐馆上线扫码记账从拍第一张小票到APP里显示“今日营收¥2,348”总共用了4小时17分钟——其中3小时52分钟在等模型训练剩下15分钟写了个微信小程序前端。技术终将退场而解决实际问题的快感永远新鲜。

Donut端到端票据识别：小票图像直出结构化JSON

相关文章：

Donut端到端票据识别：小票图像直出结构化JSON

Python机器学习实战路线图：从EDA到模型部署的工业级路径

NotebookLM风格崩塌的7个隐性信号：从语义漂移到角色失焦，一文诊断并修复

AI Agent预测式防御：毫秒级故障预判与柔性干预

1756-PA75R直流冗余电源模块

云飞云 + SolidWorks服务器 = 10人研发共享方案，附硬件配置清单

Monk AI小样本分类实战：用几十张图快速构建可用AI模型

原神抽卡数据分析神器：告别盲目抽卡，用数据掌控你的欧皇之路

用随机森林实现手写大写字母识别的完整实践

AI驱动的数据操作系统：重构标注、治理与质量闭环

如何快速配置FanControl风扇控制：从安装到优化的完整指南

用随机森林实现手写英文字母识别（Python实战）

HS2汉化补丁终极指南：打造完美中文游戏体验的完整解决方案

诸侯割据：不是只有坏处——有些阶段，它是“必要的恶”

AI Agent 运行时革命：从上下文牢笼到可审计的会话日志

淘宝淘金币自动化终极指南：如何用5分钟完成30分钟日常任务

机器学习生产化：从Notebook到可运维ML服务的实战路径

Supermask：冻结权重+二值掩码的神经网络子结构发现方法

python旅游分享点评网系统

NoFences：免费开源的Windows桌面整理神器，让杂乱图标瞬间归位

python旅游出行指南系统

python拼装模型商城销售管理系统

兜兜转转又回到大浪浪的S05，遥看当年黑丝在，今朝尽染满头霜。

如何在3分钟内免费解决Windows HEIC缩略图预览难题

【设计模式 14】责任链：谁来拍板

【设计模式 13】命令：覆水能收

程序员想开 AI 会员：ChatGPT、Claude、Gemini 这些该怎么充值更省心？

摆脱论文困扰!高效论文写作全流程AI论文工具推荐（2026 最新）

xclabel是一款开源图像标注与模型训练工具，采用Python+Flask开发，跨平台支持Windows/Linux/Mac

ChatGPT API调用费用暴涨？揭秘token计费陷阱：5个被90%开发者忽略的隐性成本源