当前位置: 首页 > article >正文

OpenClaw技能开发入门:为Phi-3-vision-128k-instruct编写图片转Markdown插件

OpenClaw技能开发入门为Phi-3-vision-128k-instruct编写图片转Markdown插件1. 为什么需要这个技能上周整理技术文档时我遇到了一个典型痛点需要将十几张包含代码片段的截图转换成可编辑的Markdown格式。手动转录不仅耗时还容易出错。这让我意识到如果能利用Phi-3-vision-128k-instruct的多模态能力结合OpenClaw的自动化框架应该能实现截图自动转Markdown的工作流。这个需求在技术写作中非常普遍会议白板拍照转会议纪要纸质笔记数字化归档网页内容截图转结构化文档演示文稿内容提取传统OCR工具如Tesseract对非标准字体和混合排版效果欠佳而Phi-3-vision这类多模态大模型能理解图像中的语义关系更适合处理复杂场景。2. 开发环境准备2.1 基础组件安装我的开发环境是macOS Ventura已通过Homebrew安装Node.js 20brew install node20 npm install -g openclawlatest clawhub install skill-dev-kit验证环境是否就绪openclaw --version # 应输出v3.2 clawhub list --installed | grep skill-dev-kit # 确认开发套件存在2.2 模型服务对接Phi-3-vision-128k-instit的vLLM服务部署在本地端口5001修改OpenClaw配置文件~/.openclaw/openclaw.json{ models: { providers: { phi3-vision: { baseUrl: http://localhost:5001/v1, apiKey: NULL, api: openai-completions, models: [ { id: phi-3-vision-128k-instruct, name: Phi-3 Vision Local, contextWindow: 131072, vision: true } ] } } } }重启网关使配置生效openclaw gateway restart3. 技能开发实战3.1 创建技能骨架使用开发套件初始化项目mkdir image2md cd image2md clawhub skill init --nameimage2md --authoryourname生成的目录结构包含关键文件image2md/ ├── package.json ├── skill.json # 技能元数据 ├── src/ │ ├── index.js # 主逻辑 │ └── prompts/ # 系统提示词 └── test/ └── sample.png # 测试图片3.2 核心逻辑实现修改src/index.js主要实现三个功能接收图片路径输入调用Phi-3-vision进行图文理解输出结构化Markdownconst { BaseSkill } require(skill-dev-kit); const fs require(fs); module.exports class Image2MdSkill extends BaseSkill { constructor() { super({ name: image2md, description: Convert images to structured Markdown using Phi-3-vision }); } async execute({ input }) { const imagePath input.image_path; if (!fs.existsSync(imagePath)) { throw new Error(Image file not found); } const imageBase64 fs.readFileSync(imagePath, base64); const visionPrompt 你是一个专业的技术文档工程师。请将图片中的内容转换为结构化的Markdown文档保留所有代码块、表格和标题层级。如果是手写内容请保持原意但优化表述。; const response await this.models.phi3_vision.chat.completions.create({ model: phi-3-vision-128k-instruct, messages: [ { role: user, content: [ { type: text, text: visionPrompt }, { type: image_url, image_url: data:image/png;base64,${imageBase64} } ] } ], max_tokens: 4096 }); return { markdown: response.choices[0].message.content, image: imagePath }; } };3.3 提示词优化在src/prompts/system.md中添加多轮对话优化提示你正在处理图片转Markdown任务需要特别注意 1. 代码块保持原样标注正确语言类型 2. 表格用Markdown语法重建保留表头 3. 数学公式转换为LaTeX格式 4. 手写文字需校验关键术语拼写 5. 标题层级不超过###三级4. 测试与调试4.1 单元测试创建测试脚本test/test.jsconst skill require(../src/index); const testImage ./test/sample.png; (async () { try { const result await skill.execute({ input: { image_path: testImage } }); console.log(Conversion Result:\n, result.markdown); fs.writeFileSync(output.md, result.markdown); } catch (error) { console.error(Test Failed:, error); } })();运行测试node test/test.js4.2 常见问题解决在开发过程中我遇到了几个典型问题图片尺寸过大现象模型返回截断内容解决添加图片预处理步骤超过1024px的图片自动缩放混合内容识别错误现象代码块被识别为普通文本优化在提示词中强调代码块必须用包裹中文编码问题现象部分中文乱码解决在返回结果前强制UTF-8编码校验5. 发布与使用5.1 打包技能clawhub skill pack --outputimage2md.claw5.2 安装到OpenClawclawhub install ./image2md.claw openclaw gateway restart5.3 实际使用示例现在可以通过自然语言指令调用该技能请将~/Downloads/meeting_notes.png转换成Markdown文档并保存到~/Documents/transformed.mdOpenClaw会自动定位图片文件调用Phi-3-vision进行识别输出格式化文档保存到指定路径6. 进阶优化方向在实际使用两周后我发现几个值得改进的点首先是处理速度优化。对于包含大量文字的高清截图可以先用本地OCR进行初筛只将低置信度的区域交给大模型处理这样能减少约40%的Token消耗。其次是上下文记忆功能。当处理同一文档的多张截图时应该保持标题层级和术语的一致性这需要技能具备短期记忆能力。我通过在技能类中添加context属性实现了这个特性。最后是输出格式的定制化。不同用户可能偏好不同的Markdown风格比如有的喜欢表格用管道符有的偏好HTML表格。好的做法是在技能配置中增加样式选项。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

OpenClaw技能开发入门:为Phi-3-vision-128k-instruct编写图片转Markdown插件

OpenClaw技能开发入门:为Phi-3-vision-128k-instruct编写图片转Markdown插件 1. 为什么需要这个技能 上周整理技术文档时,我遇到了一个典型痛点:需要将十几张包含代码片段的截图转换成可编辑的Markdown格式。手动转录不仅耗时,还…...

南北阁Nanbeige 4.1-3B生成效果:Python入门学习路径规划与习题生成

南北阁Nanbeige 4.1-3B生成效果:Python入门学习路径规划与习题生成 最近在尝试各种AI模型,想看看它们在实际应用场景里到底能帮上什么忙。正好有个朋友想学Python,问我有没有好的学习路线推荐。我手头事情多,没法给他从头到尾规划…...

OpenClaw模型微调:为Qwen2.5-VL-7B注入专业领域识别能力

OpenClaw模型微调:为Qwen2.5-VL-7B注入专业领域识别能力 1. 为什么需要专业领域微调? 去年我在尝试用OpenClaw构建一个医疗影像辅助分析工具时,发现现成的多模态模型在描述X光片时总会出现一些令人啼笑皆非的错误。比如把正常的肺部纹理识别…...

DS3231M高精度RTC驱动开发与工业级实时时钟工程实践

1. DS3231M高精度实时时钟库深度解析与嵌入式工程实践DS3231M是Maxim Integrated(现为Analog Devices)推出的工业级IC接口实时时钟芯片,其核心价值在于2 ppm的温度补偿精度(-40C至85C全温域)、内置TCXO(温度…...

CYBER-VISION零号协议在STM32F103C8T6最小系统板开发中的实战指南

CYBER-VISION零号协议在STM32F103C8T6最小系统板开发中的实战指南 如果你手头正好有一块经典的“蓝板子”——STM32F103C8T6最小系统板,想用它做点东西,但又觉得从零开始配置寄存器、调试外设有点头疼,那这篇文章就是为你准备的。我们今天要…...

丹青识画效果实测:中式书法+水墨留白的AI影像理解作品集

丹青识画效果实测:中式书法水墨留白的AI影像理解作品集 1. 引言:当AI遇见水墨丹青 想象一下,你拍了一张照片,上传后,屏幕上不是冷冰冰的“人物、风景、建筑”这类标签,而是一行行如行云流水般的行草书法&…...

告别复杂配置!Qwen-Image-2512图片生成服务保姆级部署教程

告别复杂配置!Qwen-Image-2512图片生成服务保姆级部署教程 1. 为什么选择这个镜像? 在AI图片生成领域,Qwen-Image-2512模型以其出色的中文理解和图像质量著称。但传统部署方式往往需要面对以下挑战: 复杂的Python环境配置数十G…...

micropython编译固件

虚拟机Oracle VirtualBox https://blog.csdn.net/weixin_42029523/article/details/144022677 新建-硬盘空间40GB-安装增强功能-其他 安装Ubuntu系统 如果共享文件夹需要连接,第一个share是win的文件夹,chen是虚拟机名字,share是虚拟机文件夹 sudo …...

Go的runtime.LockOSThread:将goroutine绑定到系统线程

Go语言以其轻量级的goroutine和高效的并发模型著称,但在某些特殊场景下,开发者需要更精细地控制goroutine与系统线程的绑定关系。这时,runtime.LockOSThread便成为了一个关键工具。本文将深入探讨这一机制,帮助读者理解其原理、应…...

7个专家级策略:MVP.css长期项目维护完全指南

7个专家级策略:MVP.css长期项目维护完全指南 【免费下载链接】mvp MVP.css — Minimalist classless CSS stylesheet for HTML elements 项目地址: https://gitcode.com/gh_mirrors/mv/mvp MVP.css是一款极简主义的无类CSS样式表,为HTML元素提供开…...

实时多人姿态估计终极指南:多尺度特征提取技术深度解析

实时多人姿态估计终极指南:多尺度特征提取技术深度解析 【免费下载链接】Realtime_Multi-Person_Pose_Estimation Code repo for realtime multi-person pose estimation in CVPR17 (Oral) 项目地址: https://gitcode.com/gh_mirrors/re/Realtime_Multi-Person_Po…...

如何优雅处理Fumadocs错误:打造用户友好的异常捕获与错误页面

如何优雅处理Fumadocs错误:打造用户友好的异常捕获与错误页面 【免费下载链接】fumadocs The beautiful & flexible React.js docs framework. 项目地址: https://gitcode.com/GitHub_Trending/fu/fumadocs 在开发React.js文档网站时,错误处理…...

实时多人姿态估计终极指南:从理论到实践的技术突破

实时多人姿态估计终极指南:从理论到实践的技术突破 【免费下载链接】Realtime_Multi-Person_Pose_Estimation Code repo for realtime multi-person pose estimation in CVPR17 (Oral) 项目地址: https://gitcode.com/gh_mirrors/re/Realtime_Multi-Person_Pose_E…...

G-Helper终极指南:3分钟解锁华硕笔记本隐藏性能,告别臃肿控制中心!

G-Helper终极指南:3分钟解锁华硕笔记本隐藏性能,告别臃肿控制中心! 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting acr…...

Dunst多显示器支持终极指南:在不同屏幕间智能分配通知

Dunst多显示器支持终极指南:在不同屏幕间智能分配通知 【免费下载链接】dunst Lightweight and customizable notification daemon 项目地址: https://gitcode.com/gh_mirrors/du/dunst Dunst是一款轻量级且高度可定制的通知守护进程(notificatio…...

终极指南:OpenSign OTP验证和文档拒绝机制详解

终极指南:OpenSign OTP验证和文档拒绝机制详解 【免费下载链接】OpenSign 🔥 The free & Open Source DocuSign alternative 项目地址: https://gitcode.com/gh_mirrors/op/OpenSign OpenSign作为免费开源的DocuSign替代方案,提供…...

解锁XUnity.AutoTranslator潜力:7步打造高效游戏汉化解决方案

解锁XUnity.AutoTranslator潜力:7步打造高效游戏汉化解决方案 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator XUnity.AutoTranslator是一款专为Unity游戏设计的开源实时翻译工具,能…...

Wan2.2-I2V-A14B企业知识库联动:从内部文档自动生成培训视频

Wan2.2-I2V-A14B企业知识库联动:从内部文档自动生成培训视频 1. 企业知识管理的新范式 在当今快节奏的商业环境中,企业知识管理正面临前所未有的挑战。传统文档形式的培训材料往往存在几个痛点: 更新不及时导致信息滞后员工学习效率低下知…...

从USB2.0协议到Zynq7000实现:手把手拆解一次完整的批量传输(Bulk Transfer)

从USB2.0协议到Zynq7000实现:深入解析批量传输的硬件协同机制 USB批量传输(Bulk Transfer)作为最基础的数据传输模式之一,在嵌入式系统中扮演着关键角色。本文将带您深入理解USB2.0协议中批量传输的完整流程,并揭示Zyn…...

基于S7-200控制的全方位自动洗车系统设计与实现:包含设计手册、PLC程序、仿真与实际接线全图解

基于S7-200控制的自动洗车系统设计 本设计包括设计说明书,PLC程序,组态仿真,I/O接口,带注释程序pdf版,接线图,控制电路图,主电路图,PLC接线图,顺序功能图。 总体设计系统…...

React on Rails 终极集成指南:React 18/19 与 Rails 7/8 的未来展望

React on Rails 终极集成指南:React 18/19 与 Rails 7/8 的未来展望 【免费下载链接】react_on_rails Integration of React Webpack Rails including server-side rendering of React, enabling a better developer experience and faster client performance. …...

解锁Noria查询重用机制:如何智能复用数据流组件实现应用性能飞跃

解锁Noria查询重用机制:如何智能复用数据流组件实现应用性能飞跃 【免费下载链接】noria Fast web applications through dynamic, partially-stateful dataflow 项目地址: https://gitcode.com/gh_mirrors/no/noria 在现代Web应用开发中,性能优化…...

肿瘤研究者的monocle3实战:追踪癌细胞转移路径的5个关键分析步骤

肿瘤研究者的monocle3实战:追踪癌细胞转移路径的5个关键分析步骤 乳腺癌转移机制的研究一直是肿瘤学领域的难点。单细胞RNA测序技术让我们有机会在单个细胞分辨率下观察肿瘤微环境的异质性,而monocle3作为当前最先进的轨迹推断工具,能够帮助研…...

Qwen-Image-Edit-F2P结合YOLOv8实现智能人像编辑:目标检测应用案例

Qwen-Image-Edit-F2P结合YOLOv8实现智能人像编辑:目标检测应用案例 你有没有想过,给照片里的人换个发型、加副眼镜,或者换个背景,能有多简单?过去这可能需要专业的设计师,花上不少时间在Photoshop里一点点…...

南北阁4.1-3B极简WebUI入门必看:无需React/Vue的纯Python前端方案

南北阁4.1-3B极简WebUI入门必看:无需React/Vue的纯Python前端方案 想给本地部署的南北阁(Nanbeige)4.1-3B大模型配一个好看又好用的聊天界面,是不是一想到要学React、Vue这些前端框架就头大?或者觉得Streamlit做出来的…...

gte-base-zh效果惊艳:中文歌词风格迁移与语义相似度混合推荐

gte-base-zh效果惊艳:中文歌词风格迁移与语义相似度混合推荐 重要提示:本文所有内容仅供技术学习交流,严禁用于任何商业用途或违法活动。使用即表示同意自行承担所有责任。 1. 快速了解gte-base-zh模型 gte-base-zh是阿里巴巴达摩院训练的中…...

极客专属:OpenClaw命令行操控Qwen3-14B镜像高级技巧

极客专属:OpenClaw命令行操控Qwen3-14B镜像高级技巧 1. 为什么需要命令行操控OpenClaw 第一次接触OpenClaw时,我和大多数人一样被它的Web控制台吸引。可视化界面确实降低了使用门槛,但当我尝试构建自动化工作流时,发现图形界面反…...

OpenClaw学习助手:Qwen3-4B自动整理课程视频字幕与重点

OpenClaw学习助手:Qwen3-4B自动整理课程视频字幕与重点 1. 为什么需要AI学习助手 作为一个经常通过在线课程充电的技术从业者,我长期被一个问题困扰:看完几个小时的教学视频后,很难系统性地回顾重点内容。传统做法是边看边记笔记…...

AnimateDiff文生视频提示词工程:动作敏感型Prompt结构设计与优化方法

AnimateDiff文生视频提示词工程:动作敏感型Prompt结构设计与优化方法 AnimateDiff 文生视频:基于 SD 1.5 Motion Adapter | 文本生成动态视频 (Text-to-Video) | 显存优化版 1. 项目简介 AnimateDiff是一个轻量级的AI视频生成工具,它最大的…...

终极指南:Sapiens核心架构解析——从300万图像预训练到多任务微调的完整路径

终极指南:Sapiens核心架构解析——从300万图像预训练到多任务微调的完整路径 【免费下载链接】sapiens High-resolution models for human tasks. 项目地址: https://gitcode.com/gh_mirrors/sa/sapiens Sapiens是一个专注于高分辨率人体任务的深度学习模型项…...