当前位置: 首页 > article >正文

OpenClaw技能开发入门:为Phi-3-vision制作商品截图分析插件

OpenClaw技能开发入门为Phi-3-vision制作商品截图分析插件1. 为什么需要商品截图分析技能上周我在整理双十一购物清单时发现手动对比不同平台的商品价格和促销信息简直是一场噩梦。每次都要反复截图、整理、记录效率低下还容易出错。这让我意识到如果能用OpenClaw自动分析商品截图提取关键信息并生成比价报告该有多好。经过两天折腾我成功开发了一个基于Phi-3-vision模型的商品截图分析插件。这个技能可以自动识别截图中的商品名称、价格、促销标签提取商品规格参数和关键卖点生成结构化比价数据供后续分析最让我惊喜的是整个开发过程比想象中简单——从环境准备到技能发布只用了不到200行代码。下面我就分享这个插件的完整开发历程。2. 开发环境准备2.1 基础工具链配置首先确保本地已安装OpenClaw核心组件以macOS为例# 检查OpenClaw版本 openclaw --version # 安装ClawHub CLI工具 npm install -g clawhublatest2.2 Phi-3-vision模型接入在~/.openclaw/openclaw.json中添加模型配置{ models: { providers: { phi3-vision: { baseUrl: http://localhost:8000/v1, // vLLM服务地址 apiKey: your-api-key, api: openai-completions, models: [ { id: phi-3-vision-128k, name: Phi-3 Vision, contextWindow: 128000, vision: true } ] } } } }重启网关服务使配置生效openclaw gateway restart3. 技能开发全流程3.1 创建技能脚手架使用ClawHub初始化项目clawhub init screenshot-analyzer -t openclaw-skill cd screenshot-analyzer生成的标准目录结构包含package.json技能元数据src/index.js主逻辑文件configs/配置文件模板test/测试用例3.2 核心逻辑实现在src/index.js中编写分析逻辑const { BaseSkill } require(openclaw-sdk); class ScreenshotAnalyzer extends BaseSkill { async analyze(imagePath) { // 1. 图片预处理 const processedImage await this.preprocess(imagePath); // 2. 调用Phi-3-vision模型 const prompt 分析这张电商商品截图提取以下信息为JSON格式 - 商品名称 - 当前价格 - 原价如有折扣 - 促销标签 - 关键规格参数; const response await this.models.phi3Vision.chat({ messages: [{ role: user, content: [ { type: text, text: prompt }, { type: image_url, image_url: processedImage } ] }] }); // 3. 结果格式化 return this.formatResult(response.choices[0].message.content); } async preprocess(imagePath) { // 实现截图裁剪、尺寸调整等预处理 // 返回base64编码图像 } formatResult(rawText) { // 解析模型输出的JSON字符串 // 添加时间戳等元数据 } } module.exports ScreenshotAnalyzer;3.3 配置技能元数据在package.json中声明技能能力{ name: screenshot-analyzer, capabilities: { image_analysis: { description: 电商商品截图分析, parameters: { image_path: string } } } }4. 电商价格监控实战案例4.1 自动化监控脚本创建examples/price-monitor.js实现定时任务const claw require(openclaw); const analyzer require(../src); async function monitor() { // 1. 自动截图需配合浏览器插件 const screenshot await claw.capture(https://www.taobao.com); // 2. 调用分析技能 const result await analyzer.analyze(screenshot); // 3. 存储分析结果 await claw.db.insert(price_records, { product: result.name, current_price: result.price, timestamp: new Date() }); // 4. 价格波动提醒 if (result.price claw.env.get(ALERT_PRICE)) { await claw.notify(价格预警${result.name}降至${result.price}); } } // 每小时执行一次 claw.schedule(0 * * * *, monitor);4.2 结果可视化通过OpenClaw面板添加简单看板claw.dashboard.create(price-trend, { title: 价格趋势监控, type: line-chart, query: SELECT timestamp, current_price FROM price_records, refresh: 3600 // 每小时刷新 });5. 技能调试与发布5.1 本地测试方法启动调试模式clawhub dev --watch测试命令示例curl -X POST http://localhost:18789/skills/screenshot-analyzer/analyze \ -H Content-Type: application/json \ -d {image_path:/path/to/screenshot.png}5.2 发布到技能市场打包并发布技能clawhub pack clawhub publish --public发布后其他用户可通过以下命令安装clawhub install screenshot-analyzer6. 开发经验与避坑指南在实际开发中我遇到了几个典型问题图片尺寸问题Phi-3-vision对输入图像有尺寸限制需要在预处理阶段统一调整为1024x1024像素否则会导致API调用失败。结果格式化模型有时会返回非标准JSON我最终添加了JSON修复逻辑function safeParse(jsonStr) { try { return JSON.parse(jsonStr); } catch { // 尝试修复常见格式错误 const fixed jsonStr.replace(/(\w):/g, $1:); return JSON.parse(fixed); } }价格识别优化针对不同电商平台的价签样式我收集了100样例图片进行few-shot提示以下是价签示例 - ¥199 → 199 - 129.00 → 129 - 促销价: $99 → 99 请按相同格式解析...这个项目的完整代码已开源在GitHub包含更多细节处理和错误恢复逻辑。通过这次开发我深刻体会到OpenClaw技能生态的灵活性——不需要复杂架构就能快速实现有价值的自动化工具。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

OpenClaw技能开发入门:为Phi-3-vision制作商品截图分析插件

OpenClaw技能开发入门:为Phi-3-vision制作商品截图分析插件 1. 为什么需要商品截图分析技能 上周我在整理双十一购物清单时,发现手动对比不同平台的商品价格和促销信息简直是一场噩梦。每次都要反复截图、整理、记录,效率低下还容易出错。这…...

【2024最严苛压测实录】:FastAPI 2.0 + LLM流式响应如何在16K并发下保持P99<120ms?6项核心参数调优清单限时公开

第一章:FastAPI 2.0 异步 AI 流式响应性能调优全景图FastAPI 2.0 原生强化了对异步流式响应(StreamingResponse)的底层支持,尤其在大模型推理场景中,结合 async generator 与 httpx.AsyncClient 可实现端到端零拷贝流式…...

揭秘量子比特态演化模拟:用现代C++20实现HHL算法,内存开销降低73%的关键技巧

第一章:量子比特态演化模拟的理论基础与工程挑战 量子比特态演化模拟是连接量子力学原理与可执行计算任务的核心桥梁。其理论根基植根于薛定谔方程的幺正演化描述:任意闭合量子系统的时间演化由哈密顿量 $H(t)$ 决定,满足 $|\psi(t)\rangle …...

第7章 运算符-7.7 身份运算符

在Python中,身份运算符用于比较两个变量的内存地址引用是否相同。表7-7中列出了Python中的身份运算符, 在该表中,假设变量a的值为3,变量b的值为3。表7-7 身份运算符运算符描述实例is如果两个变量的内存地址引用相同,则返回True&am…...

第7章 运算符-7.6 成员运算符

成员运算符用于检查字符串、列表、元组、字典和集合中是否存在指定的元素。表7-6中列出了Python中的成员运算符,在该表中,假设变量a的值为3,变量lt的值为[1,2,3,4]。表7-6 成员运算符运算符描述实例in如果在字符串、列表、元组、字典和集合中…...

C++编译产物为何在边缘端频繁触发OOM?深度解析.lto、.eh_frame、.comment段的隐藏开销(含Bloaty对比报告)

第一章:C编译产物在边缘端触发OOM的根本动因边缘设备普遍受限于物理内存(如 512MB–2GB RAM)、无 Swap 分区、缺乏内存过载保护机制,而现代 C 编译器(如 GCC 11/Clang 14)默认启用的优化策略与运行时特性&a…...

Spring Cloud微服务架构下的医院信息系统深度解析与实践指南

Spring Cloud微服务架构下的医院信息系统深度解析与实践指南 【免费下载链接】HIS HIS英文全称 hospital information system(医疗信息就诊系统),系统主要功能按照数据流量、流向及处理过程分为临床诊疗、药品管理、财务管理、患者管理。诊疗…...

Outfit字体:9种字重+可变字体,解决现代设计中的品牌一致性难题

Outfit字体:9种字重可变字体,解决现代设计中的品牌一致性难题 【免费下载链接】Outfit-Fonts The most on-brand typeface 项目地址: https://gitcode.com/gh_mirrors/ou/Outfit-Fonts 你在构建数字产品时是否遇到过这样的困境:需要为…...

终极视频编码神器StaxRip:Windows平台最强大GUI工具完全指南

终极视频编码神器StaxRip:Windows平台最强大GUI工具完全指南 【免费下载链接】staxrip 🎞 Video encoding GUI for Windows. 项目地址: https://gitcode.com/gh_mirrors/st/staxrip 🎞️ 你是否正在寻找一款功能强大、灵活高效的视频编…...

如何在5分钟内搭建专属的Galgame视觉小说社区:TouchGAL完全指南

如何在5分钟内搭建专属的Galgame视觉小说社区:TouchGAL完全指南 【免费下载链接】kun-touchgal-next TouchGAL是立足于分享快乐的一站式Galgame文化社区, 为Gal爱好者提供一片净土! 项目地址: https://gitcode.com/gh_mirrors/ku/kun-touchgal-next 还在为找…...

重塑Obsidian代码块体验:从功能增强到知识管理升级

重塑Obsidian代码块体验:从功能增强到知识管理升级 【免费下载链接】obsidian-better-codeblock Add title, line number to Obsidian code block 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-better-codeblock 突破笔记局限:代码块美…...

Windows Subsystem for Android全流程实战攻略:从环境搭建到场景落地

Windows Subsystem for Android全流程实战攻略:从环境搭建到场景落地 【免费下载链接】WSA Developer-related issues and feature requests for Windows Subsystem for Android 项目地址: https://gitcode.com/gh_mirrors/ws/WSA Windows Subsystem for And…...

TensorSpace版本演进指南:从0.6.1到未来发展的完整路线图

TensorSpace版本演进指南:从0.6.1到未来发展的完整路线图 【免费下载链接】tensorspace Neural network 3D visualization framework, build interactive and intuitive model in browsers, support pre-trained deep learning models from TensorFlow, Keras, Tens…...

Harness十篇博客

propmt1. Harness engineering (OpenAI):关于如何通过约束与验证构建可靠agent-first软件的实践报告。​2. Building Effective AI Agents:Anthropic关于何时使用工作流或自治代理以及如何组织系统的实践指南。​3. Writing effective tools for AI agen…...

the-glorious-dotfiles 核心功能解析:从通知中心到屏幕录制

the-glorious-dotfiles 核心功能解析:从通知中心到屏幕录制 【免费下载链接】the-glorious-dotfiles A glorified personal dot files 项目地址: https://gitcode.com/gh_mirrors/th/the-glorious-dotfiles the-glorious-dotfiles 是一套功能丰富的个人配置文…...

如何为Wolverine贡献代码:从Bug报告到PR提交的完整指南

如何为Wolverine贡献代码:从Bug报告到PR提交的完整指南 【免费下载链接】wolverine 项目地址: https://gitcode.com/gh_mirrors/wo/wolverine Wolverine是一个能为Python脚本提供"再生修复能力"的工具,当脚本运行出错时,它…...

颠覆级开源模型Wan2.2-TI2V-5B:重新定义AI视频创作

颠覆级开源模型Wan2.2-TI2V-5B:重新定义AI视频创作 【免费下载链接】Wan2.2-TI2V-5B Wan2.2-TI2V-5B是一款开源的先进视频生成模型,基于创新的混合专家架构(MoE)设计,显著提升了视频生成的质量与效率。该模型支持文本生…...

AI的jieba分词原理与多模式应用解析

AI的jieba分词原理与多模式应用解析...

Android Topeka数据模型设计终极指南:Quiz、Category与Player类深度解析

Android Topeka数据模型设计终极指南:Quiz、Category与Player类深度解析 【免费下载链接】topeka A fun to play quiz that showcases material design on Android 项目地址: https://gitcode.com/gh_mirrors/to/topeka Topeka是一款基于Material Design的An…...

如何快速安装和配置Pop Shell:面向初学者的完整教程

如何快速安装和配置Pop Shell:面向初学者的完整教程 【免费下载链接】shell Pop!_OS Shell 项目地址: https://gitcode.com/gh_mirrors/sh/shell Pop Shell是一款功能强大的窗口管理扩展,专为提升Linux桌面操作效率设计。本教程将带您逐步完成Pop…...

G-Helper终极指南:如何用免费开源工具完美控制你的华硕游戏本

G-Helper终极指南:如何用免费开源工具完美控制你的华硕游戏本 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, St…...

如何轻松实现 Reactor Core 与 Java 9 Flow API 的完美集成:终极指南

如何轻松实现 Reactor Core 与 Java 9 Flow API 的完美集成:终极指南 【免费下载链接】reactor-core Non-Blocking Reactive Foundation for the JVM 项目地址: https://gitcode.com/gh_mirrors/re/reactor-core Reactor Core 是 JVM 平台上的非阻塞响应式基…...

手把手教你用S32K SDK和TCANLINPRO调试LIN总线主从通信(附Tomoss白盒实战)

手把手构建S32KTCANLINPRO的LIN总线开发实战:从硬件对接到协议栈调优 LIN总线作为汽车电子领域经典的辅助网络协议,在车门控制、座椅调节等场景中依然占据重要地位。对于刚接触汽车电子的开发者而言,如何快速搭建LIN通信调试环境往往是个令人…...

Anthropic 新政策与功能更新:AI 市场竞争下的博弈与挑战

Claude 新收费政策:第三方代理使用需额外付费上周末,Anthropic 告知订阅用户,若大量使用 Claude AI 模型驱动 OpenClaw 等第三方代理,需额外付费。月度订阅用户虽仍可通过第三方代理使用 Claude 模型,但需通过 Anthrop…...

OpenClaw+千问3.5-9B自动化测试:3种Python脚本异常处理方案

OpenClaw千问3.5-9B自动化测试:3种Python脚本异常处理方案 1. 为什么需要AI辅助的异常处理? 上周我在维护一个Python自动化测试套件时遇到了典型困境:凌晨3点被报警短信吵醒,发现某个核心测试脚本因SSL证书过期而崩溃。更糟糕的…...

突破云盘限速壁垒:开源直链解析工具的全场景应用方案

突破云盘限速壁垒:开源直链解析工具的全场景应用方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

eksctl成本优化终极指南:10个节省AWS费用的实用技巧

eksctl成本优化终极指南:10个节省AWS费用的实用技巧 【免费下载链接】eksctl The official CLI for Amazon EKS 项目地址: https://gitcode.com/gh_mirrors/ek/eksctl eksctl是Amazon EKS的官方命令行工具,为Kubernetes集群管理提供了简单高效的解…...

eksctl多集群管理终极指南:跨区域部署和统一运维实践

eksctl多集群管理终极指南:跨区域部署和统一运维实践 【免费下载链接】eksctl The official CLI for Amazon EKS 项目地址: https://gitcode.com/gh_mirrors/ek/eksctl eksctl作为Amazon EKS官方CLI工具,为用户提供了快速创建、管理和运维Kuberne…...

收藏!传统程序员转型AI大模型,5步落地指南(小白也能轻松上手)

AI大模型浪潮席卷全球,产业规模已突破5000亿美元,核心岗位缺口攀升至百万级,不少传统程序员都想抓住这波风口转型,但大多陷入迷茫——不知道从哪里切入,总担心自己没算法基础、不懂深度学习、数学功底薄弱,…...

React Native Tab View终极指南:快速构建音乐播放器和聊天应用

React Native Tab View终极指南:快速构建音乐播放器和聊天应用 【免费下载链接】react-native-tab-view A cross-platform Tab View component for React Native 项目地址: https://gitcode.com/gh_mirrors/re/react-native-tab-view React Native Tab View是…...