当前位置: 首页 > article >正文

OpenClaw技能扩展实战:用Qwen3.5-9B构建图片分析工作流

OpenClaw技能扩展实战用Qwen3.5-9B构建图片分析工作流1. 为什么需要图片分析工作流作为一个经常需要处理大量图片的内容创作者我长期被三个问题困扰相册混乱难以查找、社交媒体配文耗时、截图信息整理低效。直到发现OpenClaw支持通过Skill扩展能力配合Qwen3.5-9B这类多模态模型才找到了自动化解决方案。传统图片管理工具往往只能完成单一任务而真正的痛点在于跨应用串联。比如从相册选图到生成配文再到发布需要在多个软件间反复切换。OpenClaw的价值在于能用自然语言指令串联整个流程让AI像人类助手一样看懂图片并执行复杂操作。2. 环境准备与核心组件2.1 基础环境配置我的工作环境是macOS 14.2已通过官方脚本完成OpenClaw基础安装curl -fsSL https://openclaw.ai/install.sh | bash openclaw onboard --install-daemon关键配置项选择模型提供商Qwen国内网络友好默认模型qwen-portal后续会替换为本地部署的Qwen3.5-9B技能模块全选基础能力包2.2 部署Qwen3.5-9B镜像使用星图平台的Qwen3.5-9B-AWQ-4bit镜像主要看中其多模态能力和4bit量化后的资源效率。通过平台控制台完成一键部署后获取到本地可访问的API地址// ~/.openclaw/openclaw.json 模型配置片段 { models: { providers: { local-qwen: { baseUrl: http://192.168.1.100:8080/v1, apiKey: sk-no-key-required, api: openai-completions, models: [ { id: qwen3.5-9b-awq, name: Local Qwen Vision, contextWindow: 32768, maxTokens: 4096 } ] } } } }配置完成后执行openclaw gateway restart重启服务通过openclaw models list验证模型状态。3. 图片处理技能安装与配置3.1 安装ClawHub核心技能包通过ClawHub CLI安装图片处理全家桶clawhub install image-organizer wechat-publisher screenshot-analyzer这三个技能包分别对应image-organizer基于内容的图片分类与标签管理wechat-publisher社交媒体图文发布前文已有介绍screenshot-analyzer截图关键信息提取与标注3.2 技能联动配置在~/.openclaw/workspace/TOOLS.md中设置工作目录和权限export PHOTO_DIR$HOME/Pictures/OpenClaw export SCREENSHOT_DIR$HOME/Desktop/Screenshots mkdir -p $PHOTO_DIR/{Raw,Sorted}特别需要注意MacOS的屏幕录制权限配置否则截图分析会失败。在系统设置 隐私与安全性 屏幕录制中为终端和OpenClaw服务启用权限。4. 三大场景实战演示4.1 场景一智能相册分类指令示例 请将~/Downloads/Photos下的图片按人物风景文档分类并生成各分类的摘要描述执行过程观察OpenClaw先调用image-organizer扫描目标目录对每张图片调用Qwen3.5进行多轮分析第一轮识别主体内容图片中包含两个人像和海滩背景第二轮确定分类应归类到人物-户外子类最终在$PHOTO_DIR/Sorted生成分类目录和summary.md## 分类摘要 - 人物(87张): 主要包含团队合影和旅游照片 - 风景(42张): 以海滩和山脉景观为主 - 文档(15张): 包含合同扫描件和手写笔记踩坑记录 初始阶段发现分类结果不稳定排查发现是模型temperature参数过高导致。在技能配置中增加temperature: 0.3约束后改善明显。4.2 场景二社交媒体配文生成指令示例 为$PHOTO_DIR/Sorted/风景/beach_01.jpg生成3条小红书风格的文案带合适的话题标签技术实现要点Qwen3.5接收图片base64编码和提示词prompt 作为社交媒体运营专家请根据图片内容 1. 用年轻女性喜欢的活泼语气写3条文案 2. 每条包含1个emoji和2个相关话题 3. 重点突出画面中的阳光、海浪元素模型返回结构化结果{ outputs: [ 被这片玻璃海治愈了谁说国内没有果冻海 #旅行治愈系 #小众海岛, ☀️ 阳光是最好的滤镜 根本不用P图 #原图直出 #海边拍照姿势, 摄影师男友的毕业作品 这构图绝了 #情侣旅行 #摄影技巧 ] }效率对比 手动撰写类似质量的文案平均需要8分钟/条而自动化流程仅耗时2分钟含图片上传时间。4.3 场景三截图信息标记典型工作流截取包含会议时间的微信聊天记录指令提取截图中的所有时间点用红色方框标记并生成日程提醒OpenClaw执行链路调用screenshot-analyzer进行OCR识别使用Qwen3.5理解时间上下文周三14:00是产品评审会输出带标记的图片和日历事件文件效果验证 测试20张包含复杂布局的截图时间信息识别准确率达到92%明显高于纯OCR工具平均65%。关键优势在于模型能理解下周三等相对时间表述。5. 性能优化与实践建议经过两周的持续使用总结出以下实用经验Token消耗管理启用技能包的缓存机制对相同图片的二次分析直接读取缓存对批量任务设置速率限制如每分钟最多处理5张图片监控命令示例openclaw stats --typetoken --rangeday错误处理方案 当遇到模型输出不稳定时我的应对策略是在技能配置中增加输出约束模板response_format: { type: json_object, schema: { category: {type: string, enum: [人物,风景,文档]} } }对关键任务设置自动重试机制人工复核高频出错场景的训练样本扩展可能性 当前工作流还可以进一步扩展对接云存储自动备份分类结果增加图片风格迁移等创意功能开发自定义技能实现业务特定需求获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

OpenClaw技能扩展实战:用Qwen3.5-9B构建图片分析工作流

OpenClaw技能扩展实战:用Qwen3.5-9B构建图片分析工作流 1. 为什么需要图片分析工作流 作为一个经常需要处理大量图片的内容创作者,我长期被三个问题困扰:相册混乱难以查找、社交媒体配文耗时、截图信息整理低效。直到发现OpenClaw支持通过S…...

WindowsCleaner:终极系统优化解决方案,彻底解决C盘空间不足问题

WindowsCleaner:终极系统优化解决方案,彻底解决C盘空间不足问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner WindowsCleaner是一款专为…...

第二章:OpenClaw(TsClaw)智能体飞书消息渠道接入指南

注册一个飞书企业 已有企业微信管理员的请跳过此步骤 https://www.feishu.cn/accounts/page/ug_register 注册后,配置企业信息,企业名称填写真实的,或者可以任意填写不做认证 配置飞书开发者应用 步骤一:登录飞书开发者平台&a…...

视频剪辑效率翻倍:Qwen3-ForcedAligner-0.6B自动字幕生成实战体验

视频剪辑效率翻倍:Qwen3-ForcedAligner-0.6B自动字幕生成实战体验 1. 为什么你需要这个字幕生成工具 手动添加字幕可能是视频制作过程中最耗时的环节之一。传统方法需要反复听录音、手动打轴、调整时间码,一个10分钟的视频可能需要花费1-2小时。而Qwen…...

新手必看:3步部署Yi-Coder-1.5B代码生成工具

新手必看:3步部署Yi-Coder-1.5B代码生成工具 1. 引言 作为一名开发者,你是否经常遇到这样的困扰:面对复杂编程任务时思路卡壳,或者需要快速切换多种编程语言却记不清语法细节?Yi-Coder-1.5B正是为解决这些问题而生的…...

简单理解:C++为什么要写类,我单独定义函数不可以吗?

不写类(单独函数) vs 写类(装进盒子)对比项不写类(单独函数)写类(LLM 类)代码样子String answer() {...}void save_history() {...}class LLM { String answer(); void save_history…...

高效整合B站缓存:智能合并技术让离线观看体验升级

高效整合B站缓存:智能合并技术让离线观看体验升级 【免费下载链接】BilibiliCacheVideoMerge 项目地址: https://gitcode.com/gh_mirrors/bi/BilibiliCacheVideoMerge 问题溯源:当缓存视频遭遇"数字拆分"困境 解码用户痛点&#xff1…...

Stable-Diffusion-v1-5-archive行业落地:教育课件配图、自媒体封面、独立游戏素材生成

Stable Diffusion v1.5 Archive:教育课件、自媒体封面与独立游戏素材的生成利器 1. 引言:一个经典模型,三个创意场景 如果你是一位教育工作者,是否曾为找不到合适的课件配图而烦恼?如果你是一名自媒体创作者&#xf…...

WaveTools鸣潮工具箱:游戏辅助工具性能增强与数据分析全攻略

WaveTools鸣潮工具箱:游戏辅助工具性能增强与数据分析全攻略 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools WaveTools鸣潮工具箱是一款专为《鸣潮》玩家打造的游戏辅助工具,集成性…...

正规DAPP的奖励,到底来自哪里?(Web3避坑指南)

市面上正规的DAPP项目,那些奖励到底源自何处?这是一个看似基础,却能筛选出绝大多数Web3坑的核心问题——很多人盲目追逐高收益,却从未深究“钱从哪来”,最终沦为资金盘的接盘侠。今天,我们就沉下心聊聊这个…...

千问3.5-27B指令微调指南:让OpenClaw更懂你的需求

千问3.5-27B指令微调指南:让OpenClaw更懂你的需求 1. 为什么需要定制化模型? 去年冬天,当我第一次用OpenClaw整理桌面文件时,发现一个有趣现象:当我输入"把上周的会议记录整理到项目文件夹"时,…...

UR机械臂ROS2驱动选型指南:深入对比Ethernet RTDE与EtherCAT,你的项目该怎么选?

UR机械臂ROS2驱动选型指南:Ethernet RTDE与EtherCAT深度对比与实战决策 在工业自动化与协作机器人领域,UR(Universal Robots)机械臂因其灵活性和易用性广受青睐。然而,当工程师们将UR机械臂集成到ROS2生态系统中时&…...

Omni-Vision Sanctuary 与低代码平台 Dify 集成:构建无需编程的 AI 图像生成工作流

Omni-Vision Sanctuary 与低代码平台 Dify 集成:构建无需编程的 AI 图像生成工作流 1. 引言:当视觉大模型遇上低代码平台 想象一下,电商公司的产品经理小王需要为即将上新的100款商品制作主图。传统方式需要找设计师一张张设计,…...

实测分享:Retinaface+CurricularFace镜像,人脸识别准确率超乎想象

实测分享:RetinafaceCurricularFace镜像,人脸识别准确率超乎想象 1. 测试背景与目标 在当今数字化时代,人脸识别技术已成为身份验证、安防监控和智能设备交互的核心组件。然而,面对市场上众多的人脸识别解决方案,开发…...

为什么说“季中调拨”能力,决定了服装企业的生死时速?

在服装行业,有一句老话:“做得好是时装,做不好是库存。”过去,这句话更多指向季末的积压。但今天,随着消费节奏加快、流行周期被压缩到以“周”为单位,真正的决胜点已经前移——季中调拨。季中调拨&#xf…...

TranslucentTB:轻量级Windows任务栏个性化解决方案

TranslucentTB:轻量级Windows任务栏个性化解决方案 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 项目价值:重新…...

云容笔谈·东方红颜与MATLAB联调:利用科学计算环境进行图像效果分析与优化

云容笔谈东方红颜与MATLAB联调:利用科学计算环境进行图像效果分析与优化 最近在尝试用“云容笔谈东方红颜”这类AI绘画工具生成一些特定风格的图像,效果确实挺惊艳的。但作为一个有点“数据控”倾向的人,我总在想:除了肉眼观察&a…...

EasyAnimateV5图生视频教程:如何用LoRA Alpha=0.55增强特定风格表现力

EasyAnimateV5图生视频教程:如何用LoRA Alpha0.55增强特定风格表现力 1. 了解EasyAnimateV5图生视频模型 EasyAnimateV5-7b-zh-InP是一个专门用于图生视频任务的AI模型,它能够将输入的静态图片转换为动态视频。这个模型有70亿参数,占用22GB…...

seo网络培训都有哪些就业方向

SEO网络培训的就业方向有哪些? 随着互联网的迅速发展,SEO网络培训成为越来越多人关注的职业选择。SEO(搜索引擎优化)作为数字营销的重要组成部分,已经深深融入了各行各业的运营模式中。SEO网络培训究竟有哪些就业方向…...

lora-scripts应用案例:电商主图自动生成,快速训练商品风格模型

LoRA-Scripts应用案例:电商主图自动生成,快速训练商品风格模型 1. 电商主图生成的痛点与解决方案 电商运营每天面临大量商品主图制作需求,传统方式存在三个核心痛点: 人力成本高:专业设计师单张主图制作成本50-200元…...

L2-047 锦标赛(递归解法)

L2-047 锦标赛分数 25作者 DAI, Longao单位 杭州百腾教育科技有限公司有 2k 名选手将要参加一场锦标赛。锦标赛共有 k 轮,其中第 i 轮的比赛共有 2k−i 场,每场比赛恰有两名选手参加并从中产生一名胜者。每场比赛的安排如下:对于第 1 轮的第 …...

GLM-4.1V-9B-Base在Web开发中的融合:Node.js后端服务集成实践

GLM-4.1V-9B-Base在Web开发中的融合:Node.js后端服务集成实践 1. 引言:当Node.js遇见多模态AI 想象一下,你的电商网站用户上传了一张商品图片,系统不仅能自动识别商品类别,还能生成吸引人的营销文案——这就是GLM-4.…...

STM32F103 基于输入捕获实现多路风扇转速的精准监测与滤波处理

1. 风扇测速的基本原理与硬件连接 风扇转速测量本质上是对脉冲信号的频率检测。普通三线风扇(带测速线)每转一圈会输出2个完整方波,这个信号通过霍尔传感器或光耦产生。测速线通常输出5V或3.3V的PWM信号,占空比固定为50%&#xf…...

Fish-Speech 1.5问题解决:常见错误排查,让你的TTS服务稳定运行

Fish-Speech 1.5问题解决:常见错误排查,让你的TTS服务稳定运行 1. 为什么你的Fish-Speech服务总在关键时刻掉链子? 上周我帮一个朋友排查他的语音合成服务故障,他的Fish-Speech 1.5在演示前突然罢工——WebUI能打开,…...

AI驱动的下一代云ERP:SAP Cloud ERP 2602 更新亮点小结

大家好,SAP Cloud ERP 2602版本更新了!2602的一个核心特点,是在保持标准化 SaaS 的前提下,将“嵌入式 AI 自然语言交互 Agentic AI”有机结合,让用户可以在熟悉的业务流程中,以对话方式完成信息查询、数据…...

Linux基础命令(四)

Linux基础命令(四) 1. 秘钥登录(Linux设备间登录) 1.1 环境准备 克隆2台虚拟设备【server1、server2】 # 新增2台设备的基本信息 server1 ip:10.1.8.21/24 hostname: server1.harvy.iCloud server2 ip: 10.1.8.22/24 h…...

px、em、rem、vw、vh、clamp 怎么选?

整理了一套单位使用规范,新手可以直接套用,不用再纠结怎么选,高效又避坑: /* 1. 根字号:设置rem基准,避免浏览器差异 */ html { font-size: 16px; }/* 2. 字体:rem(全局统一&#xf…...

终极RimWorld MOD管理指南:用RimSort告别模组冲突烦恼

终极RimWorld MOD管理指南:用RimSort告别模组冲突烦恼 【免费下载链接】RimSort RimSort is an open source mod manager for the video game RimWorld. There is support for Linux, Mac, and Windows, built from the ground up to be a reliable, community-mana…...

PyTorch深度学习框架之多分类交叉熵实现图像分类

目录:一、自定义小CNN实现手机分类1、代码示例2、代码解析一、自定义小CNN实现手机分类 1、代码示例 适合苹果/华为/小米 3分类手机识别,你可以直接改类别数适配你的任务: import torch import torch.nn as nn import torch.nn.functional…...

终极指南:如何使用 Deepin Boot Maker 快速制作 Linux 启动盘

终极指南:如何使用 Deepin Boot Maker 快速制作 Linux 启动盘 【免费下载链接】deepin-boot-maker 项目地址: https://gitcode.com/gh_mirrors/de/deepin-boot-maker Deepin Boot Maker 是一款由 Linux Deepin 团队开发的开源启动盘制作工具,它让…...