当前位置: 首页 > article >正文

OpenClaw+Phi-3-vision-128k-instruct数据标注:半自动生成图像标签训练集

OpenClawPhi-3-vision-128k-instruct数据标注半自动生成图像标签训练集1. 为什么需要半自动数据标注去年我在做一个宠物品种识别项目时最头疼的就是数据标注环节。手动给5000多张猫狗图片打标签不仅耗时耗力还容易因为疲劳导致标注错误。直到发现OpenClawPhi-3-vision这对组合才找到了效率与质量的平衡点。传统数据标注通常有两种极端要么完全人工标注准确但低效要么依赖现成API快速但昂贵且不可控。而OpenClaw作为本地化AI智能体框架配合Phi-3-vision多模态模型可以在本地实现AI预标注人工复核的混合工作流。这种模式特别适合需要保护数据隐私的中小规模项目。2. 环境准备与模型部署2.1 OpenClaw基础安装在Mac上安装OpenClaw只需要一条命令curl -fsSL https://openclaw.ai/install.sh | bash安装完成后我建议先运行配置向导。这里有个小技巧选择Advanced模式时记得勾选Skip for now跳过渠道配置因为我们暂时不需要飞书/钉钉集成openclaw onboard --mode Advanced2.2 Phi-3-vision模型接入由于Phi-3-vision需要GPU资源我选择使用星图平台预置的镜像。在OpenClaw配置文件中添加模型端点~/.openclaw/openclaw.json{ models: { providers: { phi3-vision: { baseUrl: http://your-phi3-endpoint/v1, apiKey: your-api-key, api: openai-completions, models: [ { id: phi-3-vision-128k-instruct, name: Phi-3 Vision Instruct, contextWindow: 131072 } ] } } } }配置完成后用这个命令测试连接openclaw models list3. 构建半自动标注流水线3.1 核心工作流设计我的标注系统包含三个关键环节预处理阶段OpenClaw自动遍历指定文件夹将图片批量上传至Phi-3-visionAI标注阶段模型根据预设prompt生成初始标签人工复核阶段通过Web界面修正标签最终导出标准格式3.2 实现关键代码创建自动化脚本auto_label.pyimport os from openclaw.sdk import ClawSDK from PIL import Image import json claw ClawSDK() def generate_prompt(image_path): return f 你是一个专业的数据标注员。请严格按以下要求处理图片 1. 识别图中主要对象如动物、商品、场景 2. 用JSON格式返回结果包含 - object_type: 主要对象类型 - attributes: 关键特征列表 - confidence: 识别置信度(0-1) 图片文件{image_path} def process_image_folder(folder_path): results [] for filename in os.listdir(folder_path): if filename.lower().endswith((.png, .jpg, .jpeg)): img_path os.path.join(folder_path, filename) prompt generate_prompt(img_path) response claw.models.chat( modelphi-3-vision-128k-instruct, messages[{role: user, content: prompt}], images[img_path] ) try: label_data json.loads(response.choices[0].message.content) results.append({ image: filename, label: label_data }) except json.JSONDecodeError: print(f解析失败{filename}) return results4. 实际应用中的优化技巧4.1 Prompt工程实践经过多次迭代我发现有效的prompt需要明确输出格式强制要求JSON结构避免自由文本限定识别范围对于宠物项目我会提示重点关注品种、毛色、姿态添加示例在prompt中包含1-2个标注样本改进后的prompt模板请按照以下示例标注图片 { object_type: cat, breed: British Shorthair, color: blue, pose: sitting, confidence: 0.92 } 当前图片需要标注 - 动物品种如果是猫狗 - 主要颜色 - 显著特征如异瞳、花纹等 - 姿态坐/站/卧等4.2 人工复核界面用Flask快速搭建了一个复核页面关键功能包括并排显示原图与AI生成标签一键修正错误字段快捷键支持快速导航from flask import Flask, render_template app Flask(__name__) app.route(/review) def review_labels(): # 加载AI生成的初步标注 with open(pre_labels.json) as f: pre_labels json.load(f) return render_template(review.html, labelspre_labels)5. 性能与效果评估在我的MacBook Pro(M1, 16GB)上测试处理速度平均每张图片3-5秒包括模型推理和结果保存准确率初始准确率约65%仅依赖模型经prompt优化后提升至82%人工复核后达到99%以上成本对比传统人工标注约0.1元/张纯API方案约0.03元/张本方案仅电费成本6. 踩坑与解决方案问题1模型幻觉导致标签混乱初期遇到模型会虚构不存在的特征比如给橘猫标注穿衣服。解决方案是在prompt中加入只描述视觉确认的特征的约束。问题2批量处理时的内存泄漏连续处理500图片后OpenClaw进程崩溃。通过两种方式解决每处理50张图片主动重启服务在脚本中添加内存监控import psutil import os def check_memory(): process psutil.Process(os.getpid()) if process.memory_info().rss 2 * 1024 * 1024 * 1024: # 2GB claw.restart_gateway()问题3特殊格式图片读取失败某些手机拍摄的HEIC格式无法处理。最终用这个预处理代码解决from pyheif import read_heif def convert_heic_to_jpg(heic_path): heif_file read_heif(heic_path) image Image.frombytes( heif_file.mode, heif_file.size, heif_file.data, raw, heif_file.mode, heif_file.stride, ) jpg_path heic_path.replace(.HEIC, .jpg) image.save(jpg_path, JPEG) return jpg_path7. 进阶应用方向这套方案经过简单改造还可以用于视频帧标注配合OpenClaw的定时截图功能实现视频关键帧提取与标注数据增强基于现有标签让Phi-3生成合理的变体描述多模态检索将标注结果存入向量数据库实现以图搜图以文搜图最近我正在尝试将标注结果自动转换为COCO格式直接用于YOLO训练。这需要处理多边形标注目前的方案是用Phi-3生成边界框坐标再通过OpenCV可视化复核。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

OpenClaw+Phi-3-vision-128k-instruct数据标注:半自动生成图像标签训练集

OpenClawPhi-3-vision-128k-instruct数据标注:半自动生成图像标签训练集 1. 为什么需要半自动数据标注 去年我在做一个宠物品种识别项目时,最头疼的就是数据标注环节。手动给5000多张猫狗图片打标签,不仅耗时耗力,还容易因为疲劳…...

Git-Credential-Manager-for-Windows安全存储机制深度解析:如何保护你的Git凭证安全 [特殊字符]

Git-Credential-Manager-for-Windows安全存储机制深度解析:如何保护你的Git凭证安全 🔐 【免费下载链接】Git-Credential-Manager-for-Windows Secure Git credential storage for Windows with support for Visual Studio Team Services, GitHub, and B…...

WebGLStudio.js虚拟文件系统完全指南:如何高效管理3D资源

WebGLStudio.js虚拟文件系统完全指南:如何高效管理3D资源 【免费下载链接】webglstudio.js A full open source 3D graphics editor in the browser, with scene editor, coding pad, graph editor, virtual file system, and many features more. 项目地址: http…...

文字的编码方式————不同UTF之间的区别

目录 1. 编码与字体 A. ASCII(American Standard Code for Information Interchange) B. ANSI C. UNICODE 2 . UNICODE 编码实现 (1)UTF-16 a. UTF-16 LE b. UTF-16 BE (2)UTF-8 (3&#xff…...

Protocol

在Python的世界里,Protocol这个概念,其实挺有意思的。它不是那种一上来就让人眼前一亮的语法糖,也不是什么解决具体问题的现成工具。它更像是一种约定,一种让代码“说清楚自己”的方式。如果你写过一段时间Python,尤其…...

TypeVar

## 关于Python里的TypeVar,你可能想知道的 最近在整理一些旧代码,翻到几年前写的一个通用缓存工具类,里面用到了TypeVar。当时注释里只简单写了一句“用于类型提示”,现在回头看,觉得可以展开聊聊这个东西。 TypeVar是…...

如何用Venera打造个性化漫画阅读体验?

如何用Venera打造个性化漫画阅读体验? 【免费下载链接】venera A comic app 项目地址: https://gitcode.com/gh_mirrors/ve/venera 你是否曾经感到市面上的漫画阅读应用千篇一律,界面设计缺乏个性?或者希望在深夜阅读时,应…...

全方位解析GBFR Logs:《碧蓝幻想:Relink》战斗数据分析平台

全方位解析GBFR Logs:《碧蓝幻想:Relink》战斗数据分析平台 【免费下载链接】gbfr-logs GBFR Logs lets you track damage statistics with a nice overlay DPS meter for Granblue Fantasy: Relink. 项目地址: https://gitcode.com/gh_mirrors/gb/gbf…...

性能测试中的“假阳性”:如何识别与避免?

在软件性能测试领域,“假阳性”是一个令测试团队既头疼又难以回避的挑战。它指的是测试报告或监控工具错误地发出性能警报,声称系统存在性能瓶颈或缺陷,但经过深入分析或在实际环境中验证,发现系统运行状态良好,并不存…...

Node.js企业级应用部署与运维完整方案:Google Cloud Platform实战指南

Node.js企业级应用部署与运维完整方案:Google Cloud Platform实战指南 【免费下载链接】nodejs-docs-samples Node.js samples for Google Cloud Platform products. 项目地址: https://gitcode.com/gh_mirrors/no/nodejs-docs-samples 想要构建稳定可靠的No…...

hello-uniapp自定义组件开发:打造属于你的UniApp组件库

hello-uniapp自定义组件开发:打造属于你的UniApp组件库 【免费下载链接】hello-uniapp uni-app框架演示示例 项目地址: https://gitcode.com/gh_mirrors/he/hello-uniapp UniApp作为一款优秀的跨平台开发框架,让开发者能够使用Vue.js语法编写一次…...

3个维度解析PhpWebStudy新版本:打造更稳定安全的本地开发环境

3个维度解析PhpWebStudy新版本:打造更稳定安全的本地开发环境 【免费下载链接】PhpWebStudy Lightweight Native Local Dev Toolbox for Windows, macOS & Linux. Run OpenClaw/n8n/Apache/Nginx/Caddy/Tomcat/PHP/Node.js/Bun/Deno/Python/Java/Go/Ruby/Perl/R…...

突破性能瓶颈:Rust如何重塑数据科学与AI的未来

突破性能瓶颈:Rust如何重塑数据科学与AI的未来 在当今数据驱动的时代,数据科学与AI领域正面临着前所未有的性能挑战。随着数据集规模的爆炸式增长和模型复杂度的不断提升,传统编程语言在处理高并发、大规模数据时逐渐显露出性能瓶颈。而Rust…...

Awesome Rust核心库精选:异步编程与网络开发

Awesome Rust核心库精选:异步编程与网络开发 本文深入探讨了Rust生态系统中的核心库,重点分析了异步运行时(Tokio与async-std)、网络编程库、HTTP客户端/服务器框架、数据序列化工具链以及密码学与安全相关库。通过对比分析各库的…...

RyTuneX:WinUI3驱动的Windows性能优化引擎

RyTuneX:WinUI3驱动的Windows性能优化引擎 【免费下载链接】RyTuneX RyTuneX is a cutting-edge optimizer built with the WinUI 3 framework, designed to amplify the performance of Windows devices. Crafted for both Windows 10 and 11. 项目地址: https:/…...

从数据小白到战斗大师:GBFR Logs如何帮你玩转《碧蓝幻想:Relink》

从数据小白到战斗大师:GBFR Logs如何帮你玩转《碧蓝幻想:Relink》 【免费下载链接】gbfr-logs GBFR Logs lets you track damage statistics with a nice overlay DPS meter for Granblue Fantasy: Relink. 项目地址: https://gitcode.com/gh_mirrors/…...

4大维度全面掌控Cyber Engine Tweaks:打造专属赛博朋克2077体验

4大维度全面掌控Cyber Engine Tweaks:打造专属赛博朋克2077体验 【免费下载链接】CyberEngineTweaks Cyberpunk 2077 tweaks, hacks and scripting framework 项目地址: https://gitcode.com/gh_mirrors/cy/CyberEngineTweaks 🌟 引擎核心&#x…...

MogFace-large模型版本管理实践:使用Docker镜像实现环境一致性

MogFace-large模型版本管理实践:使用Docker镜像实现环境一致性 你是不是也遇到过这样的场景?在本地电脑上跑得好好的MogFace-large人脸检测模型,一放到同事的机器或者服务器上,就各种报错:CUDA版本不对、Python包冲突…...

Anthropic一夜震撼升级:Claude获得「永久在线」,全球打工人变天

文章目录一、凌晨三点,你的电脑自己在加班二、从"睡美人"到"永动机":AI的觉醒之路1. 独立生存空间:专属侧边栏UI2. Webhook唤醒:AI开始自主感知世界3. 浏览器直连:深度集成Chrome三、CoworkConway…...

Fluxion多语言支持终极指南:从.lang文件到本地化shell脚本的完整实现

Fluxion多语言支持终极指南:从.lang文件到本地化shell脚本的完整实现 【免费下载链接】fluxion Fluxion is a remake of linset by vk496 with enhanced functionality. 项目地址: https://gitcode.com/gh_mirrors/fl/fluxion Fluxion是一款功能强大的无线网…...

低代码平台会取代程序员吗?面向软件测试从业者的专业深度分析

在数字化转型浪潮席卷各行各业的当下,低代码开发平台以其“可视化”、“拖拽式”和“快速交付”的特点,迅速成为企业信息化建设的热门工具。随之而来的,是一个萦绕在技术圈,尤其是软件开发与测试从业者心头的疑问:低代…...

轰动全国的“327国债期货事件”的四大赢家后来都怎么样了?

轰动全国的“327国债期货事件”的四大赢家后来都怎么样了?轰动全国的“327国债期货事件”,四大赢家28岁的魏东、29岁的袁宝璟、34岁的周正毅以及30岁的刘汉,一举实现资本原始积累,称霸一方。天道好还,四人最终悲剧谢幕…...

一键定位手机号码:免费开源的地理位置查询神器

一键定位手机号码:免费开源的地理位置查询神器 【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mirrors/lo/…...

Netbird iOS客户端连接问题分析与解决方案

Netbird iOS客户端连接问题分析与解决方案 Netbird作为一款优秀的P2P网络工具,在跨平台使用中可能会遇到一些兼容性问题。近期iOS客户端出现的连接异常现象引起了开发者社区的关注。本文将深入分析该问题的技术背景,并提供有效的解决方案。 问题现象描述…...

Windows 10终极清理:一键彻底卸载OneDrive完整指南

Windows 10终极清理:一键彻底卸载OneDrive完整指南 【免费下载链接】OneDrive-Uninstaller Batch script to completely uninstall OneDrive in Windows 10 项目地址: https://gitcode.com/gh_mirrors/on/OneDrive-Uninstaller 还在为Windows 10自带的OneDri…...

思源宋体完整使用指南:如何免费获得专业级中文字体解决方案

思源宋体完整使用指南:如何免费获得专业级中文字体解决方案 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还记得上次为商业项目挑选字体时的头疼经历吗?看着那…...

缠论可视化革命:四维分析模型如何重构交易决策逻辑

缠论可视化革命:四维分析模型如何重构交易决策逻辑 【免费下载链接】Indicator 通达信缠论可视化分析插件 项目地址: https://gitcode.com/gh_mirrors/ind/Indicator 一、问题重构:当技术分析成为交易认知的枷锁 凌晨3点,量化交易员陈…...

3步掌握本地语音合成:tts-vue离线语音包配置终极指南

3步掌握本地语音合成:tts-vue离线语音包配置终极指南 【免费下载链接】tts-vue 🎤 微软语音合成工具,使用 Electron Vue ElementPlus Vite 构建。 项目地址: https://gitcode.com/gh_mirrors/tt/tts-vue 还在为网络不稳定导致的语音…...

智能邮件中枢:OpenClaw+Qwen3.5-9B自动分类回复系统

智能邮件中枢:OpenClawQwen3.5-9B自动分类回复系统 1. 为什么需要自动化邮件处理 每天早晨打开邮箱,看到堆积如山的未读邮件时,那种窒息感我太熟悉了。作为外贸团队的独立开发者,我经常需要同时处理客户询盘、供应商报价、内部协…...

7个顶级CSS代码风格指南:Google、GitHub规范深度解析

7个顶级CSS代码风格指南:Google、GitHub规范深度解析 【免费下载链接】awesome-css :art: A curated contents of amazing CSS :) 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-css CSS代码风格指南是前端开发中确保代码质量、可维护性和团队协作一…...