当前位置: 首页 > article >正文

JavaScript前端调用Ostrakon-VL-8B:实现浏览器内图片实时分析插件

JavaScript前端调用Ostrakon-VL-8B实现浏览器内图片实时分析插件你是不是经常在网上看到一张图片想知道里面有什么或者想快速提取图片里的文字信息以前这种功能往往需要依赖复杂的后端服务。但现在有了像Ostrakon-VL-8B这样的视觉语言大模型我们完全可以在前端用纯JavaScript直接在浏览器里实现图片的智能分析。今天我就带你一步步实现一个浏览器插件它能让你在浏览网页时右键点击任何图片就能立刻得到模型的“解读”——识别出图中的物体、文字甚至用框线把它们标出来。整个过程都在你的浏览器里完成既快速又保护隐私。1. 我们要做什么先看看最终效果在开始写代码之前我们先明确一下目标。我们要做的是一个浏览器插件Chrome Extension它的核心功能是右键菜单在网页的任何图片上点击右键会出现一个“分析此图片”的选项。前端调用点击后插件会用JavaScript读取这张图片并调用Ostrakon-VL-8B模型的API。结果展示模型会返回识别结果比如“一只猫在沙发上”以及图中各个物体的坐标框。视觉叠加前端JS会动态地在原图上根据坐标画出这些识别框让你一目了然。听起来是不是很酷整个过程图片数据不会离开你的浏览器如果API部署在本地或可信环境分析请求也是从前端直接发出。我们这就开始。2. 环境与工具准备要完成这个项目你需要准备几样东西。别担心都不复杂。2.1 一个可访问的Ostrakon-VL-8B API端点这是最关键的一步。Ostrakon-VL-8B模型本身需要部署在服务器上并提供API接口。对于本教程我们假设你已经有了这样一个可用的API端点。API假设我们假设你的API接受一个POST请求内容类型Content-Type为multipart/form-data其中包含一个名为image的图片文件字段。API的响应是一个JSON对象结构大致如下{ description: 一只橘猫躺在灰色的沙发上。, objects: [ { label: 猫, confidence: 0.95, bbox: [100, 150, 300, 250] // [x_min, y_min, x_max, y_max] }, { label: 沙发, confidence: 0.87, bbox: [50, 200, 350, 400] } ] }description: 对图片的整体描述。objects: 识别出的物体列表每个物体包含标签、置信度和边界框坐标。如何获取你可以使用CSDN星图镜像广场上提供的预置镜像快速部署或者在自己有GPU的服务器上部署模型并封装成简单的HTTP服务。本教程聚焦前端后端部署细节就不展开了。2.2 前端开发基础环境一个现代浏览器Chrome、Edge或Firefox的最新版。一个代码编辑器VS Code、Sublime Text等都可以。基础的HTML、CSS和JavaScript知识特别是对FileReader、Fetch API、Canvas绘图有基本了解会很有帮助。3. 创建浏览器插件骨架浏览器插件有固定的文件结构。我们在一个空文件夹里创建以下文件image-analysis-extension/ ├── manifest.json # 插件配置文件 ├── background.js # 后台脚本处理右键菜单 ├── content.js # 内容脚本注入到网页中 ├── popup.html # 插件弹出窗口的界面可选用于展示结果 ├── popup.js # 弹出窗口的逻辑可选 └── icon.png # 插件图标可选16x16或48x48像素3.1 配置 manifest.json这是插件的“身份证”告诉浏览器插件的基本信息、权限和能力。{ manifest_version: 3, name: 图片智能分析助手, version: 1.0, description: 使用Ostrakon-VL-8B模型实时分析网页图片, permissions: [ contextMenus, // 允许创建右键菜单 activeTab, // 获取当前标签页信息 scripting // 向页面注入脚本 ], host_permissions: [ all_urls // 允许在所有网站运行可根据需要限制 ], background: { service_worker: background.js }, content_scripts: [ { matches: [all_urls], js: [content.js], run_at: document_end } ], action: { default_popup: popup.html, default_icon: icon.png }, icons: { 16: icon.png, 48: icon.png, 128: icon.png } }关键点manifest_version: 3使用最新的Manifest V3规范。permissions我们申请了contextMenus右键菜单、activeTab和scripting权限。background.service_worker指定后台脚本它负责创建右键菜单项。content_scripts指定内容脚本content.js它会被自动注入到匹配的网页中负责与页面DOM交互例如画框。4. 编写核心逻辑从右键点击到图片分析4.1 后台脚本创建右键菜单 (background.js)这个脚本在插件安装后一直运行在后台不直接与网页交互。// 插件安装或更新时创建右键菜单项 chrome.runtime.onInstalled.addListener(() { chrome.contextMenus.create({ id: analyze-image, title: 分析此图片, contexts: [image] // 只在图片上显示此菜单 }); }); // 监听右键菜单项的点击事件 chrome.contextMenus.onClicked.addListener((info, tab) { if (info.menuItemId analyze-image) { // 用户点击了“分析此图片” // info.srcUrl 是图片的URL // tab.id 是当前标签页的ID // 首先向内容脚本发送消息告诉它开始处理这张图片 chrome.tabs.sendMessage(tab.id, { action: analyzeThisImage, imageUrl: info.srcUrl }).catch(error { // 如果发送失败例如内容脚本未加载尝试先注入脚本再发送 console.log(Content script not ready, injecting..., error); chrome.scripting.executeScript({ target: { tabId: tab.id }, files: [content.js] }).then(() { // 注入后稍等片刻再发送消息 setTimeout(() { chrome.tabs.sendMessage(tab.id, { action: analyzeThisImage, imageUrl: info.srcUrl }); }, 200); }); }); } });这段代码做了两件事插件启动时在图片的右键菜单里添加一个“分析此图片”的选项。当用户点击这个选项时获取被点击图片的URL并通过chrome.tabs.sendMessage方法将这个URL发送给当前网页中运行的content.js内容脚本。4.2 内容脚本处理图片与调用API (content.js)这是最核心的部分它运行在网页的上下文中可以访问和操作页面的DOM。// 监听来自后台脚本的消息 chrome.runtime.onMessage.addListener((request, sender, sendResponse) { if (request.action analyzeThisImage) { const imageUrl request.imageUrl; console.log(Received request to analyze:, imageUrl); // 1. 获取图片元素 // 注意info.srcUrl可能是一个blob URL或data URL我们需要先获取图片数据 fetch(imageUrl) .then(response response.blob()) // 获取图片的Blob对象 .then(imageBlob { // 2. 准备调用Ostrakon-VL-8B API return callVisionAPI(imageBlob); }) .then(analysisResult { // 4. 在图片上绘制识别框 drawBoundingBoxes(imageUrl, analysisResult); // 可以顺便在控制台输出描述 console.log(分析结果, analysisResult.description); }) .catch(error { console.error(分析过程出错, error); // 可以在这里添加用户提示例如显示一个错误弹窗 }); } // 保持消息通道开放如果需要异步sendResponse return true; }); // 3. 调用视觉API的函数 async function callVisionAPI(imageBlob) { // !!! 重要将这里的YOUR_API_ENDPOINT替换成你实际的API地址 !!! const API_ENDPOINT https://your-api-server.com/analyze; const formData new FormData(); formData.append(image, imageBlob, image.jpg); // image字段名需与后端匹配 try { const response await fetch(API_ENDPOINT, { method: POST, body: formData // 注意使用FormData时浏览器会自动设置Content-Type为multipart/form-data不要手动设置 }); if (!response.ok) { throw new Error(API请求失败: ${response.status}); } const result await response.json(); return result; // 返回我们之前假设的JSON结构 } catch (error) { console.error(调用API失败, error); throw error; // 将错误向上传递 } } // 5. 在图片上绘制边界框的函数 function drawBoundingBoxes(originalImageUrl, analysisResult) { // 找到页面上src属性匹配originalImageUrl的所有img元素 const images document.querySelectorAll(img[src${originalImageUrl}]); if (images.length 0) { console.warn(未在页面上找到对应的图片元素。); return; } // 对找到的每个图片元素进行处理同一张图可能在页面中出现多次 images.forEach(img { // 防止重复绘制 if (img.dataset.analyzed) return; // 标记已处理 img.dataset.analyzed true; // 创建一个容器来包裹原图和画布 const container document.createElement(div); container.style.position relative; container.style.display inline-block; // 保持img原有的布局方式 // 用容器替换原来的img元素 img.parentNode.insertBefore(container, img); container.appendChild(img); // 创建一个canvas元素大小与图片一致 const canvas document.createElement(canvas); const ctx canvas.getContext(2d); // 等待图片加载完成 if (img.complete) { setupCanvas(); } else { img.onload setupCanvas; } function setupCanvas() { canvas.width img.width; canvas.height img.height; canvas.style.position absolute; canvas.style.top 0; canvas.style.left 0; canvas.style.pointerEvents none; // 确保canvas不干扰鼠标事件 container.appendChild(canvas); // 开始绘制边界框 drawBoxes(ctx, analysisResult.objects, img.width, img.height); } }); } function drawBoxes(ctx, objects, imgWidth, imgHeight) { objects.forEach(obj { const bbox obj.bbox; // [x_min, y_min, x_max, y_max] // 注意API返回的坐标可能是归一化的0-1或绝对的。这里假设是绝对像素坐标。 // 如果是归一化坐标需要转换 // const x bbox[0] * imgWidth; // const y bbox[1] * imgHeight; // const width (bbox[2] - bbox[0]) * imgWidth; // const height (bbox[3] - bbox[1]) * imgHeight; const x bbox[0]; const y bbox[1]; const width bbox[2] - bbox[0]; const height bbox[3] - bbox[1]; // 绘制矩形框 ctx.strokeStyle #FF0000; // 红色框 ctx.lineWidth 2; ctx.strokeRect(x, y, width, height); // 绘制标签背景 ctx.fillStyle #FF0000; const text ${obj.label} (${(obj.confidence * 100).toFixed(1)}%); const textWidth ctx.measureText(text).width; ctx.fillRect(x, y - 20, textWidth 10, 20); // 绘制标签文字 ctx.fillStyle #FFFFFF; ctx.font 14px Arial; ctx.fillText(text, x 5, y - 5); }); }让我们拆解一下content.js的关键步骤监听消息等待后台脚本发来“分析图片”的指令和图片URL。获取图片数据使用fetch获取图片的Blob对象。这是前端处理二进制文件的标准方式。调用APIcallVisionAPI函数将图片Blob通过FormData组装用Fetch API发送POST请求到你的Ostrakon-VL-8B服务端。处理结果收到JSON响应后调用drawBoundingBoxes函数。绘制覆盖层找到页面中对应的img元素。创建一个div容器将其定位方式设为relative。创建一个canvas画布大小与原图一致定位方式设为absolute覆盖在图片上方。在画布上根据API返回的bbox坐标用红色矩形框画出识别区域并标上标签和置信度。5. 加载插件与测试打开Chrome浏览器进入扩展程序管理页面 (chrome://extensions/)。开启右上角的“开发者模式”。点击“加载已解压的扩展程序”选择你创建的image-analysis-extension文件夹。插件加载成功后访问一个包含图片的网页例如新闻网站。在任意图片上点击右键你应该能看到“分析此图片”的选项。点击它稍等片刻取决于你的API速度图片上就应该出现红色的识别框了6. 可能遇到的问题与进阶思路第一次尝试你可能会遇到一些问题这里有一些排查思路和优化方向CORS错误如果你的API服务器没有正确配置CORS跨域资源共享浏览器会阻止前端请求。你需要在后端API的响应头中添加Access-Control-Allow-Origin: *或你的插件ID。图片加载失败有些网站的图片受保护或需要认证。fetch可能无法直接获取。对于这些复杂情况可能需要更复杂的处理或者考虑让后台脚本(background.js)来下载图片。坐标系统不一致API返回的坐标可能是基于原始图片尺寸的而网页中的图片可能被CSS缩放。我们的drawBoxes函数目前假设坐标是绝对像素值且图片以原始尺寸显示。如果图片被缩放你需要根据img.naturalWidth和img.clientWidth的比例来计算正确的绘制坐标。添加交互界面我们可以完善popup.html和popup.js在点击插件图标时显示最近的分析历史或让用户输入自定义的提示词。性能优化对于大图可以先在前端进行压缩(canvas.toBlob)再上传减少网络传输量。错误处理与用户反馈增加加载动画、成功/失败提示提升用户体验。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

JavaScript前端调用Ostrakon-VL-8B:实现浏览器内图片实时分析插件

JavaScript前端调用Ostrakon-VL-8B:实现浏览器内图片实时分析插件 你是不是经常在网上看到一张图片,想知道里面有什么?或者想快速提取图片里的文字信息?以前,这种功能往往需要依赖复杂的后端服务。但现在,…...

忍者像素绘卷保姆级教程:从Docker Compose启动到UI界面汉化配置

忍者像素绘卷保姆级教程:从Docker Compose启动到UI界面汉化配置 1. 环境准备与快速部署 在开始使用忍者像素绘卷之前,我们需要先准备好运行环境并完成部署。这个步骤非常简单,即使你是Docker新手也能轻松完成。 1.1 系统要求 确保你的系统…...

【EKF实现2维平面上的SLAM】【EKF-SLAM】NWPU 最优估计课程设计(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

OpenCV基础:图像的通道分离与合并(RGB/BGR格式详解)

OpenCV基础:图像的通道分离与合并(RGB/BGR格式详解)📚 本章学习目标:深入理解图像的通道分离与合并(RGB/BGR格式详解)的核心概念与实践方法,掌握关键技术要点,了解实际应…...

我用AI Agent 20分钟造了一个全栈产品经理,覆盖前端+后端+AI大模型,产品从0到1全搞定!

我用AI Agent 20分钟造了一个全栈产品经理,覆盖前端后端AI大模型,产品从0到1全搞定!当别的PM还在用ChatGPT一个个问问题的时候,我已经把整个产品经理的知识体系打包成了一个AI技能包,随叫随到。前言 作为一个技术人&am…...

从Prompt CI到Agent CD:2026奇点大会披露的4层AI原生交付架构图,已获CNCF官方收录为参考模型

第一章:2026奇点智能技术大会:AI原生持续交付 2026奇点智能技术大会(https://ml-summit.org) AI原生持续交付(AI-Native Continuous Delivery)正重新定义软件工程的生命周期边界——它不再仅关注代码构建与部署,而是将…...

XXMI启动器:一站式二次元游戏模组管理平台的终极解决方案

XXMI启动器:一站式二次元游戏模组管理平台的终极解决方案 【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher XXMI启动器是一款革命性的开源模组管理平台,专为…...

RV1126边缘设备性能实测:YOLOv8s vs YOLOv8m,谁才是性价比之王?

RV1126边缘设备性能实测:YOLOv8s与YOLOv8m的终极对决 在嵌入式AI领域,选择适合硬件平台的模型版本往往比模型本身更重要。当我们将目光投向Rockchip RV1126这类边缘计算设备时,YOLOv8系列中的s(small)和m(m…...

5分钟构建企业级WebDAV文件共享解决方案:Go语言驱动的高性能部署指南

5分钟构建企业级WebDAV文件共享解决方案:Go语言驱动的高性能部署指南 【免费下载链接】webdav A simple and standalone WebDAV server. 项目地址: https://gitcode.com/gh_mirrors/we/webdav 在当今数字化办公环境中,企业级文件共享服务已成为基…...

YOLO-Master 与 YOLO 开始伪

AI Agent 时代的沙箱需求 从 Copilot 到 Agent:执行能力的质变 在生成式 AI 的早期阶段,应用主要以“Copilot”形式存在,AI 仅作为辅助生成建议。然而,随着 AutoGPT、BabyAGI 以及 OpenAI Code Interpreter(现为 Advan…...

从仿真到算法调参:深度优化你的Prescan红绿灯识别与刹车控制模型

深度优化Prescan红绿灯识别与刹车控制模型的五大进阶策略 在自动驾驶仿真领域,Prescan与Matlab/Simulink的组合已成为验证感知决策算法的黄金标准。但许多开发者在完成基础功能实现后,往往陷入模型性能瓶颈——光照变化导致误识别、刹车距离计算不精准、…...

D3KeyHelper终极指南:5步轻松掌握暗黑3智能按键操作

D3KeyHelper终极指南:5步轻松掌握暗黑3智能按键操作 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 你是否在暗黑破坏神3的高强度战斗中感…...

模型加载失败怎么办?Qwen3-4B-Instruct-2507排错流程图解

模型加载失败怎么办?Qwen3-4B-Instruct-2507排错流程图解 1. 问题排查思路与流程 当你使用vllm部署Qwen3-4B-Instruct-2507模型并遇到加载失败问题时,可以按照以下流程图进行系统排查: graph TDA[模型加载失败] --> B{检查模型服务状态…...

ccmusic-database在音乐平台的应用案例:自动打标、歌单智能分发落地实践

ccmusic-database在音乐平台的应用案例:自动打标、歌单智能分发落地实践 音乐平台每天都会涌入海量的新歌曲,如何快速准确地对这些歌曲进行分类打标,并智能地分发给喜欢相应风格的用户,一直是行业面临的挑战。ccmusic-database音…...

Genymotion模拟器安装与配置全攻略:从零开始搭建高效Android开发环境

1. 为什么选择Genymotion模拟器 如果你正在开发Android应用,肯定知道测试环节有多重要。官方模拟器虽然稳定,但那个启动速度和卡顿简直让人抓狂。我最早用Android Studio自带的模拟器,每次启动都要等上几分钟,调试时还经常卡死。后…...

AIGlasses_for_navigation性能调优实战:剖析操作系统级资源监控

AIGlasses_for_navigation性能调优实战:剖析操作系统级资源监控 你是不是也遇到过这种情况?好不容易把AIGlasses_for_navigation模型部署起来了,跑起来却总觉得有点“卡”,要么是响应慢半拍,要么是处理复杂场景时感觉…...

无需网络!cv_unet_image-colorization:纯本地AI照片上色工具部署

无需网络!cv_unet_image-colorization:纯本地AI照片上色工具部署 1. 引言:让历史照片重现光彩 翻开家中的老相册,那些泛黄的黑白照片承载着珍贵的记忆,却因缺乏色彩而显得年代久远。传统照片上色需要专业美术功底和大…...

避坑指南:ESP32用摇杆控制舵机,为什么你的舵机会抖?

ESP32摇杆控制舵机抖动问题全解析:从硬件设计到代码优化的完整避坑指南 当你兴奋地组装好ESP32、摇杆和舵机,准备实现酷炫的机械控制时,却发现舵机像得了帕金森一样不停抖动——这种挫败感我太熟悉了。经过数十个项目的实战积累,我…...

MedGemma-X快速入门:四步开启你的智能影像诊断之旅

MedGemma-X快速入门:四步开启你的智能影像诊断之旅 1. 引言:AI如何改变影像诊断 在繁忙的放射科,医生们每天需要审阅大量影像资料,从X光片到CT扫描,每一张图像背后都关系着患者的健康诊断。传统的工作流程不仅耗时费…...

从轮子直径到PID调参:编码器测速数据如何精准换算成实际速度(附单位换算避坑指南)

从脉冲到速度:编码器测速全流程实战指南 当你的机器人或智能车项目需要精确控制移动速度时,编码器测速的准确性直接决定了闭环控制的效果。但很多开发者都会遇到这样的困惑:为什么编码器读数看起来很大,但实际速度却与预期不符&am…...

从混乱到有序:用pd.to_numeric()高效清洗数据中的数字陷阱

1. 数据清洗中的数字陷阱:为什么需要pd.to_numeric() 刚入行数据分析时,我接手过一个电商价格分析项目。原始数据是从20个Excel表格合并而来,打开一看差点崩溃——价格字段里混着"199"、"199元"、"199.00"、&…...

GLM-4V-9B功能全解析:从图像描述到视觉推理,一站式体验

GLM-4V-9B功能全解析:从图像描述到视觉推理,一站式体验 1. 认识GLM-4V-9B:你的多模态AI助手 想象一下,你正在翻阅一本满是图表的外文杂志,突然遇到一张复杂的流程图,旁边配着你看不懂的文字说明。这时如果…...

最近搞了个串口转以太网的小工具,支持双向数据转发还带图形界面,顺手把源码整理出来了。这玩意儿最实用的地方在于能让老设备通过网口联网,咱们直接上干货聊聊实现细节

串口转以太网通信源代码C语言C编写支持多路转换双向通信支持UDP和TCP客户端 提供,带注释,带设计文档 使用说明介绍 1.功能介绍: 完成了多路网口和串口数据转换的功能。 可实现串口接收到的数据,通过网口发送出去;而网口…...

【优化微电网】多虚拟代理的模拟学习方法中断周期下的微电网能源优化【含Matlab源码 15305期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…...

免费Windows风扇控制神器:FanControl完全掌控你的电脑散热

免费Windows风扇控制神器:FanControl完全掌控你的电脑散热 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendin…...

【AI】mcp案例

MCP 协议操作流程示例(完整示例) 以下示例以查询“某天订单数量(query_orders)”为场景,演示 MCP 协议的完整五个步骤,包括初始化、工具发现、调用、返回结果和断开连接,并附带 OSM 场景示例。1…...

突破Cursor API限制:cursor-free-vip架构解密与设备指纹重构技术深度解析

突破Cursor API限制:cursor-free-vip架构解密与设备指纹重构技术深度解析 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youv…...

终极指南:5步掌握waifu2x-caffe图像超分辨率技术

终极指南:5步掌握waifu2x-caffe图像超分辨率技术 【免费下载链接】waifu2x-caffe waifu2xのCaffe版 项目地址: https://gitcode.com/gh_mirrors/wa/waifu2x-caffe waifu2x-caffe是一款基于深度学习的图像超分辨率工具,专门用于二次元插画和照片的…...

探索视觉框架VM PRO 2.7:强大功能与实践指南

视觉框架VM PRO 2.7版本,增加了机器人 流程框架 多任务流程 C#源码框架,机器视觉源码框架,编程语言C#,算法使用的是halcon,参考了cognex visionpro的输入输出,有C#基础和Halcon基础学习这个很好&#xff0c…...

终极指南:5步掌握UE5专业角色动画系统ALS-Community

终极指南:5步掌握UE5专业角色动画系统ALS-Community 【免费下载链接】ALS-Community Replicated and optimized community version of Advanced Locomotion System V4 for Unreal Engine 5.4 with additional features & bug fixes 项目地址: https://gitcode…...