当前位置：首页 > news >正文

Node.js 多模态图像描述服务调用siliconflow：现代 JavaScript 实践

news 2026/2/9 14:39:37

Node.js 多模态图像描述服务：现代 JavaScript 实践

项目背景

本项目使用 Node.js 和 TypeScript 实现一个高性能的图像描述微服务，展示 JavaScript 在多模态 AI 应用中的强大能力。

技术栈

Node.js
TypeScript
Express.js
OpenAI API
dotenv
RxJS (可选，用于响应式编程)

项目初始化

# 创建项目目录
mkdir image-description-service
cd image-description-service# 初始化项目
npm init -y
npm install typescript ts-node @types/node
npm install express dotenv openai
npm install -D @types/express# 初始化 TypeScript 配置
npx tsc --init

环境配置 (.env)

# SiliconFlow API 配置
SILICONFLOW_API_KEY=sk-*******************************************
SILICONFLOW_BASE_URL=https://api.siliconflow.cn/v1

核心实现

1. 类型定义 (`types.ts`)

export interface ImageDescriptionRequest {imageUrl: string;language?: string;model?: string;
}export interface ImageDescriptionResponse {description: string;chunks: string[];metadata: {processingTime: number;model: string;};
}

2. 服务实现 (`imageDescriptionService.ts`)

import OpenAI from 'openai';
import dotenv from 'dotenv';
import { ImageDescriptionRequest, ImageDescriptionResponse 
} from './types';dotenv.config();export class ImageDescriptionService {private openai: OpenAI;constructor() {this.openai = new OpenAI({apiKey: process.env.SILICONFLOW_API_KEY,baseURL: process.env.SILICONFLOW_BASE_URL});}async describeImage(request: ImageDescriptionRequest): Promise<ImageDescriptionResponse> {const startTime = Date.now();try {const response = await this.openai.chat.completions.create({model: request.model || "Qwen/Qwen2-VL-72B-Instruct",messages: [{role: "user",content: [{type: "image_url",image_url: { url: request.imageUrl }},{type: "text",text: `用${request.language || '中文'}描述这张图片`}]}],stream: true});const chunks: string[] = [];let fullDescription = '';for await (const chunk of response) {const content = chunk.choices[0]?.delta?.content || '';if (content) {chunks.push(content);fullDescription += content;}}return {description: fullDescription,chunks,metadata: {processingTime: Date.now() - startTime,model: request.model || "Qwen/Qwen2-VL-72B-Instruct"}};} catch (error) {console.error('Image description error:', error);throw new Error('Failed to describe image');}}
}

3. Express 路由 (`app.ts`)

import express from 'express';
import { ImageDescriptionService } from './imageDescriptionService';const app = express();
const port = process.env.PORT || 3000;
const descriptionService = new ImageDescriptionService();app.use(express.json());app.post('/describe-image', async (req, res) => {try {const { imageUrl, language, model } = req.body;const result = await descriptionService.describeImage({imageUrl, language, model});res.json(result);} catch (error) {res.status(500).json({ error: error.message });}
});app.listen(port, () => {console.log(`服务运行在 http://localhost:${port}`);
});

4. 客户端调用示例 (`client.ts`)

import axios from 'axios';async function describeImage() {try {const response = await axios.post('http://localhost:3000/describe-image', {imageUrl: 'https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/dog.png',language: '中文'});console.log('图像描述:', response.data.description);console.log('处理时间:', response.data.metadata.processingTime, 'ms');} catch (error) {console.error('调用失败:', error);}
}describeImage();

部署与扩展

Docker 容器化

FROM node:16-alpine
WORKDIR /app
COPY package*.json ./
RUN npm install
COPY . .
EXPOSE 3000
CMD ["npm", "start"]

性能优化

缓存响应
连接池
限流
异步处理

监控与日志

Winston 日志
Prometheus 指标
OpenTelemetry 追踪

安全最佳实践

输入验证
速率限制
错误处理
敏感信息保护

立即体验

快来体验 siliconflow 图像描述服务：https://cloud.siliconflow.cn/i/vnCCfVaQ

Node.js 多模态图像描述服务调用siliconflow：现代 JavaScript 实践

Node.js 多模态图像描述服务：现代 JavaScript 实践项目背景本项目使用 Node.js 和 TypeScript 实现一个高性能的图像描述微服务，展示 JavaScript 在多模态 AI 应用中的强大能力。技术栈 Node.jsTypeScriptExpress.jsOpenAI APIdotenvRxJS (可选&a…...

编程日记 2025/2/13 0:29:31

机器学习数学基础：21.特征值与特征向量

一、引言在现代科学与工程的众多领域中，线性代数扮演着举足轻重的角色。其中，特征值、特征向量以及相似对角化的概念和方法，不仅是线性代数理论体系的核心部分，更是解决实际问题的有力工具。无论是在物理学中描述系统的振动模式…...

编程日记 2025/2/13 0:27:28

【目标检测json2txt】label从COCO格式json文件转YOLO格式txt文件

目录 🍀🍀1.COCO格式json文件 🌷🌷2.YOLO格式txt文件 💖💖3.xml2json代码（python） 🐸🐸4.输入输出展示 🙋🙋4.1输入json 🍂🍂4.2输出txt 整理不易，欢迎一键三连！！！送你们一条美丽的--分割线-- 🍀🍀1.COCO格式json文件 COCO数…...

编程日记 2025/2/13 0:22:23

强化学习之 PPO 算法：原理、实现与案例深度剖析

目录一、引言二、PPO 算法原理2.1 策略梯度2.2 PPO 核心思想三、PPO 算法公式推导3.1 重要性采样3.2 优势函数估计四、PPO 算法代码实现（以 Python 和 PyTorch 为例）五、PPO 算法案例应用5.1 机器人控制5.2 自动驾驶六、总结一、引言强化学习作为…...

编程日记 2025/2/13 0:21:22

vue-点击生成动态值，动态渲染回显输入框

1.前言动态点击生成数值，回显输入框，并绑定。 2.实现 <template><div style"display:flex;align-items: center;flex-direction:row"><a-input:key"inputKey"v-model"uploadData[peo.field]"placehold…...

编程日记 2025/2/13 0:16:15

高性能：OpenAI Triton Open-source GPU programming Language LINUX 环境配置

目录配置triton环境cudabuild-essential带有pip的python环境直接安装pipanaconda 安装 triton 环境pip install tritonpip install torch 运行test示例vector-add.pylaunch.json 配置triton环境 cuda wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_…...

编程日记 2025/2/13 0:15:11

TCP 端口号为何位于首部前四个字节？协议设计的智慧与启示

知乎的一个问题很有意思：“为什么在TCP首部中要把TCP的端口号放入最开始的四个字节？” 这种问题很适合我这种搞历史的人，大年初一我给出了一个简短的解释，但仔细探究这个问题，我们将会获得 TCP/IP 被定义的过程。文…...

编程日记 2025/2/13 0:14:09

HTML之JavaScript函数声明

HTML之JavaScript函数声明 1. function 函数名(){}2. var 函数名 function(){}<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1…...

编程日记 2025/2/13 0:13:08

R 数组：高效数据处理的基础

R 数组：高效数据处理的基础引言在数据科学和统计分析领域，R 语言以其强大的数据处理和分析能力而备受推崇。R 数组是 R 语言中用于存储和操作数据的基本数据结构。本文将详细介绍 R 数组的创建、操作和优化，帮助读者掌握 R 数组的使用技巧…...

编程日记 2025/2/13 0:12:06

git服务器搭建，gitea服务搭建，使用systemclt管理服务

文章目录页面展示使用二进制文件安装git服务下载选择架构使用wget下载安装验证 GPG 签名服务器设置准备环境创建systemctl文件备份与恢复备份命令 (dump)恢复命令 (restore) 页面展示使用二进制文件安装git服务所有打包的二进制程序均包含 SQLite，MySQL 和 Po…...

编程日记 2025/2/13 0:10:04

Pdf手册阅读（1）--数字签名篇

原文阅读摘要 PDF支持的数字签名， 不仅仅是公私钥签名，还可以是指纹、手写、虹膜等生物识别签名。PDF签名的计算方式，可以基于字节范围进行计算，也可以基于Pdf 对象（pdf object）进行计算。 PDF文件可能包…...

编程日记 2025/2/13 0:04:59

嵌入式WebRTC压缩至670K，目标将so动态库压缩至500K，.a静态库还可以更小

最近把EasyRTC的效果发布出去给各大IPC厂商体验了一下，直接就用EasyRTC与各个厂商的负责人进行的通话，在通话中，用户就反馈效果确实不错！ 这两天有用户要在海思hi3516cv610上使用EasyRTC，工具链是：gcc-2024…...

编程日记 2025/2/13 0:00:52

百度高德地图坐标转换

百度地图和高德地图的侧重点不太一样。同样一个地名，在百度地图网站上搜索到的地点可能是商业网点，在高德地图网站上搜索到的地点可能是自然行政地点。高德地图api 在高德地图中，搜索地名，如“乱石头川”，该地名会出…...

编程日记 2025/2/12 23:59:50

ES 索引结构

ES 既不像 MySQL 这样有严格的 Schema，也不像 MongoDB 那样完全无 Schema，而是介于两者之间。 1️⃣ ES 的 Schema 模式 ES 默认是 Schema-less（无模式） 的，允许动态添加字段。但 ES 也支持 Schema（映射 …...

编程日记 2025/2/12 23:54:43

HPM_SDK应用本地化——基于6750evkmini

文章目录前言一、准备工作1、下载官方的SDK2、解压SDK 二、实操1、新建目标工程文件夹2、回到SDK中将相关文件复制1、Borad文件夹2、hello_world文件夹三、实验现象总结前言为什么要对sdk进行应用本地化？在嵌入式开发中我们一般将官方提供的SDK作为参考&#x…...

编程日记 2025/2/12 23:49:38

【deepseek-r1本地部署】

首先需要安装ollama,之前已经安装过了，这里不展示细节在cmd中输入官网安装命令：ollama run deepseek-r1:32b，开始下载出现success后，下载完成接下来就可以使用了，不过是用cmd来运行使用可以安装UI可视化界面&a…...

编程日记 2025/2/12 23:43:33

查询语句来提取 detail 字段中包含 xxx 的 URL 里的 commodity/ 后面的数字串

您可以使用以下 SQL 查询语句来提取 detail 字段中包含 oss.kxlist.com 的 URL 里的 commodity/ 后面的数字串： <p><img style"max-width:100%;" src"https://oss.kxlist.com//8a989a0c55e4a7900155e7fd7971000b/commodity/20170925/20170…...

编程日记 2025/2/12 23:41:31

堆排序

目录堆排序（不稳定）： 代码实现： 思路分析： 总结： 堆排序（不稳定）： 如果想要一段数据从小到大进行排序，则要先建立大根堆，因为这样每次堆顶上都能…...

编程日记 2025/2/12 23:40:29

【MySQL】我在广州学Mysql 系列—— 数据备份与还原

ℹ️大家好，我是练小杰，今天周一，过两天就是元宵节了，今年元宵节各位又要怎么过呢！！ 本文主要对Mysql数据库中的数据备份与还原内容进行讨论！！ 回顾：👉【MySQ…...

编程日记 2025/2/12 23:32:19

【LeetCode Hot100 双指针】移动零、盛最多水的容器、三数之和、接雨水

双指针 1. 移动零题目描述解题思路关键思路：步骤：时间复杂度：空间复杂度： 代码实现 2. 盛最多水的容器题目解析解题思路代码实现 3. 三数之和问题描述：解题思路：算法步骤：代码实现： …...

编程日记 2025/2/12 23:27:13

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/9/23 15:13:40

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/7 23:18:28

SciencePlots——绘制论文中的图片

文章目录安装一、风格二、1 资源安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源论文绘图神器来了：一行…...

编程新知 2025/9/8 13:50:07

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2026/1/24 14:31:01

06 Deep learning神经网络编程基础激活函数 --吴恩达

深度学习激活函数详解一、核心作用引入非线性：使神经网络可学习复杂模式控制输出范围：如Sigmoid将输出限制在(0,1)梯度传递：影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

编程新知 2025/11/17 21:48:26

ios苹果系统，js 滑动屏幕、锚定无效

现象：window.addEventListener监听touch无效，划不动屏幕，但是代码逻辑都有执行到。 scrollIntoView也无效。原因：这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作，从而会影响…...

编程新知 2026/2/4 19:47:03

OpenLayers 分屏对比(地图联动)

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能，和卷帘图层不一样的是，分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

编程新知 2025/12/25 18:22:43

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

编程新知 2026/2/8 1:58:01

力扣-35.搜索插入位置

题目描述给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。 class Solution {public int searchInsert(int[] nums, …...

编程新知 2025/12/3 3:22:43

重启Eureka集群中的节点，对已经注册的服务有什么影响

先看答案，如果正确地操作，重启Eureka集群中的节点，对已经注册的服务影响非常小，甚至可以做到无感知。但如果操作不当，可能会引发短暂的服务发现问题。下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

编程新知 2025/9/24 3:38:34