当前位置：首页 > news >正文

基于NVIDIA NIM平台实现盲人过马路的demo(一)

news 2026/2/9 15:00:31

前言:利用NVIDIA NIM平台提供的大模型进行编辑,通过llama-3.2-90b-vision-instruct模型进行初步的图片检测

step1:

部署大模型到本地,引用所需要的库

import os
import requests
import base64
import cv2
import time
from datetime import datetime

step2:

观看官方使用文档:

import requests, base64
invoke_url = ""
stream = True
with open("image.png", "rb") as f:image_b64 = base64.b64encode(f.read()).decode()
assert len(image_b64) < 180_000, \"To upload larger images, use the assets API (see docs)"
headers = {"Authorization": "","Accept": "text/event-stream" if stream else "application/json"
}payload = {"model": 'meta/llama-3.2-90b-vision-instruct',"messages": [{"role": "user","content": f'What is in this image? <img src="data:image/png;base64,{image_b64}" />'}],"max_tokens": 512,"temperature": 1.00,"top_p": 1.00,"stream": stream
}
response = requests.post(invoke_url, headers=headers, json=payload)
if stream:for line in response.iter_lines():if line:print(line.decode("utf-8"))
else:print(response.json())

其原理为将图片转换为base64后传入大模型进行识别,以及一系列参数

step3:

引入摄像头模块,并且时时进行推理,将模型的初步推理结果传入文本中,为后期的朗读进行预警

# 创建摄像头对象
cap = cv2.VideoCapture(0)  # 0 是默认摄像头索引# 输出文件路径
output_file_path = "output.txt"def save_text_to_file(text):with open(output_file_path, "a", encoding="utf-8") as f:  # 以追加模式打开文件timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")  # 获取当前时间戳f.write(f"[{timestamp}] {text}\n")  # 写入时间戳和文本，换行while True:ret, frame = cap.read()if not ret:print("无法获取图像")break# 将图像编码为 PNG 格式并转换为 Base64_, buffer = cv2.imencode('.png', frame)image_b64 = base64.b64encode(buffer).decode()# 构建请求负载，确保输入中文payload = {"model": 'meta/llama-3.2-90b-vision-instruct',"messages": [{"role": 'user',"content": f'请告诉我这张图片中有什么内容。<img src="data:image/png;base64,{image_b64}" />'}],"max_tokens": 512,"temperature": 1.00,"top_p": 1.00,"stream": stream}# 发送请求response = requests.post(invoke_url, headers=headers, json=payload)if response.status_code == 200:result = response.json()# 根据返回的结果处理输出print(result)  # 可以进一步提取所需的信息# 获取结果中的文本内容if 'choices' in result and len(result['choices']) > 0:description = result['choices'][0]['message']['content']print(description)  # 打印描述# 保存文本到文件save_text_to_file(description)else:print(f"请求失败，状态码：{response.status_code}")time.sleep(3)  # 每秒捕获一帧# 释放摄像头
cap.release()
cv2.destroyAllWindows()

原理十分简单,让我们来看一下初步的结果:
在这里插入图片描述
在我加入翻译模块后,发现其输出结果:

'id': 'chat-51e2e604fd944de393136f7433919ad5', 'object': 'chat.completion', 'created': 1730471625, 'model': 'meta/llama-3.2-90b-vision-instruct', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '这里有一张中年亚洲男性 frontal director 照片。照片截图自远程视频会议ूच意识。\n\n/ Ψ οδ HistogramDescriptionBlack / 97% Colorsunnedove Gray66BetaBLUE209peach29dark brown अपन Nogran8023825444098364103281213183791565308314594581053713508413533mntileyelo \n\n.', 'tool_calls': []}, 'logprobs': None, 'finish_reason': 'stop', 'stop_reason': None}], 'usage': {'prompt_tokens': 20, 'total_tokens': 99, 'completion_tokens': 79}, 'prompt_logprobs': None}
这里有一张中年亚洲男性 frontal director 照片。照片截图自远程视频会议ूच意识。

存在乱码的情况,后续我将进行优化,加入其他大模型进行处理,并且在考虑时时状态下进行最优化解决.

基于NVIDIA NIM平台实现盲人过马路的demo(一)

前言:利用NVIDIA NIM平台提供的大模型进行编辑,通过llama-3.2-90b-vision-instruct模型进行初步的图片检测 step1: 部署大模型到本地,引用所需要的库 import os import requests import base64 import cv2 import time from datetime import datetimestep2: 观看官方使用文…...

编程日记 2024/11/3 1:31:16

美格智能5G车规级通信模组：以连接+算力驱动智能化进阶

2023年3月，基于高通公司第二代骁龙汽车5G调制解调器及射频系统平台SA522M/SA525M，美格智能在德国纽伦堡嵌入式系统展上正式发布全新一代5G车规级C-V2X通信模组MA922系列，迅速引起行业和市场关注。随着5G高速网联逐步成为智能汽车标配&#xf…...

编程日记 2024/11/3 1:23:07

[MRCTF2020]PYWebsite1

如果输入的密钥是对的那么我们就直接跳转到flag.php页面那么我们直接访问😎，他不带我们去我们自己去. 那就用XFF呗. 知识点： 定义：X-Forwarded-For是一个HTTP请求头字段，用于识别通过HTTP代理或负载均衡方式连接到W…...

编程日记 2024/11/3 1:20:05

无源元器件-磁珠选型参数总结

🏡《总目录》目录 1，概述2，磁珠选型参数2.1，电学参数2.1.3，阻抗（Impedance）2.1.2，额定电流（Rated Current）2.1.3，直流电阻（DC Resistance）2.2，机械性能参数2.2.1，外观和尺寸（Appearance and Dimensions）2.2.2，粘接强度（ Bonding Strength）2.2.3，弯曲强度…...

编程日记 2024/11/3 1:19:03

宝顶白芽，慢生活的味觉盛宴

在快节奏的生活中，人们愈发向往那种悠然自得、返璞归真的生活方式。白茶，以其独特的韵味和清雅的风格，成为了现代人追求心灵宁静与生活品质的象征。而在众多白茶之中，竹叶青茶业出品的宝顶白芽以其甘甜醇爽的特质，成为…...

编程日记 2024/11/3 1:18:03

已知三角形三边长求面积用仓颉语言作答

仓颉语言 https://cangjie-lang.cn/ linux和win和mac均有sdk，在本机deepinlinuxv23下载到本地解压缩到目录下设置环境变量 source envsetup.sh 比java方便太多了，java每次都是要自己搞很久，当然，打开看一下envsertup.sh,和我们…...

编程日记 2024/11/3 1:17:02

【JavaScript】匿名函数及回调函数总结

JavaScript 匿名函数匿名函数没有显式的名称, 被视为一个函数表达式，可以在不需要额外命名的情况下进行定义和使用, 通常被用作回调函数, 即将函数作为参数传递给其他函数。回调函数是在特定事件或条件发生时被调用的函数，回调函数通常用于异步编程中…...

编程日记 2024/11/3 1:16:00

HTML鼠标移动的波浪线动画——页面将会初始化一个Canvas元素，并使用JavaScript代码在Canvas上绘制响应鼠标移动的波浪线动画

代码如下 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Wave Animation</title><style&…...

编程日记 2024/11/3 1:14:59

树莓派开发相关知识八-其他传感器

1、蜂鸣器 #!/usr/bin/env python #coding:utf-8import RPi.GPIO as GPIO import time OUT5 def init():GPIO.setwarnings(False)GPIO.setmode(GPIO.BCM)GPIO.setup(OUT,GPIO.OUT)#蜂鸣器鸣叫函数 def beep(seconds):GPIO.output(OUT,GPIO.HIGH)time.sleep(seconds)GPIO.output…...

编程日记 2024/11/3 1:13:58

ComfyUI - ComfyUI 工作流中集成 SAM2 + GroundingDINO 处理图像与视频教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/143359538 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 SAM2 与…...

编程日记 2024/11/3 1:12:57

STM32G4 双ADC模式之常规同步模式独立注入模式

目录概述 1 认识双ADC模式 2 功能实现 2.1 原理介绍 2.2 实现方法概述本文主要介绍STM32G4 双ADC模式之常规同步模式&独立注入模式相关内容，包括ADC模块的功能介绍，实现框架结构，以及常规同步模式&独立注入模式ADC的转换的实…...

编程日记 2024/11/3 1:10:55

深入理解网络协议：OSPF、VLAN、NAT与ACL详解

OSPF工作过程与基础配置一、OSPF的工作过程 OSPF（开放最短路径优先）是一个广泛使用的路由协议，它的工作过程可以总结为以下几个步骤： 启动与邻居发现 OSPF在配置完成后，会通过本地组播地址224.0.0.5发送HELLO包。HE…...

编程日记 2024/11/3 1:09:54

idea 配置tomcat 服务

选择tomcat的安装路径选到bin的文件夹的上一层就行...

编程日记 2024/11/3 1:07:52

.net core 接口,动态接收各类型请求的参数

[HttpPost] public async Task<IActionResult> testpost([FromForm] object info) { //Postman工具测试结果： //FromBody,Postman的body只有rawjson时才进的来 //参数为空时，Body(form-data、x-www-form-urlencoded)解析到的数据也有所…...

编程日记 2024/11/3 1:04:49

关注！这些型号SSD有Windows蓝屏问题需要修复

近期，在闪迪官方有一个SSD FW升级提醒，主要是为了解决Windows 11 24H2系统蓝屏的问题： Fix问题：这些SSD的主机内存缓冲区（Host Memory Buffer，简称HMB）功能可能会导致系统出现蓝屏死机&#xff…...

编程日记 2024/11/3 1:03:48

go语言gin框架平滑关闭——思悟项目技术2

目录前言直接关闭的缺陷平滑关闭的使用场景例子思悟项目： golang qq邮件发送验证码——思悟项目技术1 前言平滑关闭（graceful shutdown）是指在停止服务时，能够让现有的连接、任务或者操作优雅地完成，而不是…...

编程日记 2024/11/3 1:01:46

K8S flannel网络模式对比

K8S flannel网络模式对比 VXLAN 模式Host-GW 模式如何查看 Flannel 的网络模式？如何修改 Flannel 的网络模式？如何修改flannel vxlan端口？Flannel 是一个 Kubernetes 中常用的网络插件，用于在集群中的节点之间提供网络连接。Flannel 提供了多种后端实现方式，vxlan 和 host…...

编程日记 2024/11/3 1:00:45

Vue前端框架：Vue前端项目文件目录

文章目录 package.json 文件node_modulessrc（Source Code 的缩写）文件夹主要子文件夹及内容 publicdist package.json 文件所在文件夹（通常是项目根目录） 虽然 package.json 本身不是一个文件夹，但它所在的文件夹&a…...

编程日记 2024/11/3 0:59:44

git回滚到指定的提交

如果你想回滚到特定的提交（例如 aa0ca72c），并且丢弃之后的所有更改，可以使用 git reset 命令。请注意，git reset 会改变你的提交历史，所以在多人协作项目中应谨慎使用。如果已经推送到远程仓库，…...

编程日记 2024/11/3 0:57:42

手机怎么玩森林之子？远程玩森林之子教程

你喜欢《森林之子》这款开放世界恐怖生存模拟游戏吗？玩家会被派到一座孤岛上，寻找一位失踪的亿万富翁，并深陷被食人生物占领的地方。你需要制作工具和武器、建造房屋，倾尽全力生存下去，无论独自一人还是与朋友一起。如…...

编程日记 2024/11/3 0:56:40

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/9 2:42:51

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2026/2/8 4:23:14

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2026/2/8 15:03:04

业务系统对接大模型的基础方案：架构设计与关键步骤

业务系统对接大模型：架构设计与关键步骤在当今数字化转型的浪潮中，大语言模型（LLM）已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中，不仅可以优化用户体验，还能为业务决策提供…...

编程新知 2026/2/8 4:53:03

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎（Physics Engine） 物理引擎是一种通过计算机模拟物理规律（如力学、碰撞、重力、流体动力学等）的软件工具或库。它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互，广泛应用于游戏开发、动画制作、虚…...

编程新知 2026/2/4 2:08:30

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/11/9 1:27:18

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时，你可能需要保留重要的数据，例如通讯录。好在，将通讯录从 iPhone 转移到 Android 手机非常简单，你可以从本文中学习 6 种可靠的方法，确保随时保持连接，不错过任何信息。第 1…...

编程新知 2026/1/31 5:09:27

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2026/2/7 15:39:49

SpringTask-03.入门案例

一.入门案例启动类： package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

编程新知 2026/2/2 0:35:08

前言:利用NVIDIA NIM平台提供的大模型进行编辑,通过llama-3.2-90b-vision-instruct模型进行初步的图片检测

step1:

step2:

step3:

相关文章：