当前位置：首页 > news >正文

使用transformers调用owlv2实现开放目标检测

news 2025/7/9 17:58:37

安装

pip install transformers

Demo

from PIL import Image, ImageDraw, ImageFont
import numpy as np
import torch
from transformers import AutoProcessor, Owlv2ForObjectDetection
from transformers.utils.constants import OPENAI_CLIP_MEAN, OPENAI_CLIP_STDprocessor = AutoProcessor.from_pretrained("/home/share3/mayunchuan/google/owlv2-large-patch14-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("/home/share3/mayunchuan/google/owlv2-large-patch14-ensemble").cuda()image = Image.open('/home/mayunchuan/lavad/dataset/Thumos14_25fps/frames/video_test_0000293/004902.jpg')
# image = Image.open('/home/mayunchuan/lavad/dataset/Thumos14_25fps/frames/video_validation_0000990/001388.jpg')
# texts = [["a photo of a volleyball", "a photo of a man"]]
texts = [[" javelin"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
inputs['input_ids'] = inputs['input_ids'].cuda()
inputs['attention_mask'] = inputs['attention_mask'].cuda()
inputs['pixel_values'] = inputs['pixel_values'].cuda()
# forward pass
with torch.no_grad():outputs = model(**inputs)# Note: boxes need to be visualized on the padded, unnormalized image
# hence we'll set the target image sizes (height, width) based on thatdef get_preprocessed_image(pixel_values):pixel_values = pixel_values.squeeze().cpu().numpy()unnormalized_image = (pixel_values * np.array(OPENAI_CLIP_STD)[:, None, None]) + np.array(OPENAI_CLIP_MEAN)[:, None, None]unnormalized_image = (unnormalized_image * 255).astype(np.uint8)unnormalized_image = np.moveaxis(unnormalized_image, 0, -1)unnormalized_image = Image.fromarray(unnormalized_image)return unnormalized_imageunnormalized_image = get_preprocessed_image(inputs.pixel_values)target_sizes = torch.Tensor([unnormalized_image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to final bounding boxes and scores
results = processor.post_process_object_detection(outputs=outputs, threshold=0.2, target_sizes=target_sizes
)i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]for box, score, label in zip(boxes, scores, labels):box = [round(i, 2) for i in box.tolist()]print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")# 绘制边界框
draw = ImageDraw.Draw(unnormalized_image)for score, label, box in zip(scores, labels, boxes):box = [round(i, 2) for i in box.tolist()]x, y, x2, y2 = tuple(box)draw.rectangle((x, y, x2, y2), outline="red", width=1)draw.text((x, y), text[label.item()], font_size=20, fill="black")# 保存标记好的图片
unnormalized_image.save("marked_image.jpg")

使用transformers调用owlv2实现开放目标检测

目录安装Demo 安装 pip install transformersDemo from PIL import Image, ImageDraw, ImageFont import numpy as np import torch from transformers import AutoProcessor, Owlv2ForObjectDetection from transformers.utils.constants import OPENAI_CLIP_MEAN, OPENAI_…...

编程日记 2024/10/4 12:23:48

大数据技术：Hadoop、Spark与Flink的框架演进

大数据技术，特别是Hadoop、Spark与Flink的框架演进，是过去二十年中信息技术领域最引人注目的发展之一。这些技术不仅改变了数据处理的方式，而且还推动了对数据驱动决策和智能化的需求。在大数据处理领域，选择合适的大数据平台是确…...

编程日记 2024/10/4 12:21:45

Spring Boot框架下的新闻推荐技术

1系统概述 1.1 研究背景如今互联网高速发展，网络遍布全球，通过互联网发布的消息能快而方便的传播到世界每个角落，并且互联网上能传播的信息也很广，比如文字、图片、声音、视频等。从而，这种种好处使得互联网成了信息传…...

编程日记 2024/10/4 12:19:42

相亲交友系统的社会影响：家庭结构的变化

随着互联网技术的发展，相亲交友系统已成为许多单身人士寻找伴侣的重要途径。这些平台不仅改变了人们的社交方式，还对家庭结构产生了深远的影响。本文将探讨相亲交友系统如何促使家庭结构发生变化，开发h17711347205并通过简单的Python代码示例…...

编程日记 2024/10/4 12:18:42

C++ 内存池（Memory Pool）详解

1. 基本概念内存池是一种内存管理技术，旨在提高内存分配的效率。它通过预先分配一块大的内存区域（池），然后从中分配小块内存来满足应用程序的需求。这样可以减少频繁的内存分配和释放带来的性能开销。 2. 设计思路内存池的设…...

编程日记 2024/10/4 12:16:40

css三角形：css画箭头向下的三角形

.arrow { position: absolute; bottom: 0; left: 50%; transform: translateX(-50%); width: 0; height: 0; border-style: solid; border-width: 8px 5px 0 5px; /* 上、左、下、右 */ bord…...

编程日记 2024/10/4 12:15:39

CSS属性 - animation

一、基本概念 animation是 CSS 中的一个属性，用于将通过keyframes规则定义的动画应用到元素上。它是一种简写属性，能够在一个声明中设置多个动画相关的子属性。二、语法结构基本语法为： animation: name duration timing - function de…...

编程日记 2024/10/4 12:12:36

昇思MindSpore进阶教程--在ResNet-50网络上应用二阶优化实践(下)

大家好，我是刘明，明志科技创始人，华为昇思MindSpore布道师。技术上主攻前端开发、鸿蒙开发和AI算法研究。努力为大家带来持续的技术分享，如果你也喜欢我的文章，就点个关注吧文章上半部分请查看在ResNet-50网络上应…...

编程日记 2024/10/4 12:11:35

基于大数据的Python+Django电影票房数据可视化分析系统设计与实现

目录 1 引言 2 系统需求分析 3 技术选型 4 系统架构设计 5 关键技术实现 6 系统实现 7 总结与展望 1 引言随着数字媒体技术的发展，电影产业已经成为全球经济文化不可或缺的一部分。电影不仅是艺术表达的形式，更是大众娱乐的重要来源。在这个背景…...

编程日记 2024/10/4 12:08:32

实景三维技术对光伏产业的发展具有哪些优势？

实景三维技术对光伏产业的发展具有显著的优势，主要体现在提高选址准确性、优化用地规划、促进数据融合应用以及赋能文旅服务领域。‌ 提高选址准确性‌：通过构建高精度的三维地形模型，结合卫星遥感、无人机测绘等技术手段，实景三维…...

编程日记 2024/10/4 12:07:31

四非人的保研之路，2024（2025届）四非计算机的保研经验分享（西南交通、苏大nlp、西电、北邮、山软、山计、电科、厦大等）

文章目录一、个人背景二、夏令营北京邮电大学CS西南交通大学CS深圳大学CS苏州大学NLP南开大学CS 三、预推免北京邮电大学CS华东师范大学 CS和大数据电子科技大学 CS东北大学 CS厦门大学信息学院山东大学 CS和SE西安电子科技大学 CS 四、个人经验五、上岸一、个人背景学校专…...

编程日记 2024/10/4 12:04:28

UE5.4.3 录屏回放系统ReplaySystem蓝图版

这是ReplaySystem的蓝图使用方法版，以第三人称模版为例，需要几个必须步骤项目config内DefaultEngine.ini的最后添加： [/Script/Engine.GameEngine] NetDriverDefinitions(DefName"DemoNetDriver",DriverClassName"/Script/…...

编程日记 2024/10/4 12:03:27

ECCV 2024 | 融合跨模态先验与扩散模型，快手处理大模型让视频画面更清晰！

计算机视觉领域顶级会议 European Conference on Computer Vision（ECCV 2024）将于9月29日至10月4日在意大利米兰召开，快手音视频技术部联合清华大学所发表的题为《XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution》——…...

编程日记 2024/10/4 12:02:26

9--苍穹外卖-SpringBoot项目中Redis的介绍及其使用实例详解

目录 Redis入门 Redis简介 Redis服务启动与停止服务启动命令 Redis数据类型 5种常用数据类型介绍各种数据类型的特点 Redis常用命令字符串操作命令哈希操作命令列表操作命令集合操作命令有序集合操作命令通用命令在java中操作Redis Redis的Java客户端 …...

编程日记 2024/10/4 11:59:21

【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操作案例。

前言：哈喽，大家好，今天给大家分享一篇文章！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 💕 目录【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操…...

编程日记 2024/10/4 11:55:17

Windows环境Apache httpd 2.4 web服务器加载PHP8：Hello，world！

Windows环境Apache httpd 2.4 web服务器加载PHP8：Hello，world！ （1）首先需要安装apache httpd 2.4 web服务器： Windows安装启动apache httpd 2.4 web服务器-CSDN博客文章浏览阅读222次，点赞5次&…...

编程日记 2024/10/4 11:53:14

Spring框架使用Api接口实现AOP的切面编程、两种方式的程序示例以及Java各数据类型及基本数据类型的默认值/最大值/最小值列表

一、Spring框架使用Api接口-继承类实现AOP的切面编程示例要使用Spring框架AOP，除了要导入spring框架包外，还需要导入一个织入的包org.aspectj，具体maven依赖如下： <dependency><groupId>org.springframework</gr…...

编程日记 2024/10/4 11:49:11

【达梦数据库】尽可能 disql 的使用效果与异构数据库一致

文章目录前言disql 效果优化参数设置参数说明 mysql参数设置参数说明 db2参数设置参数说明待补充前言让达梦的disql 使用起来更跟手，与其他优质数据库的命令行工具通过配置参数的方式尽可能一致，提高使用体验，长期整理中~~~ 测试版本&…...

编程日记 2024/10/4 11:38:00

【研1深度学习】《神经网络和深度学习》阅读笔记(记录中......

9.27 语义鸿沟： 是指输入数据的底层特征和高层语义信息之间的不一致性和查一下。如果可以有一个好的表示在某种程度上能够反映出数据的高层语义特征，那么我们就能相对容易的构建后续的机器学习模型。嵌入（Embedding）：…...

编程日记 2024/10/4 11:33:57

十一不停歇-学习ROS2第一天（10.2 10：45）

话题通信 1.1 发布第一个节点： import rclpy #导入此类模块 rcl类型 from rclpy.node import Node #从这个子模块中导入这类函数 def main(): #定义这个函数 rclpy.init() #使用初始化函数 node Node(hello_python) 将类函数里面的内容调给…...

编程日记 2024/10/4 11:32:56

基于算法竞赛的c++编程（28）结构体的进阶应用

结构体的嵌套与复杂数据组织在C中，结构体可以嵌套使用，形成更复杂的数据结构。例如，可以通过嵌套结构体描述多层级数据关系： struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

编程新知 2025/6/17 5:30:27

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/7/7 6:59:35

OpenLayers 可视化之热力图

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 热力图（Heatmap）又叫热点图，是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

编程新知 2025/7/6 21:38:30

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/7/6 2:27:06

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2025/7/6 17:42:11

Python爬虫（二）：爬虫完整流程

爬虫完整流程详解（7大核心步骤实战技巧） 一、爬虫完整工作流程以下是爬虫开发的完整流程，我将结合具体技术点和实战经验展开说明： 1. 目标分析与前期准备网站技术分析： 使用浏览器开发者工具（F12&…...

编程新知 2025/6/16 20:22:52

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/7/9 7:13:40

Psychopy音频的使用

Psychopy音频的使用本文主要解决以下问题： 指定音频引擎与设备；播放音频文件本文所使用的环境： Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

编程新知 2025/7/8 15:10:34

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持，不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

编程新知 2025/7/7 4:55:40

Webpack性能优化：构建速度与体积优化策略

一、构建速度优化 1、升级Webpack和Node.js 优化效果：Webpack 4比Webpack 3构建时间降低60%-98%。原因： V8引擎优化（for of替代forEach、Map/Set替代Object）。默认使用更快的md4哈希算法。AST直接从Loa…...

编程新知 2025/7/7 1:01:12

目录

安装

Demo

相关文章：