当前位置: 首页 > news >正文

《Keras 3 :使用 Vision Transformers 进行物体检测》:此文为AI自动翻译

《Keras 3 :使用 Vision Transformers 进行物体检测》

作者:Karan V. Dave
创建日期:2022 年 3 月 27
日最后修改时间:2023 年 11 月 20
日描述:使用 Vision Transformer 进行对象检测的简单 Keras 实现。

(i) 此示例使用 Keras 3

 在 Colab 中查看 

 GitHub 源


介绍

Alexey Dosovitskiy 等人的文章 Vision Transformer (ViT) 架构。 表明直接应用于图像序列的纯 transformer 补丁可以在对象检测任务中表现良好。

在这个 Keras 示例中,我们实现了一个对象检测 ViT 我们在加州理工学院 101 数据集上对其进行训练,以检测给定图像中的飞机。


导入和设置

import osos.environ["KERAS_BACKEND"] = "jax"  # @param ["tensorflow", "jax", "torch"]import numpy as np
import keras
from keras import layers
from keras import ops
import matplotlib.pyplot as plt
import numpy as np
import cv2
import os
import scipy.io
import shutil

准备数据集

我们使用加州理工学院 101 数据集。

# Path to images and annotations
path_images = "./101_ObjectCategories/airplanes/"
path_annot = "./Annotations/Airplanes_Side_2/"path_to_downloaded_file = keras.utils.get_file(fname="caltech_101_zipped",origin="https://data.caltech.edu/records/mzrjq-6wc02/files/caltech-101.zip",extract=True,archive_format="zip",  # downloaded file formatcache_dir="/",  # cache and extract in current directory
)
download_base_dir = os.path.dirname(path_to_downloaded_file)# Extracting tar files found inside main zip file
shutil.unpack_archive(os.path.join(download_base_dir, "caltech-101", "101_ObjectCategories.tar.gz"), "."
)
shutil.unpack_archive(os.path.join(download_base_dir, "caltech-101", "Annotations.tar"), "."
)# list of paths to images and annotations
image_paths = [f for f in os.listdir(path_images) if os.path.isfile(os.path.join(path_images, f))
]
annot_paths = [f for f in os.listdir(path_annot) if os.path.isfile(os.path.join(path_annot, f))
]image_paths.sort()
annot_paths.sort()image_size = 224  # resize input images to this sizeimages, targets = [], []# loop over the annotations and images, preprocess them and store in lists
for i in range(0, len(annot_paths)):# Access bounding box coordinatesannot = scipy.io.loadmat(path_annot + annot_paths[i])["box_coord"][0]top_left_x, top_left_y = annot[2], annot[0]bottom_right_x, bottom_right_y = annot[3], annot[1]image = keras.utils.load_img(path_images + image_paths[i],)(w, h) = image.size[:2]# resize imagesimage = image.resize((image_size, image_size))# convert image to array and append to listimages.append(keras.utils.img_to_array(image))# apply relative scaling to bounding boxes as per given image and append to listtargets.append((float(top_left_x) / w,float(top_left_y) / h,float(bottom_right_x) / w,float(bottom_right_y) / h,))# Convert the list to numpy array, split to train and test dataset
(x_train), (y_train) = (np.asarray(images[: int(len(images) * 0.8)]),np.asarray(targets[: int(len(targets) * 0.8)]),
)
(x_test), (y_test) = (np.asarray(images[int(len(images

相关文章:

《Keras 3 :使用 Vision Transformers 进行物体检测》:此文为AI自动翻译

《Keras 3 :使用 Vision Transformers 进行物体检测》 作者:Karan V. Dave 创建日期:2022 年 3 月 27 日最后修改时间:2023 年 11 月 20 日描述:使用 Vision Transformer 进行对象检测的简单 Keras 实现。 (i) 此示例使用 Keras 3 在 Colab 中查看 GitHub 源 介绍 A…...

java(spring boot)实现向deepseek/GPT等模型的api发送请求/多轮对话(附源码)

我们再启动应用并获取api密钥后就可以对它发送请求了,但是官方文档对于如何进行多轮对话以及怎么自定义参数并没有说的很清楚,给的模板也没有java的,因此我们需要自己实现。 import org.json.JSONArray; import org.json.JSONObject;import j…...

module ‘cv2.dnn‘ has no attribute ‘DictValue‘解决办法

module ‘cv2.dnn‘ has no attribute ‘DictValue‘解决办法 pip install opencv-python4.7.0.72 -i https://pypi.tuna.tsinghua.edu.cn/simple 测试: python -c"import cv2"...

将RocketMQ集成到了Spring Boot项目中,实现站内信功能

1. 添加依赖 首先&#xff0c;在pom.xml中添加RocketMQ的依赖&#xff1a; <dependencies><!-- Spring Boot Starter Web --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifac…...

Deepseek 怼CHATGPT实况

提示词&#xff1a; 用犀利的语言批评ChatGPT 深度思考&#xff08;R1) 嗯&#xff0c;用户让我用犀利的语言批评ChatGPT。首先&#xff0c;我需要理解他们的动机。可能他们遇到了ChatGPT的某些问题&#xff0c;比如回答不准确或者缺乏深度&#xff0c;所以想表达不满。也有…...

基础篇11-图像分割(上)--阈值的方法

图像分割是图像处理的重要内容&#xff0c;是位于底层的图像处理、特征提取与上一层次的图像分析之间的关键步骤。图像分割的相关技术较多&#xff0c;分为三篇介绍。本节是上篇&#xff0c;介绍基于阈值的技术。 1 引言 图像分割是计算机视觉和图像处理中的核心任务之一&…...

[特殊字符] LeetCode 62. 不同路径 | 动态规划+递归优化详解

在解 LeetCode 的过程中&#xff0c;路径计数问题是动态规划中一个经典的例子。今天我来分享一道非常基础但极具代表性的题目——不同路径。不仅适合初学者入门 DP&#xff08;动态规划&#xff09;&#xff0c;还能帮助你打下递归思维的基础。 本文将介绍&#xff1a; &…...

常用的 JVM 参数:配置与优化指南

文章目录 常用的 JVM 参数&#xff1a;配置与优化指南引言 1. 内存管理参数1.1 堆内存配置1.2 方法区&#xff08;元空间&#xff09;配置1.3 直接内存配置 2. 垃圾回收参数2.1 垃圾回收器选择2.2 GC 日志配置2.3 GC 调优参数 3. 性能监控参数3.1 堆内存转储3.2 JVM 监控3.3 远…...

【JavaWeb学习Day17】

Tlias智能学习系统&#xff08;员工管理&#xff09; 新增员工&#xff1a; 三层架构职责&#xff1a; Controller&#xff1a;1.接收请求参数&#xff08;员工信息&#xff09;&#xff1b;2.调用service方法&#xff1b;3.响应结果。 具体实现&#xff1a; /***新增员工…...

DeepSeek 提示词:定义、作用、分类与设计原则

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…...

前端大文件上传

1. 开场概述 “大文件上传是前端开发中常见的需求&#xff0c;但由于文件体积较大&#xff0c;直接上传可能会遇到网络不稳定、服务器限制等问题。因此&#xff0c;通常需要采用分片上传、断点续传、并发控制等技术来优化上传体验” 2. 核心实现方案 “我通常会采用以下方案…...

JDK源码系列(一)Object

Object 概述 Object类是所有类的基类——java.lang.Object。 Object类是所有类的基类&#xff0c;当一个类没有直接继承某个类时&#xff0c;默认继承Object类Object类属于java.lang包下&#xff0c;此包下的所有类在使用时无需手动导入&#xff0c;系统会在程序编译期间自动…...

【Python 打造高效文件分类工具】

【Python】 打造高效文件分类工具 一、代码整体结构二、关键代码解析&#xff08;一&#xff09;初始化部分&#xff08;二&#xff09;界面创建部分&#xff08;三&#xff09;核心功能部分&#xff08;四&#xff09;其他辅助功能部分 三、运行与使用四、示图五、作者有话说 …...

大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(1)

Paimon的下载及安装&#xff0c;并且了解了主键表的引擎以及changelog-producer的含义参考&#xff1a; 大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(1) 利用Paimon表做lookup join&#xff0c;集成mysql cdc等参考&#xff1a; 大数据组件(四)快速入门实时数据…...

边缘安全加速(Edge Security Acceleration)

边缘安全加速&#xff08;Edge Security Acceleration&#xff0c;简称ESA&#xff09;是一种通过将安全功能与网络边缘紧密结合来提升安全性和加速网络流量的技术。ESA的目标是将安全措施部署到接近用户或设备的地方&#xff0c;通常是在网络的边缘&#xff0c;而不是将所有流…...

C/C++高性能Web开发框架全解析:2025技术选型指南

一、工业级框架深度解析&#xff08;附性能实测&#xff09; 1. Drogon v2.1&#xff1a;异步框架性能王者 核心架构&#xff1a; Reactor 非阻塞I/O线程池&#xff08;参考Nginx模型&#xff09; 协程实现&#xff1a;基于Boost.Coroutine2&#xff08;兼容C11&#xff09;…...

fedora 安装 ffmpeg 过程记录

参考博客&#xff1a;1. linux(centos)安装 ffmpeg,并添加 libx264库&#xff1a;https://blog.csdn.net/u013015301/article/details/140778199ffmpeg 执行时如添加参数 -vcodec libx264&#xff0c;会出现错误&#xff1a;Unknown encoder libx264’的错误&#xff0c;缺少li…...

【GPU驱动】OpenGLES图形管线渲染机制

OpenGLES图形管线渲染机制 OpenGL/ES 的渲染管线也是一个典型的图形流水线&#xff08;Graphics Pipeline&#xff09;&#xff0c;包括多个阶段&#xff0c;每个阶段都负责对图形数据进行处理。管线的核心目标是将图形数据转换为最终的图像&#xff0c;这些图像可以显示在屏幕…...

Spring Boot项目@Cacheable注解的使用

Cacheable 是 Spring 框架中用于缓存的注解之一&#xff0c;它可以帮助你轻松地将方法的结果缓存起来&#xff0c;从而提高应用的性能。下面详细介绍如何使用 Cacheable 注解以及相关的配置和注意事项。 1. 基本用法 1.1 添加依赖 首先&#xff0c;确保你的项目中包含了 Spr…...

mac开发环境配置笔记

1. 终端配置 参考&#xff1a; Mac终端配置笔记-CSDN博客 2. 下载JDK 到 oracle官网 下载jdk: oracle官网 :Java Downloads | Oraclemac的芯片为Intel系列下载 x64版本的jdk&#xff1b;为Apple Mx系列使用 Arm64版本&#xff1b;oracle官网下载时报错&#xff1a;400 Bad R…...

3PEAK思瑞浦 TPR6040F33-S3TR SOT23G-3 电压基准芯片

特性 固定输出电压: -2.048V、2.5V、3V、3.3V、4.096V和5V 高初始精度和低温系数 -A级:最大0.1%&#xff0c;25ppm/C -B级:最大0.2%&#xff0c;50ppm/C 工作温度范围:-40C至125C 滴流能力:150A至15mA 适用于任何电容负载&#xff0c;稳定可靠 封装:SOT23G-3...

手把手教你用ClockBuilder Pro配置SI5351A时钟芯片(附完整.h文件生成流程)

手把手教你用ClockBuilder Pro配置SI5351A时钟芯片&#xff08;附完整.h文件生成流程&#xff09; 在嵌入式系统和射频设计中&#xff0c;精确的时钟信号如同系统的心跳&#xff0c;而SI5351A这颗灵活的可编程时钟发生器芯片&#xff0c;正成为越来越多开发者的首选。不同于传…...

如何免费解锁八大网盘满速下载:LinkSwift网盘助手完整指南

如何免费解锁八大网盘满速下载&#xff1a;LinkSwift网盘助手完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026年必知!千川数据报表究竟该怎么看?

痛点深度剖析我们团队在实践中发现&#xff0c;众多企业在使用千川数据报表时面临诸多困境。一方面&#xff0c;数据维度繁杂&#xff0c;包含流量、转化、销售等多方面数据&#xff0c;企业难以快速准确地从中提取关键信息&#xff0c;如不同渠道流量的转化率、不同商品的销售…...

pandas删除指定列中有空值的行

pandas删除指定列中有空值的行mydf mydf.dropna(subset[列名],inplaceTrue)...

别急着换手机!手把手教你给旧安卓(5.x/6.x)装上最新版Termux,还能跑C++

别急着换手机&#xff01;手把手教你给旧安卓&#xff08;5.x/6.x&#xff09;装上最新版Termux&#xff0c;还能跑C 每次看到抽屉里那台老旧的安卓设备&#xff0c;总觉得弃之可惜&#xff0c;食之无味&#xff1f;别急着让它吃灰&#xff0c;更别冲动换新机。今天我要分享的&…...

别再硬算d了!用RsaCtfTool一键搞定攻防世界Crypto题(以cr4-poor-rsa为例)

高效攻克CTF密码学挑战&#xff1a;RsaCtfTool实战指南 在CTF竞赛中&#xff0c;密码学题目往往成为选手们又爱又恨的焦点。特别是RSA相关题目&#xff0c;虽然原理清晰&#xff0c;但手动计算过程繁琐耗时。今天我要分享一个能极大提升解题效率的神器——RsaCtfTool&#xff0…...

别再降级Playwright了!用Docker在CentOS 7上无痛运行最新版浏览器自动化

在CentOS 7上通过Docker容器化方案运行最新版Playwright的完整指南 如果你是一名长期使用CentOS 7进行自动化测试的开发者&#xff0c;很可能遇到过这样的困境&#xff1a;当你兴奋地想要尝试Playwright的最新功能时&#xff0c;却被系统提示GLIBC_2.27 not found这类依赖错误。…...

Supergateway与ngrok结合:如何安全地公开本地MCP服务器

Supergateway与ngrok结合&#xff1a;如何安全地公开本地MCP服务器 【免费下载链接】supergateway Run MCP stdio servers over SSE and SSE over stdio. AI gateway. 项目地址: https://gitcode.com/gh_mirrors/su/supergateway Supergateway是一款功能强大的MCP服务器…...

量子互补采样游戏:揭示量子计算优势的新范式

1. 量子互补采样游戏&#xff1a;一场经典与量子的对决量子计算领域最引人入胜的现象之一&#xff0c;就是量子系统能够展现出经典系统无法企及的行为特征。这种"经典性违反"现象在量子信息处理中扮演着关键角色&#xff0c;而互补采样游戏则为我们提供了一个绝佳的研…...