当前位置：首页 > news >正文

《Keras 3 ：使用 Vision Transformers 进行物体检测》：此文为AI自动翻译

news 2026/2/8 20:33:01

《Keras 3 ：使用 Vision Transformers 进行物体检测》

作者：Karan V. Dave
创建日期：2022 年 3 月 27
日最后修改时间：2023 年 11 月 20
日描述：使用 Vision Transformer 进行对象检测的简单 Keras 实现。

（i）此示例使用 Keras 3

在 Colab 中查看

GitHub 源

介绍

Alexey Dosovitskiy 等人的文章 Vision Transformer （ViT）架构。表明直接应用于图像序列的纯 transformer 补丁可以在对象检测任务中表现良好。

在这个 Keras 示例中，我们实现了一个对象检测 ViT 我们在加州理工学院 101 数据集上对其进行训练，以检测给定图像中的飞机。

导入和设置

import osos.environ["KERAS_BACKEND"] = "jax"  # @param ["tensorflow", "jax", "torch"]import numpy as np
import keras
from keras import layers
from keras import ops
import matplotlib.pyplot as plt
import numpy as np
import cv2
import os
import scipy.io
import shutil

准备数据集

我们使用加州理工学院 101 数据集。

# Path to images and annotations
path_images = "./101_ObjectCategories/airplanes/"
path_annot = "./Annotations/Airplanes_Side_2/"path_to_downloaded_file = keras.utils.get_file(fname="caltech_101_zipped",origin="https://data.caltech.edu/records/mzrjq-6wc02/files/caltech-101.zip",extract=True,archive_format="zip",  # downloaded file formatcache_dir="/",  # cache and extract in current directory
)
download_base_dir = os.path.dirname(path_to_downloaded_file)# Extracting tar files found inside main zip file
shutil.unpack_archive(os.path.join(download_base_dir, "caltech-101", "101_ObjectCategories.tar.gz"), "."
)
shutil.unpack_archive(os.path.join(download_base_dir, "caltech-101", "Annotations.tar"), "."
)# list of paths to images and annotations
image_paths = [f for f in os.listdir(path_images) if os.path.isfile(os.path.join(path_images, f))
]
annot_paths = [f for f in os.listdir(path_annot) if os.path.isfile(os.path.join(path_annot, f))
]image_paths.sort()
annot_paths.sort()image_size = 224  # resize input images to this sizeimages, targets = [], []# loop over the annotations and images, preprocess them and store in lists
for i in range(0, len(annot_paths)):# Access bounding box coordinatesannot = scipy.io.loadmat(path_annot + annot_paths[i])["box_coord"][0]top_left_x, top_left_y = annot[2], annot[0]bottom_right_x, bottom_right_y = annot[3], annot[1]image = keras.utils.load_img(path_images + image_paths[i],)(w, h) = image.size[:2]# resize imagesimage = image.resize((image_size, image_size))# convert image to array and append to listimages.append(keras.utils.img_to_array(image))# apply relative scaling to bounding boxes as per given image and append to listtargets.append((float(top_left_x) / w,float(top_left_y) / h,float(bottom_right_x) / w,float(bottom_right_y) / h,))# Convert the list to numpy array, split to train and test dataset
(x_train), (y_train) = (np.asarray(images[: int(len(images) * 0.8)]),np.asarray(targets[: int(len(targets) * 0.8)]),
)
(x_test), (y_test) = (np.asarray(images[int(len(images

《Keras 3 ：使用 Vision Transformers 进行物体检测》：此文为AI自动翻译

《Keras 3 ：使用 Vision Transformers 进行物体检测》作者：Karan V. Dave 创建日期：2022 年 3 月 27 日最后修改时间：2023 年 11 月 20 日描述：使用 Vision Transformer 进行对象检测的简单 Keras 实现。（i）此示例使用 Keras 3 在 Colab 中查看 GitHub 源介绍 A…...

编程日记 2025/2/22 20:35:13

java(spring boot)实现向deepseek/GPT等模型的api发送请求/多轮对话(附源码)

我们再启动应用并获取api密钥后就可以对它发送请求了，但是官方文档对于如何进行多轮对话以及怎么自定义参数并没有说的很清楚，给的模板也没有java的，因此我们需要自己实现。 import org.json.JSONArray; import org.json.JSONObject;import j…...

编程日记 2025/2/22 20:32:09

module ‘cv2.dnn‘ has no attribute ‘DictValue‘解决办法

module ‘cv2.dnn‘ has no attribute ‘DictValue‘解决办法 pip install opencv-python4.7.0.72 -i https://pypi.tuna.tsinghua.edu.cn/simple 测试： python -c"import cv2"...

编程日记 2025/2/22 20:31:07

将RocketMQ集成到了Spring Boot项目中，实现站内信功能

1. 添加依赖首先，在pom.xml中添加RocketMQ的依赖： <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifac…...

编程日记 2025/2/22 20:30:06

Deepseek 怼CHATGPT实况

提示词： 用犀利的语言批评ChatGPT 深度思考（R1) 嗯，用户让我用犀利的语言批评ChatGPT。首先，我需要理解他们的动机。可能他们遇到了ChatGPT的某些问题，比如回答不准确或者缺乏深度，所以想表达不满。也有…...

编程日记 2025/2/22 20:28:04

基础篇11-图像分割（上）--阈值的方法

图像分割是图像处理的重要内容，是位于底层的图像处理、特征提取与上一层次的图像分析之间的关键步骤。图像分割的相关技术较多，分为三篇介绍。本节是上篇，介绍基于阈值的技术。 1 引言图像分割是计算机视觉和图像处理中的核心任务之一&…...

编程日记 2025/2/22 20:27:03

[特殊字符] LeetCode 62. 不同路径 | 动态规划+递归优化详解

在解 LeetCode 的过程中，路径计数问题是动态规划中一个经典的例子。今天我来分享一道非常基础但极具代表性的题目——不同路径。不仅适合初学者入门 DP（动态规划），还能帮助你打下递归思维的基础。本文将介绍： &…...

编程日记 2025/2/22 20:26:01

常用的 JVM 参数：配置与优化指南

文章目录常用的 JVM 参数：配置与优化指南引言 1. 内存管理参数1.1 堆内存配置1.2 方法区（元空间）配置1.3 直接内存配置 2. 垃圾回收参数2.1 垃圾回收器选择2.2 GC 日志配置2.3 GC 调优参数 3. 性能监控参数3.1 堆内存转储3.2 JVM 监控3.3 远…...

编程日记 2025/2/22 20:24:59

【JavaWeb学习Day17】

Tlias智能学习系统（员工管理） 新增员工： 三层架构职责： Controller：1.接收请求参数（员工信息）；2.调用service方法；3.响应结果。具体实现： /***新增员工…...

编程日记 2025/2/22 20:21:56

DeepSeek 提示词：定义、作用、分类与设计原则

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编…...

编程日记 2025/2/22 20:15:50

前端大文件上传

1. 开场概述 “大文件上传是前端开发中常见的需求，但由于文件体积较大，直接上传可能会遇到网络不稳定、服务器限制等问题。因此，通常需要采用分片上传、断点续传、并发控制等技术来优化上传体验” 2. 核心实现方案 “我通常会采用以下方案…...

编程日记 2025/2/22 20:14:49

JDK源码系列(一)Object

Object 概述 Object类是所有类的基类——java.lang.Object。 Object类是所有类的基类，当一个类没有直接继承某个类时，默认继承Object类Object类属于java.lang包下，此包下的所有类在使用时无需手动导入，系统会在程序编译期间自动…...

编程日记 2025/2/22 20:12:39

【Python 打造高效文件分类工具】

【Python】打造高效文件分类工具一、代码整体结构二、关键代码解析（一）初始化部分（二）界面创建部分（三）核心功能部分（四）其他辅助功能部分三、运行与使用四、示图五、作者有话说 …...

编程日记 2025/2/22 20:10:33

大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(1)

Paimon的下载及安装，并且了解了主键表的引擎以及changelog-producer的含义参考： 大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(1) 利用Paimon表做lookup join，集成mysql cdc等参考： 大数据组件(四)快速入门实时数据…...

编程日记 2025/2/22 20:08:31

边缘安全加速（Edge Security Acceleration）

边缘安全加速（Edge Security Acceleration，简称ESA）是一种通过将安全功能与网络边缘紧密结合来提升安全性和加速网络流量的技术。ESA的目标是将安全措施部署到接近用户或设备的地方，通常是在网络的边缘，而不是将所有流…...

编程日记 2025/2/22 20:07:30

C/C++高性能Web开发框架全解析：2025技术选型指南

一、工业级框架深度解析（附性能实测） 1. Drogon v2.1：异步框架性能王者核心架构： Reactor 非阻塞I/O线程池（参考Nginx模型） 协程实现：基于Boost.Coroutine2（兼容C11）…...

编程日记 2025/2/22 20:06:27

fedora 安装 ffmpeg 过程记录

参考博客：1. linux(centos)安装 ffmpeg,并添加 libx264库：https://blog.csdn.net/u013015301/article/details/140778199ffmpeg 执行时如添加参数 -vcodec libx264，会出现错误：Unknown encoder libx264’的错误，缺少li…...

编程日记 2025/2/22 20:05:26

【GPU驱动】OpenGLES图形管线渲染机制

OpenGLES图形管线渲染机制 OpenGL/ES 的渲染管线也是一个典型的图形流水线（Graphics Pipeline），包括多个阶段，每个阶段都负责对图形数据进行处理。管线的核心目标是将图形数据转换为最终的图像，这些图像可以显示在屏幕…...

编程日记 2025/2/22 20:04:24

Spring Boot项目@Cacheable注解的使用

Cacheable 是 Spring 框架中用于缓存的注解之一，它可以帮助你轻松地将方法的结果缓存起来，从而提高应用的性能。下面详细介绍如何使用 Cacheable 注解以及相关的配置和注意事项。 1. 基本用法 1.1 添加依赖首先，确保你的项目中包含了 Spr…...

编程日记 2025/2/22 19:55:11

mac开发环境配置笔记

1. 终端配置参考： Mac终端配置笔记-CSDN博客 2. 下载JDK 到 oracle官网下载jdk: oracle官网 :Java Downloads | Oraclemac的芯片为Intel系列下载 x64版本的jdk；为Apple Mx系列使用 Arm64版本；oracle官网下载时报错：400 Bad R…...

编程日记 2025/2/22 19:53:06

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2026/2/8 4:23:14

TDengine 快速体验（Docker 镜像方式）

简介 TDengine 可以通过安装包、Docker 镜像及云服务快速体验 TDengine 的功能，本节首先介绍如何通过 Docker 快速体验 TDengine，然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker，请使用安装包的方式快…...

编程新知 2026/2/3 7:43:45

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误，它们的含义、原因和解决方法都有显著区别。以下是详细对比： 1. HTTP 406 (Not Acceptable) 含义： 客户端请求的内容类型与服务器支持的内容类型不匹…...

编程新知 2026/2/1 20:49:03

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2026/1/21 9:06:43

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

借阿里云中企出海大会的东风，以**「云启出海，智联未来｜打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办，现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...

编程新知 2026/1/30 0:00:28

python/java环境配置

环境变量放一起 python： 1.首先下载Python Python下载地址：Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个，然后自定义，全选可以把前4个选上 3.环境配置 1）搜高级系统设置 2…...

编程新知 2026/1/24 14:23:08

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

6月5日，2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席，并作《智能体在安全领域的应用实践》主题演讲，分享了在智能体在安全领域的突破性实践。他指出，百度通过将安全能力…...

编程新知 2026/2/1 11:33:19

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

C++.OpenGL （20/64）混合（Blending）

混合（Blending）透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...

编程新知 2026/1/20 5:33:17

Webpack性能优化：构建速度与体积优化策略

一、构建速度优化 1、升级Webpack和Node.js 优化效果：Webpack 4比Webpack 3构建时间降低60%-98%。原因： V8引擎优化（for of替代forEach、Map/Set替代Object）。默认使用更快的md4哈希算法。AST直接从Loa…...

编程新知 2025/12/26 15:05:09

《Keras 3 ：使用 Vision Transformers 进行物体检测》

介绍

导入和设置

准备数据集

相关文章：