当前位置: 首页 > news >正文

零基础上手,秒识别检测,IDEA研究院发布全新T-Rex模型

目标检测作为当前计算机视觉落地的热点技术之一,已被广泛应用于自动驾驶、智慧园区、工业检测和卫星遥感等场景。开发者在研究相关目标检测技术时,通常需熟练掌握图像目标检测框架,如通用目标检测框架 YOLO 系列,旋转目标检测框架 R3Det 等技术,学习门槛较高,还需不断优化和改进算法,来获得理想的目标检测效果。随着大模型的发展,有效帮助开发者降低目标检测的使用门槛。

在2023 IDEA大会,IDEA研究院发布最新视觉提示(Visual Prompt)模型T-Rex,帮助释放计算机视觉更多应用场景。小编在上手使用T-Rex模型,直呼太香了!无需设计算法,开箱即用,简单通过拖拽方框,框住想识别的物体,点击“开始检测”,就自动将相似的结果识别出来:

下面小编带大家体验一把!

零基础上手,秒识别检测,T-Rex模型来了!

打开视觉提示模型T-Rex的模型实验室官网:DeepDataSpace | The Go-To Choice for CV Data Visualization, Annotation, and Model Analysis,选择或者上传你想要检测的图像:

框住想要识别的物体,点击开始检测,秒出结果:

是不是很简单便捷?

其实背后的T-Rex模型大有来头!

今年4月,IDEA研究院发布的Grounded SAM (Grounding DINO + SAM),在Github已获得 11K Star,区别于只支持文字提示的Grounded SAM,T-Rex模型着重打造强交互的视觉提示功能。无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注场景提供新的解决方案,通过直观的视觉反馈与强交互性,也有助于提升检测的效率与精准度。目前,T-Rex 可应用在农业、零售、医疗、电子等行业。

据官网显示,T-Rex模型有以下四大特性:

开放集:不受预定义类别限制,具有检测一切物体的能力

视觉提示:利用视觉示例指定检测目标,克服罕见、复杂物体难以用文字充分表达的问题,提高提示效率

直观的视觉反馈:提供边界框等直观视觉反馈,帮助用户高效评估检测结果

交互性:用户便捷参与检测过程,对模型结果进行纠错

除了上面笔者试用的最基础的单轮提示模式,目前T-Rex模型还支持以下三种进阶模式:

·       多轮正例模式:适用于视觉提示不够精准造成漏检的场景

·       正例+负例模式: 适用于视觉提示带有二义性造成误检的场景

·       跨图模式:适用于通过单张参考图提示检测他图的场景

大家可以多多尝试!

为什么是T-Rex?

我们已迈入“大模型时代”,在许多领域大模型都展现出巨大潜力和价值。 如今我们可以简单用一句话、一个提示词就可以让AI帮助我们生成一张图片、一篇文章。然而在一些情况下,例如工业场景中的物体在日常生活中较为罕见,难以用语言描述。在此情况下,视觉提示显然是更高效的方法。T-Rex通过图片来提示,达到 “一图胜千言”的准确与高效。

谈及计算机视觉的发展,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋表示,首先是计算机视觉的应用场景长尾,其次是其场景碎片化,每个应用场景不一样。他出,计算机视觉领域在呼唤通用大模型的来临。以GPT-4V为代表的多模态大模型,是在语言能力上增加视觉能力;IDEA研究院的计算机视觉团队则选择了另一条路径,先将基础的视觉能力做到极致,再增加语言能力。

仔细思考,大模型的意义是让我们从判别式AI走向深层次判别式的AI,前者从数据和信号中去提取特征进行识别,完成像人脸识别语音识别、图像识别等任务,后者可以基于海量数据训练生成文字、语言、图片、视频等,更加智能、高效,有效提高生产力。毋庸置疑,通过之前的Grounded SAM发布,到如今T-Rex的推出,IDEA研究院走出自己的计算机视觉之路。

想了解更多T-Rex详情,可查看GitHub:trex-counting.github.io

相关文章:

零基础上手,秒识别检测,IDEA研究院发布全新T-Rex模型

目标检测作为当前计算机视觉落地的热点技术之一,已被广泛应用于自动驾驶、智慧园区、工业检测和卫星遥感等场景。开发者在研究相关目标检测技术时,通常需熟练掌握图像目标检测框架,如通用目标检测框架 YOLO 系列,旋转目标检测框架…...

python每日一题——20旋转图像

题目 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在 原地 旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]]…...

云计算生成式 -给你不一样的音乐推荐新体验

目录 摘要: 正文: 一、亚马逊云与生成式 AI 结合的展望/总结 二、我用亚马逊云科技生成式 AI 产品打造了什么,解决了什么问题 三、未来云端技术发展趋势的见解 四、云端技术未来需要解决的问题 1、如何保护数据安全和隐私? …...

Zabbix 6.0部署+自定义监控项+自动发现与自动注册+部署zabbix代理服务器

Zabbix 6.0 Zabbix 6.0一、关于zabbix1、什么是zabbix2、zabbix工作原理3、zabbix 6.0 特性4、zabbix 6.0 功能组件 二、Zabbix 6.0 部署1、 部署 zabbix 服务端(1) 部署 Nginx PHP 环境并测试(2) 部署数据库(3) 编译安装 zabbix server 服务端(4) 部署 Web 前端,进…...

Docker 简介及其常用命令详解

Docker 简介及其常用命令详解 Docker 自推出以来,已成为开发和运维领域的重要工具。它简化了应用的部署、测试和分发过程,使得容器化技术成为现代软件开发的标准实践。本文将为您提供Docker的基础介绍以及其常用命令的详细讲解。 什么是Docker&#xf…...

基于PHP的高中生物学习平台

有需要请加文章底部Q哦 可远程调试 基于PHP的高中生物学习平台 一 介绍 此高中生物学习平台基于原生PHP开发,数据库mysql。系统角色分为用户和管理员。(附带参考设计文档) 技术栈:phpmysqlphpstudyvscode 二 功能 学生 1 注册/登录/注销 2 个人中心 …...

Git多库多账号本地SSH连接配置方法

Git多库多账号本地SSH连接配置方法 一、前言二、环境三、帮助文档四、多环境配置4.1 配置config文件 五、生成RSA秘钥对5.1 ssh秘钥位置5.2 生成秘钥对(公钥、私钥)5.3 添加公钥到GIT用户配置中 六 测试git是否可以使用七、总结 一、前言 在使用Git管理…...

爬虫学习-基础(HTTP原理)

目录 一、URL和URI 二、HTTP和HTTPS (1)HTTP (2)HTTPS (3)HTTP与HTTPS区别 (4)HTTPS对HTTP的改进:双问的身份认证 三、TCP协议 (1)TCP三次握手…...

Gazebo 中为地面和车轮添加摩擦属性

Gazebo 中为地面和车轮添加摩擦属性 Link friction properties not applied from URDF to Gazebo SDFormat Specification Adding friction to model wheels Gazebo中模型自行滑动(后溜)的原因探究 移动机器人在仿真时,一旦以较大的速度启动&…...

【重点】【滑动窗口】3. 无重复字符的最长子串

题目 参考《算法小抄》重的解法&#xff0c;重点理解&#xff01;&#xff01;&#xff01; class Solution {public int lengthOfLongestSubstring(String s) {if (s.length() < 2) {return s.length();}char[] array s.toCharArray();int left 0, right 0, res 0;int…...

python初始化矩阵相关

做算法题经常需要初始化一个二维的dp数组 下面两种方法是最常用的 matrix [[0]*n]*n matrix [[0]*n for _ in range(n)]以前经常混用也没发现什么问题&#xff0c;直到昨天debug的时候发现第一种初始化之后对矩阵进行赋值时混乱的&#xff0c;比如matrix[0][1]2会导致所有行…...

C++ :运算符重载

运算符重载&#xff1a; 运算符重载概念&#xff1a;对已有的运算符重新进行定义&#xff0c;赋予其另一种功能&#xff0c;以适应不同的数据类型 运算符的重载实际是一种特殊的函数重载&#xff0c;必须定义一个函数&#xff0c;并告诉C编译器&#xff0c;当遇到该重载的运算符…...

如何跑通跨窗口渲染:multipleWindow3dScene

New 这是一个跨窗口渲染的示例&#xff0c;用 Three.js 和 localStorage 在同一源&#xff08;同产品窗口&#xff09;上跨窗口设置 3D 场景。而这也是本周推特和前端圈的一个热点&#xff0c;有不少人在争相模仿它的实现&#xff0c;如果你对跨窗口的渲染有兴趣&#xff0c;可…...

flutter-web中使用js工具类

文章目录 为什么要调用js1. flutter-web1. 引入js web/index.html2. 创建工具js web/CryptoEnc.js3. 创建对应的lib/js/js_interop.dart4. 由于引入的js是针对web平台的&#xff0c;所以引入需要做引入处理5. 使用 2. Android1. 引入依赖2. index.html3. dart引用 为什么要调用…...

@ResponseBody详解:用于响应体响应数据

RestFul风格或者是web阶段接触过的异步请求&#xff0c;都需要把数据转换成Json放入响应体中。 ResponseBody的作用其实是将java对象转为json格式的相应内容 使用 RequestMapping注解时&#xff0c;Spring会将返回值解析为视图路径&#xff0c;然后跳转路径返回对应的视图页面…...

【Python百练——第3练】矩形类及操作

&#x1f490;作者&#xff1a;insist-- &#x1f490;个人主页&#xff1a;insist-- 的个人主页 理想主义的花&#xff0c;最终会盛开在浪漫主义的土壤里&#xff0c;我们的热情永远不会熄灭&#xff0c;在现实平凡中&#xff0c;我们终将上岸&#xff0c;阳光万里 ❤️欢迎点…...

【C语言学习疑难杂症】C语言中数组存储时为什么从低地址到高地址

在C语言中&#xff0c;数组的存储从低地址到高地址是有其历史原因的。这种设计主要是为了与计算机系统的内存组织方式相一致。 在计算机系统中&#xff0c;内存通常按照字节进行编址&#xff0c;地址从低到高递增。数组在内存中是连续存储的&#xff0c;因此数组的第一个元素&…...

Linux:查看端口占用的进程

命令 netstat -tunlp可以从图中看到&#xff0c;端口被那个进程占用&#xff0c;对应进程的pid是多少。...

医美店会员管理系统预约小程序作用是什么

医美在美业中占据着一定地位&#xff0c;爱美使然和经济独立、悦己消费下&#xff0c;不少女性会前往医美机构做脸部整容、嫩肤补水等服务&#xff0c;如美容院一样都是具备本地外地属性的&#xff0c;因此在如今互联网盛行下&#xff0c;商家需要借势线上破解难题及增强生意效…...

Linux 正则表达式

内容概述 1 文本编辑工具之神 VIM 1.1 vi 和 vim 简介 在 Linux 中我们经常编辑修改文本文件&#xff0c;即由 ASCII Unicode 或者其他编码的纯文字的文件。之前介绍过的 nano&#xff0c;实际工具中我们使用更为专业&#xff0c;功能强大的工具 文本编辑种类&#xff1a; vi…...

别再死记硬背了!用DCM模式反激电路,手把手教你搞定宽电压输入的隔离电源

从零构建宽电压隔离电源&#xff1a;DCM反激电路实战指南 当你在深夜调试电路时突然闻到焦糊味&#xff0c;或是面对一堆烧毁的MOS管束手无策&#xff0c;是否想过——电源设计本可以更简单&#xff1f;本文将带你用工程师的思维重新理解反激变换器&#xff0c;避开教科书式的理…...

MinerU智能文档理解镜像:财务报表自动识别实战体验

MinerU智能文档理解镜像&#xff1a;财务报表自动识别实战体验 1. 引言&#xff1a;财务文档处理的痛点与机遇 在财务工作中&#xff0c;我们经常需要处理各种格式的财务报表——PDF扫描件、Excel截图、纸质文档照片等。传统的手工录入方式不仅效率低下&#xff0c;还容易出错…...

C++的std--allocator_traits分配器特性与自定义内存管理的适配

C标准库中的内存管理一直是个既基础又复杂的主题。std::allocator_traits作为C11引入的分配器特性模板&#xff0c;为自定义内存管理提供了统一的适配接口&#xff0c;让开发者能在不重写整套分配逻辑的情况下&#xff0c;灵活扩展内存管理策略。无论是实现高性能内存池&#x…...

PyTorch 2.8镜像快速部署:5分钟验证torch.cuda.is_available()并启动API服务

PyTorch 2.8镜像快速部署&#xff1a;5分钟验证torch.cuda.is_available()并启动API服务 1. 镜像概述与环境准备 PyTorch 2.8深度学习镜像是一个开箱即用的高性能计算环境&#xff0c;专为现代AI工作负载优化。这个预配置环境能让你跳过繁琐的安装过程&#xff0c;直接进入模…...

AutoGen Studio效果展示:看Qwen3-4B如何协作完成网页设计

AutoGen Studio效果展示&#xff1a;看Qwen3-4B如何协作完成网页设计 1. AutoGen Studio简介 AutoGen Studio是一个基于微软AutoGen框架开发的低代码界面工具&#xff0c;它让构建和组合AI代理变得简单直观。通过这个平台&#xff0c;你可以快速创建多个AI代理&#xff0c;为…...

运算放大器与比较器的本质区别及应用指南

1. 运算放大器与比较器的本质区别在电子电路设计中&#xff0c;运算放大器&#xff08;Op-Amp&#xff09;和电压比较器&#xff08;Comparator&#xff09;是两种极为常见却又经常被混淆的器件。它们在外观符号上几乎一模一样&#xff1a;都有五个引脚——正负电源端、同相与反…...

私域数据安全与合规——企微引流必须注意的5个技术红线

做公域引流到企微&#xff0c;数据安全和合规是技术团队必须重视的问题。一旦踩红线&#xff0c;轻则功能受限&#xff0c;重则企微封禁甚至法律风险。今天梳理5个技术红线及应对方案。红线1&#xff1a;用户隐私数据存储企微API返回的用户信息包含ExternalUserID&#xff08;外…...

【已验证】STM32驱动OLED(SSD1306)显示字符

本文介绍如何使用STM32F103C8T6&#xff08;蓝板&#xff09;通过软件模拟IIC协议驱动0.96英寸OLED&#xff08;驱动芯片SSD1306&#xff09;&#xff0c;这个小屏幕相信每一个朋友在大学生活里都不会错过&#xff0c;也是很多课设毕设显示需求的首选&#xff0c;我一向喜欢直接…...

STM32F407的RTC时钟不准?手把手教你用CubeMX配置LSE晶振校准(附源码)

STM32F407的RTC时钟不准&#xff1f;手把手教你用CubeMX配置LSE晶振校准&#xff08;附源码&#xff09; 在嵌入式系统开发中&#xff0c;实时时钟&#xff08;RTC&#xff09;的精度问题常常让开发者头疼。特别是使用STM32F407这类主流单片机时&#xff0c;即使按照官方文档配…...

皇后大学揭秘:AI机器人与人类程序员的代码审查大作战

当你写完一段代码&#xff0c;准备提交到项目中时&#xff0c;通常会有同事帮你检查一遍——这个过程叫做代码审查&#xff0c;就像文章发表前的编辑校对一样重要。不过现在情况有了变化&#xff1a;越来越多的AI机器人也开始参与代码审查工作&#xff0c;它们能自动发现bug、提…...