Target-absent Human Attention
Abstract
预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文中,我们提出了一种数据驱动的计算模型,解决了搜索终止问题,并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题,并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识,称为聚焦特征图(FFMs)。FFMs将一个模拟的中央视网膜集成到一个预训练的卷积神经网络(ConvNet)中,该网络生成一个网络内的特征金字塔,并且几乎没有计算开销。我们的方法将FFMs作为状态表示集成到反向强化学习中。从实验结果来看,我们在COCO-Search18数据集上提高了预测人类目标缺失搜索行为的现有技术水平。代码可在以下链接找到:https://github.com/cvlab-stonybrook/Target-absentHuman-Attention。
关键词:视觉搜索、人类注意力、反向强化学习、注视路径预测、终止预测、目标缺失
Introduction
人类用来优先选择和筛选视觉信息的注意力机制[37,36,35],引起了计算机视觉研究人员的兴趣,他们希望在机器中复制这种选择效率[43,8,44,7,38]。研究这种效率的最常用范式是视觉搜索任务,其中效率是通过检测图像中的目标所需的注意力转移(凝视注视点)次数来衡量的。但如果目标不在图像中呢?理解目标缺失搜索中的凝视行为(包括搜索终止)将有助于人机交互应用,并解决注意力研究中的一些基本问题。任何预测人类搜索注视点的模型,如果没有解决目标缺失搜索所带来的独特问题,都不算完整。
灵长类动物的中央视网膜(黄斑)神经解剖结构使得视觉锐度随着与高分辨率中心黄斑的距离增加而降低。在寻找目标时,这种黄斑视网膜驱使人们选择性地将眼睛移向最有可能是目标的图像位置,从而为目标识别任务提供最高分辨率的视觉输入,每次凝视的移动都由来自周边视觉的低分辨率输入引导。认识到人类视觉输入是通过黄斑视网膜过滤的,对于理解和预测人类凝视行为至关重要,尤其是在目标缺失搜索中,因为此时没有明确的目标信号,凝视行为更多地受到与其他物体的上下文关系和可能提供目标位置的空间线索的驱动。
为了模拟黄斑视网膜以预测人类的搜索凝视,Zelinsky等人[44]直接将预训练的ResNet[16]应用于黄斑图像[34],以提取特征图作为状态表示。Yang等人[43]提出了DCB(多尺度卷积块),通过分别使用完整分辨率图像和其模糊版本的分割图,近似高分辨率的黄斑和低分辨率的外周,后者通过预训练的Panoptic-FPN[22]进行预测。像其他预测人类注意力的模型[31,25,26,7,46]一样,这些方法依赖于预训练网络来提取图像特征,并通过迁移学习训练较小的下游网络,通常是由于缺乏足够的人类凝视数据进行训练。值得注意的是,这些方法应用了在完整分辨率图像上预训练的网络(例如,使用ImageNet[39]训练的ResNets[16]),并将其应用于模糊图像,期望这些预训练网络能够模拟人类如何感知模糊图像。然而,卷积神经网络(ConvNets)对图像扰动非常敏感[17,13],因此从模型中提取的模糊图像特征在目标识别的上下文中几乎没有意义(与人类视觉不同,人类视觉会主动寻求低分辨率外周视觉的指导来帮助目标识别)。
“缺乏足够的人类凝视数据”与“使用预训练的ResNet”之间的关联,主要体现在如何通过迁移学习和预训练网络来缓解数据不足问题,特别是在目标任务(如人类凝视点预测)上。下面是详细的解释:
1. 缺乏足够的人类凝视数据
在凝视点预测等任务中,标注数据(即标出图片中人眼凝视的位置)通常是稀缺的、昂贵的,并且收集过程非常复杂。例如,收集大量带有准确凝视位置的图像需要人工标注,这不仅耗时,而且数据量通常远远不够训练一个高效的深度学习模型。因此,在许多视觉任务中,标注的数据量有限,导致直接从头开始训练深度学习模型变得困难。
2. 预训练网络(如 ResNet)如何帮助解决这个问题
预训练网络的作用
预训练网络(如在ImageNet上训练的ResNet)已经通过大规模数据集(例如 ImageNet,包含了上百万个标注图像)学习到了通用的图像特征。这些特征包括但不限于:
- 物体的形状、纹理
- 图像中的边缘、角点等低级特征
- 复杂物体的构成关系
通过这些学习到的通用特征,网络能够理解并提取图像中最基本的信息,这对于很多视觉任务来说是通用且有效的。
迁移学习与数据不足的关系
迁移学习的核心思想是,利用在大规模数据集(如 ImageNet)上训练的网络,这个网络已经具备了强大的图像特征提取能力。当我们面对一个数据稀缺的任务时(例如凝视点预测),我们可以将预训练网络的参数迁移到新的任务中,并对其进行微调(fine-tuning),即对网络进行少量的再训练,以使其适应新的任务(例如凝视点预测)。
为什么可以弥补数据不足的问题:
- 预训练网络学到的通用特征可以迁移到不同的任务上,甚至是没有大量标注数据的任务。
- 微调:我们并不需要从零开始训练网络,而是利用预训练网络已经学习到的知识(通用的图像特征),然后仅在少量的凝视点数据上进行微调。这意味着,我们可以用相对较少的数据来适应特定的任务,而不是完全
相关文章:
Target-absent Human Attention
Abstract 预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文…...

<QNAP 453D QTS-5.x> 日志记录:在 Docker 中运行的 Flask 应用安装 自签名 SSL 证书 解决 Chrome 等浏览器证书安全
原因:Chrome 不信任 ssc 证书 使启用了 HTTPS,即使有使用 自签名证书 (self-signed certificate 非由可信的证书颁发机构 【CA,Certificate Authority】签发的)。浏览器 Chrome 默认不信任自签名证书,也会报 NET::ERR_…...

通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
1. 获取 Access Tokens 在使用huggingface-cli命令下载之前需要先去官网获取 Access Tokens: 获取tokens的官网链接:https://huggingface.co/settings/tokens点击新增 token: 然后选择 write 权限: 最后,这个 Access…...

论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
一.基本信息 论文名称:Intrusion detection systems using longshort‑term memory (LSTM) 中文翻译:基于长短期记忆(LSTM)的入侵检测系统 DOI:10.1186/s40537-021-00448-4 作者:FatimaEzzahra Laghrissi1* , Samira Douzi2*, Kha…...
SparkSQL的执行过程:从源码角度解析逻辑计划、优化计划和物理计划
SparkSQL的执行过程可以分为以下几个阶段:从用户的SQL语句到最终生成的RDD执行,涵盖逻辑计划、优化计划和物理计划。以下是详细的源码角度解析: 1. 解析阶段(Parsing) SQL语句解析:Spark 使用 Catalyst 引…...

Leetcode打卡:新增道路查询后的最短距离II
执行结果:通过 题目:3244 新增道路查询后的最短距离II 给你一个整数 n 和一个二维整数数组 queries。 有 n 个城市,编号从 0 到 n - 1。初始时,每个城市 i 都有一条单向道路通往城市 i 1( 0 < i < n - 1&…...

Spring Web入门练习
加法计算器 约定前后端交互接⼝ 约定 "前后端交互接⼝" 是进⾏ Web 开发中的关键环节. 接⼝⼜叫 API(Application Programming Interface), 我们⼀般讲到接⼝或者 API,指的都是同⼀个东西. 是指应⽤程序对外提供的服务的描述, ⽤于交换信息…...

计算机毕业设计 | SpringBoot+vue汽车资讯网站 汽车购买咨询管理系统(附源码+论文)
1,绪论 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理汽车资讯网站的相关信息成为必然…...

stm32下的ADC转换(江科协 HAL版)
十二. ADC采样 文章目录 十二. ADC采样12.1 ADC的采样原理12.2 STM32的采样基本过程1.引脚与GPIO端口的对应关系2.ADC规则组的四种转换模式(**)2.2 关于转换模式与配置之间的关系 12.3 ADC的时钟12.4 代码实现(ADC单通道 & ADC多通道)1. 单通道采样2. 多通道采样 19.ADC模数…...

解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件
勾选Auto-detect proxy setting并填入 https://plugins.jetbrains.com 代理URL,可以先做检查连接:...

react 如何修改弹出的modal的标题
原来标题的样子: 修改为: 实现方式: <Modal title<span>股价趋势/{this.state.pccode}</span> visible{this.state.isPriceModalOpen} style{{ top: 20 }} width{1320} height{400} footer{null} onCancel{()>this.hideMo…...

C#中的二维数组的应用:探索物理含义与数据结构的奇妙融合
在C#编程中,二维数组(或矩阵)是一种重要的数据结构,它不仅能够高效地存储和组织数据,还能通过其行、列和交叉点(备注:此处相交处通常称为“元素”或“单元格”,代表二维数组中的一个…...

HTML5拖拽API学习 托拽排序和可托拽课程表
文章目录 前言拖拽API核心概念拖拽式使用流程例子注意事项综合例子🌰 可拖拽课程表拖拽排序 前言 前端拖拽功能让网页元素可以通过鼠标或触摸操作移动。HTML5 提供了标准的拖拽API,简化了拖放操作的实现。以下是拖拽API的基本使用指南: 拖拽…...
内容补充页(相关公式解释)
from 学习日记_20241117_聚类方法(高斯混合模型) 学习日记_20241117_聚类方法(高斯混合模型) 公式 P ( Z k ) π k P(Zk) \pi_k P(Zk)πk 在高斯混合模型 (GMM) 中,公式 P ( Z k ) π k P(Zk) \pi_k P(Zk…...

vue中动态渲染静态图片资源
不报错且f12查看元素的时候,显示的src说明已经渲染到html的src上,但是就是不显示在页面上 原因 在vue上,动态渲染静态图片资源(比如从assets文件夹加载的图片)需要注意打包工具对静态资源的解析方式 由于vue2的脚手…...

管伊佳ERP,原名华夏ERP,一个简约易上手的国产ERP系统
JSH_ERP(管伊佳ERP)是一款开源、模块化的企业资源计划系统,旨在为中小企业提供高效的管理工具。它基于SpringBoot框架和SaaS模式,支持进销存、财务、生产等业务模块,包括零售、采购、销售、仓库和报表管理。 核心特点…...

学习虚幻C++开发日志——委托(持续更新中)
委托 官方文档:Delegates and Lamba Functions in Unreal Engine | 虚幻引擎 5.5 文档 | Epic Developer Community | Epic Developer Community 简单地说,委托就像是一个“函数指针”,但它更加安全和灵活。它允许程序在运行时动态地调用不…...

开窗函数 - first_value/last_value
1、开窗函数是什么? 开窗函数用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。 2、…...

「一」HarmonyOS端云一体化概要
关于作者 白晓明 宁夏图尔科技有限公司董事长兼CEO、坚果派联合创始人 华为HDE、润和软件HiHope社区专家、鸿蒙KOL、仓颉KOL 华为开发者学堂/51CTO学堂/CSDN学堂认证讲师 开放原子开源基金会2023开源贡献之星 「目录」 「一」HarmonyOS端云一体化概要 「二」体验HarmonyOS端云一…...

nodejs21: 快速构建自定义设计样式Tailwind CSS
Tailwind CSS 是一个功能强大的低级 CSS 框架,只需书写 HTML 代码,无需书写 CSS,即可快速构建美观的网站。 1. 安装 Tailwind CSS React 项目中安装 Tailwind CSS: 1.1 安装 Tailwind CSS 和相关依赖 安装 Tailwind CSS: npm…...
SciencePlots——绘制论文中的图片
文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了:一行…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...
QMC5883L的驱动
简介 本篇文章的代码已经上传到了github上面,开源代码 作为一个电子罗盘模块,我们可以通过I2C从中获取偏航角yaw,相对于六轴陀螺仪的yaw,qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

基于Flask实现的医疗保险欺诈识别监测模型
基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...

srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
Linux云原生安全:零信任架构与机密计算
Linux云原生安全:零信任架构与机密计算 构建坚不可摧的云原生防御体系 引言:云原生安全的范式革命 随着云原生技术的普及,安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测,到2025年,零信任架构将成为超…...

2025盘古石杯决赛【手机取证】
前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来,实在找不到,希望有大佬教一下我。 还有就会议时间,我感觉不是图片时间,因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...

PL0语法,分析器实现!
简介 PL/0 是一种简单的编程语言,通常用于教学编译原理。它的语法结构清晰,功能包括常量定义、变量声明、过程(子程序)定义以及基本的控制结构(如条件语句和循环语句)。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言,由 Niklaus Wirth 设计,用于展示编译原理的核…...
C++.OpenGL (20/64)混合(Blending)
混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...
OD 算法题 B卷【正整数到Excel编号之间的转换】
文章目录 正整数到Excel编号之间的转换 正整数到Excel编号之间的转换 excel的列编号是这样的:a b c … z aa ab ac… az ba bb bc…yz za zb zc …zz aaa aab aac…; 分别代表以下的编号1 2 3 … 26 27 28 29… 52 53 54 55… 676 677 678 679 … 702 703 704 705;…...