当前位置: 首页 > article >正文

[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill

论文网址Spatial-temporal attention for video-based assessment of intraoperative surgical skill | Scientific Reports目录1. 心得2. 论文逐段精读2.1. Abstract2.2. Introduction2.2.1. Related work2.3. Method2.3.1. Supervised spatial attention2.3.2. Multi-task learning baseline model2.3.3. Unsupervised temporal attention2.3.4. Integration with networks2.3.5. No attention network2.4. Experiments and discussion2.4.1. Dataset2.4.2. Data processing2.4.3. Results2.4.4. Discussion2.5. Conclusion1. 心得1每个模块都有多个选择看起来有点混乱主要是也没有给整个大图2. 论文逐段精读2.1. Abstract①目的开发和验证基于视频评估术中手术技能novice n.新手初学者(修会等的)初学生初学修士(或修女)尚未赢过大赛的赛马2.2. Introduction①基于视频的评估Video-based assessmentVBA可以有效评估手术技能2.2.1. Related work①技能评估方法直接从视频、仪器运动、或相互作用②第一行为有监督下的注意力图第二列为无监督的2.3. Method①使用从ImageNet预训练的ResNet-50然后用线性映射把特征变换为注意力图2.3.1. Supervised spatial attention①空间注意力模块其中selection和aggregation只会选其中一种时间特征是可选输入,SAMG是空间注意力五个绿色方块是五层卷积层②其中是高是宽是帧数。时空特征是来源于LSTM的隐藏状态③图中的计算步骤其中三个是不同的权重矩阵④如果器械尖端落在像素点的CNN感受野范围内就计1⑤损失函数其中⑥提出的聚合操作把特征图每个像素点乘上注意力权重⑦提出的选择操作找出注意力值最大的像素点坐标然后取这个坐标的特征值2.3.2. Multi-task learning baseline model①在上图添加关键点定位分支和损失②计算高斯热图2.3.3. Unsupervised temporal attention①时间注意力机制LSTM每一帧隐藏状态先用最后一帧隐藏态和所有帧算相似度然后归一化这些相似度得到时间注意力最后用注意力乘回特征2.3.4. Integration with networks①集成不同网络CNN-LSTM、CNN-GRU、CNN-Transformer2.3.5. No attention network①无注意力机制其中空间注意力模块被平均聚合取代2.4. Experiments and discussion2.4.1. Dataset①源数据集使用Video-based assessment of intraoperative surgical skill | International Journal of Computer Assisted Radiology and Surgery | Springer Nature Link和Objective assessment of intraoperative technical skill in capsulorhexis using videos of cataract surgery | International Journal of Computer Assisted Radiology and Surgery | Springer Nature Link的数据集数据集包含99段白内障撕囊capsulorhexis视频处理至640*480分辨率和59帧每秒医生为撕囊评分2~5Likert scale②目标数据集纳入51段统一机构但几年后采集的视频不包含尖端注释③数据集间统计差异④数据集标签差异2.4.2. Data processing①训练时每个视频采样256帧的片段随机选定起始帧然后每8帧采集一次一直重复②测试时采样三次片段取平均③数据正确随机裁剪、色彩抖动、水平翻转和随机旋转仪器尖端坐标一起变④模型实现⑤用Adam优化器初始学习率为1e-3批量大小为2多任务批次为1⑥解冻ResNet-50骨干网的最后一个块⑦⑧交叉验证五折2.4.3. Results①对比实验②消融实验③替换时间模型架构2.4.4. Discussion①~2.5. Conclusion~

相关文章:

[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill

论文网址:Spatial-temporal attention for video-based assessment of intraoperative surgical skill | Scientific Reports 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2.2. Introduction 2.2.1. Related work 2.3. Method 2.3.1. Supervised spatial at…...

Anthropic造了个“太危险不敢发“的AI,OpenAI 7天后正面刚

4月7号,Anthropic发了一篇博客,标题平平无奇,“Claude Mythos Preview”。 但博客里有一句话,直接把安全圈炸了:“这是我们有史以来构建的最强大的AI模型。” 三天后,Tom’s Hardware挖出了更猛的细节&…...

嵌入式开发中APQP框架的实践与优化

1. APQP框架与嵌入式开发的融合基础在汽车电子领域,高级产品质量规划(APQP)早已成为产品开发的金标准。但当我第一次尝试将这套方法论移植到嵌入式软件开发时,发现传统硬件开发思维与软件工程实践存在显著鸿沟。经过多个汽车ECU项…...

vivado2020.2 工程导出为tcl并rebuild(二)

这篇文档承接vivado2020.2 工程导出为tcl并rebuild(一)在上一篇文档中,遗留一个问题,就是重建后的工程中有import文件夹,下面的内容为大家提供另一个解决方案。前期准备检查工程,经过实验,如果工…...

忍者像素绘卷惊艳效果:云端画坊UI交互+物理反馈+像素质感全流程演示

忍者像素绘卷惊艳效果:云端画坊UI交互物理反馈像素质感全流程演示 1. 像素艺术新纪元:忍者绘卷效果总览 忍者像素绘卷是基于Z-Image-Turbo深度优化的图像生成工作站,它将传统忍者文化与16-Bit复古游戏美学完美融合。这款工具最引人注目的特…...

Qwen2.5-14B-Instruct镜像免配置:像素剧本圣殿Helm Chart一键部署K8s集群

Qwen2.5-14B-Instruct镜像免配置:像素剧本圣殿Helm Chart一键部署K8s集群 1. 产品概述 像素剧本圣殿(Pixel Script Temple)是一款基于Qwen2.5-14B-Instruct深度微调的专业剧本创作工具。它将顶尖的AI推理能力与8-Bit复古美学完美融合&#…...

给Python异步代码加上类型提示(Type Hints)

为Python异步代码添加类型提示:提升健壮性与可维护性 在Python生态中,异步编程(asyncio)已成为处理高并发场景的核心工具,但动态类型的特性使得代码在复杂项目中容易变得难以维护。通过引入类型提示(Type …...

51万行核心代码一夜“开源”,信仰崩塌:“我不想用Ai了”

点击“开发者技术前线”,选择“星标”让一部分开发者看到未来来源丨开发者技术前线Claude Code 51万行核心代码一夜“开源”,以“AI安全”为信仰的 Anthropic 因一个 .map 文件翻车。随后官方立马修复了这个问题。但一场人为失误引发的连锁反应&#xff…...

从上传到导出:清音听真1.7B语音识别完整操作流程详解

从上传到导出:清音听真1.7B语音识别完整操作流程详解 1. 认识清音听真1.7B语音识别系统 语音识别技术已经发展到了一个令人惊喜的阶段。想象一下,你刚参加完一场重要的会议,录音里混杂着各种背景噪音和多人发言,传统工具要么识别…...

名包名表回收门店有哪些

在奢侈品市场日益繁荣的当下,名包名表回收需求也日益增长。不少人都想了解有哪些名包名表回收门店,下面为大家详细介绍。市场常见回收门店类型市场上的名包名表回收门店主要有连锁门店和个体小店。连锁门店通常具有统一的品牌形象和服务标准,…...

富集分析结果太杂乱?3个ggplot2技巧让你的气泡图秒变高颜值SCI配图

富集分析结果太杂乱?3个ggplot2技巧让你的气泡图秒变高颜值SCI配图 科研论文中的图表质量直接影响审稿人对研究成果的第一印象。对于生物信息学分析而言,富集分析(如GO、KEGG、GSEA)的结果可视化尤为关键——它不仅需要准确传达数…...

ARINC 429协议解析:航空电子数据总线的核心原理与应用

1. ARINC 429协议概述:航空电子系统的神经脉络在波音747的驾驶舱内,当飞行员调整飞行高度时,这个指令会通过一组特殊的双绞线以100kbps的速度传输到飞行控制计算机——这背后正是ARINC 429在发挥作用。作为现代航空电子系统的"普通话&qu…...

Python调试神器:Pdb命令速查手册

Pdb 调试命令速查表 基础命令 查看代码 l # 显示当前位置附近的代码(11行) ll # 显示当前函数的完整代码 w # 显示调用栈(where) list 10, 20 # 显示第10-20行…...

时序抖动:概念、测量与系统设计优化

1. 时序抖动的基础概念与影响机制在数字系统设计中,时序抖动(Jitter)是指时钟信号边沿相对于理想位置的偏差。这种看似微小的偏差会对系统性能产生深远影响,特别是在高速数据传输和精密信号处理领域。想象一下交响乐团的指挥手势出…...

Unity中Dropdown与TMP_Dropdown的OnValueChange事件优化:解决单选项点击无响应问题

1. 问题背景:Dropdown单选项点击无响应的尴尬 最近在做一个Unity项目时,遇到了一个让人抓狂的问题:当Dropdown下拉框只有一个选项时,无论怎么点击都不会触发OnValueChange事件。这简直就像按电梯按钮没反应一样让人烦躁。想象一下…...

解决‘找不到.so文件’:GCC动态链接库编译成功后运行报错的三种终极解决方案

解决‘找不到.so文件’:GCC动态链接库编译成功后运行报错的终极指南 当你满心欢喜地用gcc -fPIC -shared编译好动态库,再用gcc main.c -L. -lxxx生成可执行文件,却在运行时遭遇"error while loading shared libraries: libxxx.so: canno…...

【全网首家】Claude Opus 4.7 vs Opus 4.6 实测对比:7 项测试跑完后,我发现升级最值的是 coding 和 debug

Claude Opus 4.7 vs Opus 4.6 实测对比:7 项测试跑完后,我发现升级最值的是 coding 和 debug 通过 Crazyrouter AI API 网关,对 Claude Opus 4.7 和 Opus 4.6 做了 7 组真实场景测试。不是只看发布文案,也不是只看官方说法&#x…...

python python-semantic-release

# 关于Python Semantic Release的一些个人看法 平时做项目,版本号管理是个挺麻烦的事情。一开始可能觉得简单,手动改改__version__就行,但随着项目规模变大、协作的人变多,这个问题就复杂起来了。什么时候该升主版本号&#xff1f…...

python commitizen

# 关于Python Commitizen,你可能需要知道这些 在团队协作开发中,代码提交信息的质量常常被忽视,却直接影响项目的可维护性。杂乱无章的提交信息就像没有标签的档案柜,时间一长,谁都说不清某个改动究竟为何发生。Python…...

python pre-commit-hooks

## 关于Python pre-commit hooks,一些实际工作中的思考 在团队协作开发Python项目时,经常会遇到这样的场景:有人提交了代码,但忘记格式化,或者引入了语法错误,或者提交了调试用的print语句。这些问题虽然不…...

Java物联网项目源码 | TCP IP、HTTP、MQTT通讯协议 | 实时监控、报警信息、...

Java物联网项目源码使用技术:JAVA [ springmvc / spring / mybatis ] 、Mysql 、Html 、Jquery 、css协议和优势:TCP/IP、HTTP、MQTT 通讯协议。系统包括:后台服务,传感器解析服务、web展示;目前web系统支持功能&#…...

MedGemma Medical Vision Lab效果展示:病理切片WSI低倍镜下肿瘤区域与淋巴细胞浸润密度文本评估

MedGemma Medical Vision Lab效果展示:病理切片WSI低倍镜下肿瘤区域与淋巴细胞浸润密度文本评估 1. 引言:当AI遇见病理切片分析 病理切片分析是医学诊断中的重要环节,但传统的人工分析方式存在效率低、主观性强等挑战。今天我们要展示的Med…...

跨平台Gitea数据迁移实战指南

1. 为什么需要跨平台Gitea数据迁移 最近在帮朋友处理一个Gitea服务器迁移的项目时,遇到了一个棘手的问题:他们原来的Gitea服务运行在Windows服务器上,现在需要迁移到Ubuntu系统。这让我意识到,很多团队在基础设施升级或架构调整时…...

保姆级避坑指南:Ubuntu 20.04 LTS源码编译Qt 5.15.2全流程

1. 为什么选择源码编译Qt 5.15.2? 在Ubuntu 20.04 LTS上安装Qt通常有两种方式:通过apt安装预编译版本,或者从源码编译安装。源码编译虽然步骤繁琐,但能带来三个关键优势:版本可控(官方仓库的Qt版本往往较旧…...

OpenClaw部署与调用本地部署的大模型

记录一下这个部署过程:不想调云端API,毕竟花钱买Token还是有点肉疼,所以打算在本地部一个大模型。有一台放在内网机房的服务器,用来做大模型的宿主机。有了大模型之后,需要找个终端来运行 OpenClaw 框架,所…...

golang如何实现用户积分系统_golang用户积分系统实现总结

积分系统需用数据库原子更新或Redis原子命令操作,强制记录含幂等ID的完整流水,查询分场景选DB直查或带TTL的Redis缓存,扣减前校验余额与状态,逆向冲正依赖流水source和幂等ID。积分增减必须用原子操作,别直接读-改-写并…...

SQL处理大规模分组聚合的内存限制_调整服务器配置

MySQL分组聚合OOM时应调大tmp_table_size和max_heap_table_size而非sort_buffer_size;PostgreSQL需按并发和操作数合理设work_mem;ClickHouse需联动max_threads配置max_bytes_before_external_group_by。MySQL分组聚合OOM时,sort_buffer_size…...

从BUUCTF一道RSA难题看e与φ不互素问题的AMM算法实战解析

1. 当RSA遇上特殊条件:e与φ(n)不互素问题 第一次遇到RSA题目时,很多CTF选手都会觉得"这不就是白给题吗?"——毕竟只要知道p和q,按照标准流程计算私钥d就能解密。但现实往往给我们当头一棒:当公钥指数e与欧拉…...

从“完全或无”到IND-CCA2:公钥加密安全模型的演进与实战解析

1. 公钥加密安全模型的演进之路 我第一次接触公钥加密安全模型时,完全被各种缩写搞晕了。直到在实际项目中踩过几次坑,才真正理解这些安全等级的重要性。想象一下,你给朋友寄了个带锁的箱子,从"完全或无"到IND-CCA2&…...

Fastjson的AutoType:从‘得力助手’到‘安全噩梦’,我们该如何用SafeMode优雅收场?

Fastjson的AutoType:从‘得力助手’到‘安全噩梦’,我们该如何用SafeMode优雅收场? 在Java生态中,Fastjson以其卓越的性能和简洁的API长期占据JSON处理库的榜首。但近年来,这个明星库却因为一个名为AutoType的特性频频…...