当前位置：首页 > article >正文

[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill

article 2026/4/18 3:32:22

论文网址Spatial-temporal attention for video-based assessment of intraoperative surgical skill | Scientific Reports目录1. 心得2. 论文逐段精读2.1. Abstract2.2. Introduction2.2.1. Related work2.3. Method2.3.1. Supervised spatial attention2.3.2. Multi-task learning baseline model2.3.3. Unsupervised temporal attention2.3.4. Integration with networks2.3.5. No attention network2.4. Experiments and discussion2.4.1. Dataset2.4.2. Data processing2.4.3. Results2.4.4. Discussion2.5. Conclusion1. 心得1每个模块都有多个选择看起来有点混乱主要是也没有给整个大图2. 论文逐段精读2.1. Abstract①目的开发和验证基于视频评估术中手术技能novice n.新手初学者(修会等的)初学生初学修士(或修女)尚未赢过大赛的赛马2.2. Introduction①基于视频的评估Video-based assessmentVBA可以有效评估手术技能2.2.1. Related work①技能评估方法直接从视频、仪器运动、或相互作用②第一行为有监督下的注意力图第二列为无监督的2.3. Method①使用从ImageNet预训练的ResNet-50然后用线性映射把特征变换为注意力图2.3.1. Supervised spatial attention①空间注意力模块其中selection和aggregation只会选其中一种时间特征是可选输入,SAMG是空间注意力五个绿色方块是五层卷积层②其中是高是宽是帧数。时空特征是来源于LSTM的隐藏状态③图中的计算步骤其中三个是不同的权重矩阵④如果器械尖端落在像素点的CNN感受野范围内就计1⑤损失函数其中⑥提出的聚合操作把特征图每个像素点乘上注意力权重⑦提出的选择操作找出注意力值最大的像素点坐标然后取这个坐标的特征值2.3.2. Multi-task learning baseline model①在上图添加关键点定位分支和损失②计算高斯热图2.3.3. Unsupervised temporal attention①时间注意力机制LSTM每一帧隐藏状态先用最后一帧隐藏态和所有帧算相似度然后归一化这些相似度得到时间注意力最后用注意力乘回特征2.3.4. Integration with networks①集成不同网络CNN-LSTM、CNN-GRU、CNN-Transformer2.3.5. No attention network①无注意力机制其中空间注意力模块被平均聚合取代2.4. Experiments and discussion2.4.1. Dataset①源数据集使用Video-based assessment of intraoperative surgical skill | International Journal of Computer Assisted Radiology and Surgery | Springer Nature Link和Objective assessment of intraoperative technical skill in capsulorhexis using videos of cataract surgery | International Journal of Computer Assisted Radiology and Surgery | Springer Nature Link的数据集数据集包含99段白内障撕囊capsulorhexis视频处理至640*480分辨率和59帧每秒医生为撕囊评分2~5Likert scale②目标数据集纳入51段统一机构但几年后采集的视频不包含尖端注释③数据集间统计差异④数据集标签差异2.4.2. Data processing①训练时每个视频采样256帧的片段随机选定起始帧然后每8帧采集一次一直重复②测试时采样三次片段取平均③数据正确随机裁剪、色彩抖动、水平翻转和随机旋转仪器尖端坐标一起变④模型实现⑤用Adam优化器初始学习率为1e-3批量大小为2多任务批次为1⑥解冻ResNet-50骨干网的最后一个块⑦⑧交叉验证五折2.4.3. Results①对比实验②消融实验③替换时间模型架构2.4.4. Discussion①~2.5. Conclusion~

[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill

相关文章：

[Sci Rep 2024]Spatial-temporal attention for video-based assessment of intraoperative surgical skill

Anthropic造了个“太危险不敢发“的AI，OpenAI 7天后正面刚

嵌入式开发中APQP框架的实践与优化

vivado2020.2 工程导出为tcl并rebuild（二）

忍者像素绘卷惊艳效果：云端画坊UI交互+物理反馈+像素质感全流程演示

Qwen2.5-14B-Instruct镜像免配置：像素剧本圣殿Helm Chart一键部署K8s集群

给Python异步代码加上类型提示（Type Hints）

51万行核心代码一夜“开源”，信仰崩塌：“我不想用Ai了”

从上传到导出：清音听真1.7B语音识别完整操作流程详解

名包名表回收门店有哪些

富集分析结果太杂乱？3个ggplot2技巧让你的气泡图秒变高颜值SCI配图

ARINC 429协议解析：航空电子数据总线的核心原理与应用

Python调试神器：Pdb命令速查手册

时序抖动：概念、测量与系统设计优化

Unity中Dropdown与TMP_Dropdown的OnValueChange事件优化：解决单选项点击无响应问题

解决‘找不到.so文件’：GCC动态链接库编译成功后运行报错的三种终极解决方案

【全网首家】Claude Opus 4.7 vs Opus 4.6 实测对比：7 项测试跑完后，我发现升级最值的是 coding 和 debug

python python-semantic-release

python commitizen

python pre-commit-hooks

Java物联网项目源码 | TCP IP、HTTP、MQTT通讯协议 | 实时监控、报警信息、...

MedGemma Medical Vision Lab效果展示：病理切片WSI低倍镜下肿瘤区域与淋巴细胞浸润密度文本评估

跨平台Gitea数据迁移实战指南

保姆级避坑指南：Ubuntu 20.04 LTS源码编译Qt 5.15.2全流程

OpenClaw部署与调用本地部署的大模型

golang如何实现用户积分系统_golang用户积分系统实现总结

SQL处理大规模分组聚合的内存限制_调整服务器配置

从BUUCTF一道RSA难题看e与φ不互素问题的AMM算法实战解析

从“完全或无”到IND-CCA2：公钥加密安全模型的演进与实战解析

Fastjson的AutoType：从‘得力助手’到‘安全噩梦’，我们该如何用SafeMode优雅收场？