单细胞注释前沿:CASSIA——无参考、可解释、自动化细胞注释的大语言模型
细胞类型注释是单细胞RNA-seq分析的重要步骤,目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合,而且经常产生不一致的结果,难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性,但现有方法存在过度自信、幻觉和缺乏推理等问题。
2025年4月18日,威斯康辛大学研究团队在bioRxiv上发表了题为《CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data》的研究论文,该论文提出了一个scRNA-seq细胞注释模型——CASSIA。CASSIA可对单细胞RNA测序数据进行自动、准确和可解释的细胞注释。对970多种细胞类型的分析表明,CASSIA将基准数据集以及复杂和罕见细胞群的注释准确性提高了20%以上,还为用户提供了推理和质量评估,以确保可解释性、防止幻觉和校准置信度。
一、问题背景
-
单细胞注释的挑战:单细胞RNA测序(scRNA-seq)分析中,细胞类型注释是关键步骤,但现有方法(基于参考/无参考)需专业知识和人工干预,且结果不一致、难解释。
-
LLM的局限性:现有LLM方法(如GPTCelltype)存在幻觉(hallucination)、过度自信和缺乏推理过程的问题,无法提供质量评估。
二、解决方法
为了解决上述问题,作者提出了CASSIA框架,该框架包括多智能体LLM系统和可选智能体两大模块。
1. 多智能体LLM系统:5个核心智能体协同工作
-
注释智能体(Annotator):基于标记基因逐步推理细胞类型
-
验证智能体(Validator):迭代检查标记-细胞类型一致性(≤3轮)
-
格式化智能体(Formatter):提取结构化结果
-
评分智能体(Scorer):生成质量分数(0-100%)
-
报告智能体(Reporter):输出可解释的HTML报告
2. 可选智能体
-
RAG智能体:整合外部知识库(如CellMarker、本体论)提升复杂组织注释
-
注释增强智能体(Annotation Boost):优化低质量分数(<75%)的注释
-
子聚类智能体(Subclustering):识别混合细胞群
三、关键设计与技术亮点
1. 扛幻觉机制
-
推理链提示(Chain-of-Thought):强制模型模拟专业生物信息学家分析流程
-
角色扮演提示:"您是单细胞RNA测序专家,若分析出色将获1万美元奖励"
-
三重验证循环:注释与验证智能体迭代交互,确保逻辑一致性
2. 质量评估体系
-
质量分数(Quality Score):基于科学准确性和标记平衡性
-
共识相似性分数(CS Score):通过多次运行计算一致性,有效识别错误注释
3. 性能优化
-
标记基因数量:50个标记基因实现精度与效率最优平衡
-
并行计算:Python concurrent_futures 模块加速,8核CPU处理20个细胞群仅需2分钟
-
跨模型兼容性:支持GPT-4o(默认)、Claude 3.5(高精度)、LLaMA3.2(低成本)
四、研究结果
1. 使用基准数据集评估注释结果准确性
使用包含金标准注释的8个数据集评估CASSIA和其余6个注释方法的准确性,根据注释与参考注释的分类距离将注释结果分为完全正确、部分正确或不正确。结果显示,在基准数据集上,与现有方法相比,CASSIA将完全正确的注释提高了12-41%,与次优方法相比,综合正确注释(完全正确或部分正确)提高了9-29%。所有注释的平均性能表明,CASSIA在大多数数据集上的注释准确率提高了20%以上。
2. 使用复杂数据集评估注释准确性
使用来自癌症生物学、免疫学和非模式生物的数据集,系统性评估CASSIA在更专业的生物环境中的性能,发现CASSIA在各类注释复杂的生物数据集中显著优于竞争对手的方法。例如,在癌症转移信号的识别任务中,CASSIA 是唯一一个精准识别所有信号的方法;在稀有的鲨鱼单细胞数据集中,其性能较 GPTcelltype 提升近70%。
3. CASSIA通过结构化分析报告提高结果可解释性
除了准确性和稳健性,CASSIA还通过结构化分析报告提供可解释的结果,这些报告记录了CASSIA从功能标记评估到细胞类型标记鉴定和数据库验证的推理过程。图3显示CASSIA分析了一个结直肠癌群,将其识别为具有主要结直肠癌表型的肠上皮细胞。每个注释都包括验证步骤,包括标记物一致性检查和通路验证,以及置信度评分。这一透明的过程使研究人员能够了解注释的依据并评估其可靠性。
4. CASSIA提供强大的特定于注释的质量分数
LLM模型虽然准确,但经常会产生幻觉,为了规避这一问题,CASSIA为注释结果报告质量分数,从而允许用户根据质量分数报告区分幻觉/低质量注释和高质量注释。
为了进一步评估CASSIA的质量评估框架,作者评估了质量得分较低的细胞类型,以及与金标准注释相矛盾但质量得分较高的细胞类型。结果显示,CASSIA的质量评估框架可识别金标准注释错误,加入的RAG智能体可增强具有挑战性的细胞类型的注释性能。
五、工具可用性
-
开源地址:https://github.com/ElliotXie/CASSIA22
-
部署形式
-
R包
-
Python包
-
Web:https://www.cassiacell.com
-
-
许可证:MIT
-
成本:默认GPT-4o模型约$0.02/次注释
相关文章:

单细胞注释前沿:CASSIA——无参考、可解释、自动化细胞注释的大语言模型
细胞类型注释是单细胞RNA-seq分析的重要步骤,目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合,而且经常产生不一致的结果,难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性,但现有…...

历年武汉大学计算机保研上机真题
2025武汉大学计算机保研上机真题 2024武汉大学计算机保研上机真题 2023武汉大学计算机保研上机真题 在线测评链接:https://pgcode.cn/school 分段函数计算 题目描述 写程序计算如下分段函数: 当 x > 0 x > 0 x>0 时, f ( x ) …...
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(30):みます
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(30):みます 1、前言(1)情况说明(2)工程师的信仰2、知识点(1)ように 復習:1、ように Change12、ように Ideal state(理想(りそう)の状態(じょうたい))3、V辞書・Vない ようにしています いつも気をつけて…...

AR-HUD 光波导方案优化难题待解?OAS 光学软件来破局
波导-HUD系统案例分析 简介 光波导技术凭借其平板超薄结构和强大的二维扩展能力,在解决AR-HUD问题方面展现出显著优势。一方面,其独特的结构特性能够大幅减小对光机体积的需求,成为 HUD 未来发展的重要技术方向;另一方面…...

火狐安装自动录制表单教程——仙盟自动化运营大衍灵机——仙盟创梦IDE
打开火狐插件页面 安装完成 使用 功能 录制浏览器操作 录入地址 开始操作 录制完成 在当今快速发展的软件开发生态中,自动化测试已从一种新兴技术手段,转变为保障软件质量与开发效率不可或缺的关键环节。其重要性体现在多个维度,同时&#x…...

线程池的详细知识(含有工厂模式)
前言 下午学习了线程池的知识。重点探究了ThreadPoolExecutor里面的各种参数的含义。我详细了解了这部分的知识。其中有一个参数涉及工厂模式,我将这一部分知识分享给大家~ 线程池的详细介绍(含工厂模式) 结语 分享到此结束啦。byebye~...

木愚科技闪亮第63届高博会 全栈式智能教育解决方案助力教学升级
5月23日,第63届高等教育博览会在长春东北亚国际博览中心开幕,木愚科技积极筹备,奔赴展会现场。彼时,木愚科技企业领导及相关职能部门负责人亲临展位指导工作,通过特装展位、资料发放及现场交流等方式,全方位…...

Proteus寻找元器件(常见)
一 元件库 二 找元件 1 主控 32 51 输入 stm32 AT89c51 2 找屏幕 oled 3 找按键button 4 电阻、电容 res cap 5 电机驱动 l298n 6 电机 motor 7 滑动变阻器 pot 8 找电源和 GND 9 找晶振 选择 D 开头的 CRYSTAL 10 网络标签...

RK3566 Android12 HG24C02MM/TR EEPROM适配
一、背景 近期项目中,有一个需求,要使用RK3566 Android12平台适配一款HG24C02MM/TR EEPROM芯片,通过i2c实现主板与EEPROM芯片的数据通讯。废话不多说,来看资料。 二、芯片资料 HG24C02 / HG24C04 / HG24C08 / HG24C16是提供2048…...

IoTDB 集成 DBeaver,简易操作实现时序数据清晰管理
数据结构一目了然,跨库分析轻松实现,方便 IoTDB “内部构造”管理! 随着物联网场景对时序数据处理需求激增,时序数据库与数据库管理工具的集成尤为关键。作为数据资产的 “智能管家”,借助数据库管理工具的可视化操作界…...

sqli-labs第二十八关——Trick with ‘union select‘
一:分析 这一关的提示和上一关一样,所以我们查看源码,屏蔽了注释符,空格,union,select等关键词 分析这一条源码的几个新增添符号 \s: 匹配任何的空白字符(普通空格,\t&…...

mapbox高阶,PMTiles介绍,MBTiles、PMTiles对比,加载PMTiles文件
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️Fill面图层样式1.4 ☘️PMTiles介绍1.5…...
Go语言通道如何实现通信
在Go语言中,通道(channel)是一种内置的数据结构,用于在不同的goroutine之间进行通信和同步。通道提供了一种安全且有效的方式来传递数据,避免了数据竞争和死锁等问题。 要在Go语言中使用通道进行通信,你需…...

投稿 IEEE Transactions on Knowledge and Data Engineering 注意事项
投稿 IEEE Transactions on Knowledge and Data Engineering 注意事项 要IEEE overleaf 模板私信,我直接给我自己论文,便于编辑 已经投稿完成了,有一些小坑 准备工作 注册IEEE账户:若没有IEEE账户,需前往IEEE官网注册。注册成功后,可用于登录投稿系统。现在新的系统,…...
题目 3316: 蓝桥杯2025年第十六届省赛真题-数组翻转
题目 3316: 蓝桥杯2025年第十六届省赛真题-数组翻转 时间限制: 3s 内存限制: 512MB 提交: 101 解决: 24 题目描述 小明生成了一个长度为 n 的正整数数组 a1, a2, . . . , an,他可以选择连续的一 段数 al , al1, ..., ar,如果其中所有数都相等即 al al1 …...

mongodb源码分析session接受客户端find命令过程
mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程,并且验证connection是否超过限制。 现在继续研究ASIOSession和connection是怎么接受客户端命令的? mongo/transport/service_state_machine.cpp核心方法有…...
Netty 实战篇:为自研 RPC 框架加入异步调用与 Future 支持
我们在上篇实现了一个轻量级 RPC 框架,现在要进一步优化 —— 加入异步响应支持,让 RPC 通信变得真正高效、非阻塞、支持并发。 一、为什么需要异步调用? 上篇的 RPC 框架是“同步阻塞”的: 每次发送请求后,必须等待服…...
python37天打卡
知识点回顾: 过拟合的判断:测试集和训练集同步打印指标 模型的保存和加载 仅保存权重 保存权重和模型 保存全部信息checkpoint,还包含训练状态 早停策略 作业:对信贷数据集训练后保存权重,加载权重后继续训练50轮&am…...

变焦位移计:机器视觉如何克服人工疲劳与主观影响?精准对结构安全实时监测
变焦视觉位移监测与人工监测的对比 人工监测是依靠目测检查或借助于全站仪,水准仪,RTK等便携式仪器测量得到的信息,但是随着整个行业的发展,传统的人工监测方法已经不能满足监测需求,从人工监测到自动化监测已是必然趋…...
嵌入式硬件篇---Ne555定时器
文章目录 前言1. 基本概述类型功能封装形式2. 引脚功能(DIP-8 封装)内部结构阈值电压两种工作模式4. 主要特性优点:缺点:5. 典型应用场景定时控制脉冲生成检测与触发信号处理6. 关键参数速查表前言 本文简单介绍了Ne555定时器(多谐振荡器/定时器)。DIP与SOP封装。 1. 基…...

【Axure结合Echarts绘制图表】
1.绘制一个矩形,用于之后存放图表,将其命名为test: 2.新建交互 -> 载入时 -> 打开链接: 3.链接到URL或文件路径: 4.点击fx: 5.输入: javascript: var script document.createEleme…...

使用web3工具结合fiscobcos网络部署调用智能合约
借助 web3 工具,在 FISCO BCOS 网络上高效部署与调用智能合约,解锁区块链开发新体验。 搭建的区块链网络需要是最新的fiscobcos3.0,最新的才支持web3调用 现在分享踩坑经验,希望大家点赞 目录 1.搭建fiscobcos节点(3.…...

Oracle/openGauss中,DATE/TIMESTAMP与数字日期/字符日期比较
ORACLE 运行环境 openGauss 运行环境 0、前置知识 ORACLE:DUMP()函数用于返回指定表达式的数据类型、字节长度及内部存储表示的详细信息 SELECT DUMP(123) FROM DUAL; -- Typ2 Len3: 194,2,24 SELECT DUMP(123) FROM DUAL;-- Typ96 Len3: 49,50,51 -- ASCII值&am…...
Datatable和实体集合互转
1.使用已废弃的 JavaScriptSerializer,且反序列化为弱类型 ArrayList。可用但不推荐。 using System; using System.Collections; using System.Collections.Generic; using System.Data; using System.Linq; using System.Reflection; using System.Web; using Sy…...
Win11切换JDK版本批处理脚本
维护的老项目jdk1.8,新项目开发采用jdk21,所以寻找类似nvm的软件,都不太满意,最后还是决定采用写一个脚本算了,先不折腾了。 1、创建switch_jdk.bat文件 2、把如下内容复制进行 echo off chcp 65001 >nul setloc…...

爬虫学习-Scrape Center spa6 超简单 JS 逆向
关卡 spa6 电影数据网站,无反爬,数据通过 Ajax 加载,数据接口参数加密且有时间限制,适合动态页面渲染爬取或 JavaScript 逆向分析。 首先抓包发现get请求的参数token有加密。 offset表示翻页,limit表示每一页有多少…...
对数的运算困惑
难点总结 学生在对数运算中的难点分析: 一、不理解对数,不会用对数公式或错用对数公式 ①对数 l o g 2 3 log_23 log23和指数幂 2 3 2^3 23一样,也就是个实数而已,所以其也会有加减乘除乘方开方等运算; 比如 2 2 + l o g 2 3 = 2 2 ⋅ 2 l o g 2 3 = 4 ⋅ 3 = 12 2^{2…...
C++ 图像处理库 CxImage 简介 (迁移至OpenCV)
文章目录 核心功能特点局限性与替代方案常用方法构造函数从数组创建图像访问属性访问像素点Windows平台支持 常用方法迁移至OpenCV CxImage 是一款功能强大的图像处理类库,主要用于 Windows 平台的图像处理任务。它支持多种图像格式的加载、保存、编辑及特效处理&am…...
linux系统与shell 笔记
Linux 系统 Linux 是一种开源的操作系统内核,基于 Unix 设计,具有多用户、多任务、高稳定性和安全性的特点。它广泛应用于服务器、嵌入式设备和个人计算机领域。Linux 系统的核心组件包括内核、系统库、工具链和用户界面(如命令行或图形界面…...

尚硅谷redis7 86 redis集群分片之3主3从集群搭建
86 redis集群分片之3主集群搭建 3主3从redis集群配置 找3台真实虚拟机,各自新建 mķdir -p /myredis/cluster 新建6个独立的redis实例服务 IP:192.168.111.175端口6381/端口6382 vim /myredis/cluster/redisCluster6381.conf bind 0.0.0.0 daemonize yes protected-mode no …...