ibet

国家生物信息中心相助开发细胞身份判断新型AI引擎

随着单细胞和空间组学手艺的快速生长 ,果真可共享数据量已突破亿级大关。然而 ,手艺平台爆发的差别、重大疾病状态、跨物种研究带来的批次效应和离群细胞(Out-of-Distribution Cell ,OOD细胞)等 ,对数据解读组成重大挑战。面临动辄百万规模的OOD细胞 ,依赖“先聚类、后注释”的古板剖析要领已展现出显着的局限性 ,难以快速、精准且可诠释地将这些“身份不明”的细胞映射到日益完善的参考细胞图谱上。怎样高效实现细胞的数字化表征、整合与剖析 ,已成为一个要害的瓶颈问题 ,严重制约着单细胞数据在跨大规模人群行列研究、多模态信息整合以及物种间守旧性探索等焦点偏向上的潜力。

克日 ,国家生物信息中心盘算生物学部蒋岚团队在Genome Biology?期刊揭晓了题为CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer的研究论文 ,研发了一款高效、泛化且可诠释的有监视细胞表征息争析模子CellMemory。该模子受全局事情空间理论(Global Workspace Theory, GWT)启发 ,对古板Transformer架构举行刷新 ,植入低维影象空间“Memory Space” ,通过Cross-Attention机制将高维基因特征压缩、竞争、广播 ,提高盘算效率3-5倍 ,显著增强模子泛化能力 ,无需预训练即可实现单细胞数据跨平台、物种整合。同时 ,影象空间为CellMemory带来分层式“可读窗口”。L1 (Gene Level)为面临特定细胞 ,研究者可知单个基因对目的细胞表征的孝顺分数 ;L2 (Gene Program Level)为模子在影象空间中 ,自动归纳协调的共表达/共调控模式。多层可诠释性为明确模子决议逻辑 ,探索表型关联细胞状态提供了可靠解决计划 ,即“高准确性 + 强可诠释性”。

研究团队将CellMemory与3个单细胞基础大模子、16个使命专用模子在1500万细胞上举行较量 ;计啦庑Ч允 ,CellMemory在人群标准的单细胞数据整合、超高区分率细胞状态注释等使命中均取得了State-of-the-Art级别的体现。面临59张MERFISH小鼠脑空间组学切片(4百万细胞、338个细胞亚群) ,相较基于古板transformer架构预训练的单细胞基础大模子 , CellMemory在95%的空间切片上取得领先的注释体现 ,准确率较古板机械学习要领提升30% ,证实CellMemory精彩的泛化能力。

目今 ,将疾病细胞与康健细胞比对仍然是重大挑战。得益于准确与可诠释的细胞表征 ,研究团队进一步使用CellMemory在多个癌症行列单细胞图谱中剖析疾病重大性。例如在肺腺癌行列中 ,模子基于参考图谱定位到MSLN+ CAPN8+ 的肺泡2型过渡态细胞 ,并视察到其显著的拷贝数变异 ,提醒肺腺癌可能使用肺泡2型细胞可塑性获得侵袭能力。在混淆表型急性白血病、髓母细胞瘤等数据中 ,模子基于康健参考图谱展现了差别患者潜在的异质性起源 ,为耐药和预后研究提供了高区分率数据剖析基础 ,展示出CellMemory在离群细胞推断场景中的强盛表征能力。

综上 ,从“序列搜索”到“亚群搜索” ,参考映射正在重塑单细胞数据剖析的手艺范式。依附强盛的泛化能力与高效的盘算效率 ,CellMemory有望成为笼罩病理、时空和物种等多维度细胞参考图谱建设与临床精准诊疗的要害引擎。

上述事情由国家生物信息中心蒋岚团队和多家单位相助完成。蒋岚研究员、新加坡国立大学刘钿渤教授、加拿大麦吉尔大学李岳教授为本文的配合通讯作者。蒋岚团队博士研究生王弃非 ,加拿大麦吉尔大学博士生朱赫为文章的并列第一作者。清华大学张学工、斯坦福大学James Zou ,博德研究所Manolis Kellis教授对本项目亦有孝顺。该研究获得国家重点研发妄想、ibet先导专项、ibet全球共性挑战专项等项目的资助。?

ibet·(正版)官网 -官方app下载

CellMemory模子架构与应用场景

论文链接


附件下载:
【网站地图】【sitemap】