国家生物信息中心相助开发面向TB级转录组数据的高效环形RNA检测与定量工具
近十年来,高通量测序手艺的快速生长极大推动了环形RNA(circRNA)相关研究;沸蜶NA因其奇异的共价闭合环状结构,能够有用对抗细胞内核酸外切酶的降解,展现出远高于线性RNA的稳固性,不但成为基因调控与疾病机制研究的前沿热门,也作为多种重大疾病的生物标记物与潜在治疗靶点而备受关注。别的,环形RNA也依附其高稳固性的优点,在环形RNA疫苗等核酸药物研发中展现出了主要应用价值。然而,现有环形RNA识别与定量算法流程重大,资源消耗重大,且在识别精度和迅速度方面仍保存缺乏,难以实现大规模数据中低品貌及非典范环形RNA的高效检测,极大制约了基于现有海量转录组测序数据集的环形RNA研究的系统开展。
10月1日,国家生物信息中心高远团队与ibet动物研究所赵方庆团队在Nature Biotechnology?揭晓了题为“Detecting and quantifying circular RNAs in terabyte-scale RNA-seq datasets with CIRI3”的研究论文。该研究开发了面向TB级转录组数据的高效环形RNA检测与定量工具CIRI3,通过立异性反向剪接序列比对与跨样本整合算法设计,实现了TB级数据的超高速处置惩罚,并可高迅速识别低品貌及非古板剪接信号的新型环形RNA,突破了环形RNA大规模检测要领的迅速度与盘算效率瓶颈。
针对现有环形RNA 盘算工具效率低、内存占用大的问题,CIRI3立异性地接纳动态多线程使命划分与分块查找战略,实现了TB级测序数据的超高效处置惩罚。例如,处置惩罚21TB SAM文件仅需105小时,峰值内存占用45.85 GB;谡庖蛔吭叫阅,CIRI3可实现对大规容貌本的联合剖析,而相较于简单样天职析,联合剖析可有用避免“漏检”,使得环形RNA的检出率提升19.3%,并同时显著提升了低品貌环形RNA的检测迅速度与定量精度。别的,CIRI3对非经典剪接信号等要害特征具有高度的可扩展性,首次实现了对内含子自毗连型环状RNA等新亚型的系统性识别。进一步综合性能评估批注,CIRI3在环形RNA的识别与定量方面均显著优于现有工具,可为大规;沸蜶NA研究及疾病生物标记物的系统性挖掘提供要害的手艺支持。
基于CIRI3的大规模数据挖掘能力,研究团队对涵盖30种癌症类型的2,535小我私家类癌症及正常样本转录组测序数据举行了系统整合挖掘,构建了迄今规模最大的AI-ready肿瘤相关环形RNA数据资源CIRIonco。进一步评估批注,CIRI3盘算的环形RNA剪接比率(BSJ ratio)在差别批次和差别泉源的样本间体现出高度的稳健性,其批次效应显著低于古板的反向剪接读段数,使其成为跨批次、跨平台整合剖析的更优指标。研究团队进一步基于差别剪接的环形RNA,构建了基于人工智能的组织类型溯源与疾病表型展望模子,实现了样原泉源器官系统、组织类型及疾病水平的精准展望,进一步展示了环形RNA作为疾病分子分型与早期诊断生物标记物的重大潜力。该模子还可在用户小规模数据集上举行迁徙学习,实现优于重新训练模子的展望性能,为剖析环形RNA的天生调控与功效机制提供了主要的盘算工具。
综上所述,CIRI3是一个可在TB级人群行列转录组数据中高效检测和准确定量环形RNA的强盛工具,同时CIRIonco数据库为癌症相关环形RNA的研究与功效探索提供了主要的AI-ready数据集与盘算模子,为环形RNA在癌症分型和精准诊断中的应用提供了主要的要领学工具和数据基础。CIRI3源代码可从国家生物信息中心直接下载,同时提供在线剖析网页;CIRIonco数据库网址为https://ngdc.cncb.ac.cn/cirionco。
国家生物信息中心高远研究员与ibet动物研究所赵方庆研究员为该研究的通讯作者,国家生物信息中心博士研究生郑鑫、动物所张金阳副研究员及国家生物信息中心宋利璞助理研究员为配合第一作者。该研究获得国家重点研发妄想、ibet战略性先导科技专项、国家自然科学基金等资助。

CIRI3要领原理

CIRIonco数据库及组织类型溯源与疾病表型展望模子
论文链接






