急性移植物抗宿主病 大数据预测模型大有可为!
急性移植物抗宿主病(aGVHD),是患者接受造血干细胞移植后可能发生的一种急性并发症,要迈过这道槛,关键在预防。
而守好“预防”这个关口,基于大数据的预测模型大有可为。近日,中国医学科学院血液病医院(中国医学科学院血液学研究所)信息与资源中心首席技术专家陈俊仁、干细胞移植中心主任姜尔烈和儿童血液病诊疗中心主任竺晓凡团队联合在计算科学顶尖期刊《自然·计算科学》在线发表了一项研究成果,该研究基于成人和儿童移植患者队列的临床数据进行数学建模,他们提出的模型,将有助于临床医生预测患者在接受移植手术后发生aGVHD的概率。
梳理10年移植案例记录制成数据集
造血干细胞移植是治疗急性白血病、骨髓衰竭性疾病等血液疾病的最终手段之一。有些造血干细胞移植患者可能出现aGVHD,主要表现为皮疹、腹泻、胆红素升高等症状。
aGVHD是造血干细胞移植后100天内可能发生的重大并发症,其发生时供者的免疫细胞会对患者的肝胆、肠道以及皮肤进行攻击。这种并发症的发生率为30%—45%,综合国内外的统计数据,重度aGVHD的短期死亡率可能高达30%。
“理论上,在干细胞移植后加强免疫抑制可以降低重度aGVHD的发生风险。但是,免疫抑制本身也是一个风险因素;如果我们给所有造血干细胞移植患者都加强免疫抑制,那么患者的整体感染发生率就会提高,死亡率随之也会提高,而这并不是我们所希望看到的。”陈俊仁表示。
业内人士公认的一点是,要降低aGVHD的发生概率,重在预防。“如果我们能提前预测重度aGVHD的发生,那么就能只对重度aGVHD患者给予较强的免疫抑制。”陈俊仁说。
长期以来,中国医学科学院血液病医院(中国医学科学院血液学研究所)的医生一直想要解决患者移植后重度aGVHD防治的实际临床问题。为了解决该问题,中国医学科学院血液病医院(中国医学科学院血液学研究所)的信息与资源中心、干细胞移植中心、儿科团队,以及医渡云(北京)技术有限公司的数据科学团队组成了项目研究团队。
研究团队协同梳理了长达10年的移植案例记录,并最终形成了一个名为“aGOAT”的数据集。
整合涵盖200多个变量的动态指标
在获取数据集之后,研究团队进行了数据建模,将模型命名为“daGOAT”,该模型纳入了584名成人患者、45名儿童患者的数据,其中16%的成人患者和24%的儿童患者在100天内发生了重度aGVHD。
陈俊仁介绍:“我们发现,从来没有研究者系统性地整合造血干细胞移植患者在移植后的所有动态指标”。而研究团队提出的daGOAT模型整合了多维度时间序列数据计算重度aGVHD的风险。
造血干细胞移植患者在移植后动态指标涵盖200多个变量,包括生命体征、血液细胞计数、血液生化指标、血清免疫因子、血液免疫细胞分型等。由于涉及到的参数多,而且不是每天持续检测,存在较多数据的缺失,即血液病患者临床数据“多参数、小样本”的问题。面对这一问题,很多统计方法以及机器学习方法都束手无策。
“而我们提出的daGOAT模型可以解决这一问题,并且在成人和儿童两群患者的交叉验证AUROC都达到0.78以上(满分为1),远超出过去
文献报道的最佳水平。”陈俊仁介绍,研究团队建立的模型预测效果显著优于MAGIC评分、AnnArbor评分、基于围移植特征的静态模型和XGBoost动态模型。
这一成绩的取得离不开中国医学科学院血液病医院(中国医学科学院血液学研究所)信息化的发展。陈俊仁解释称:“daGOAT模型使用了大量的动态参数,而且这些数据来自不同的检测科室。运算daGOAT模型基本上不可能依靠手工输入数据,必须让模型和医院信息系统无缝衔接。因此,我们认为医学人工智能要进一步发展离不开医院信息化的不断升级。”
多学科的跨领域合作也是daGOAT模型得以建立并发挥作用的条件。“此次研究得益于全方位跨领域的协同整合,包括数学建模、数据库统整、生物统计、实验室技术以及临床医学。”陈俊仁说。
研究论文第一作者、中国医学科学院血液病医院(中国医学科学院血液学研究所)信息与资源中心助理研究员刘雪鸥介绍,在模型的实际应用中,他们会每天更新移植患者的实验室检验数据,根据模型预测患者是高危还是低危aGVHD,再预防性给药,以期在不提高感染率的情况下降低重度aGVHD的发生风险。目前,研究团队正在加紧筹备这项工作。
“这项研究对事前预警提示临床干预、降低不良事件发生率进行了初步探索。”陈俊仁表示。
未来将完善模型并开展前瞻性临床研究
陈俊仁介绍,研究论文投稿到《自然·计算科学》后,编辑非常感兴趣并很快决定送审。论文审稿人认为,daGOAT模型是一个将患者基本特征和实验室检验数据结合起来的机器学习预测模型,与仅采用患者基本特征预测的模型相比,这种模型精确度更高,更加适合临床应用,有助于医生进行临床决策。
相关专家表示,上述研究是基于多维度、高质量临床数据资源整合的典型研究范例,为血液系统疾病科学研究奠定了重要基础。
“我们希望提供daGOAT模型也能应用于其他应用场景的证据。”陈俊仁介绍,当时,研究团队想到的最“夸张”的应用场景是:能不能通过智能手机的微小移动或信号的振动,在一个人还坐着的时候就提前预测他是不是在接下来几秒钟将要站起来。
为此,研究团队从美国加州大学获得了一个智能手机数据集后专门测试了一下,他们发现daGOAT模型在这个应用场景的预测效果也比随机森林、XGBoost等机器学习模型的预测效果好。
“虽然我们对自身的定位还是坚守血液疾病的数据科学研究与工具开发,但偶尔偏离主题做一些异想天开的研究,其实也挺好。”陈俊仁说。
谈及该模型的不足之处,陈俊仁指出,该研究纳入的数据仅限于中国医学科学院血液病医院(中国医学科学院血液学研究所)一家血液中心的数据,daGOAT模型还有待完善。下一步,研究团队将开展daGOAT模型的前瞻性临床研究。