新诊断甲状腺癌会骨转移么利用机器学习方法

2021-5-15 来源:不详 浏览次数:

甲状腺癌(TC)是最常见的内分泌恶性肿瘤,近几十年来在全世界范围内其发病率急剧上升。由于其生物学特性和对有效治疗的反应,TC患者具有出色的治疗效果和长期预后。但是,如果TC患者肿瘤发生远处转移(DM),则总体预后将大大恶化。

据报道,大约4%的TC患者会发展为BM。发生BM的TC患者的5年生存率为61%,10年生存率为27%。大多数TC转移是无症状的。仅在系统监测或甲状腺恶性结节的系统转移检查中才能检测到。

由于BM的发病率低且无症状,因此在TC患者的初次诊断过程中经常忽略BM测试。目前的检测方法主要是骨扫描,但是由于其成本高,辐射损伤以及对微转移灶敏感性低的缺陷。仅在存在可疑的骨骼相关事件(SRE)的情况下才建议对患者进行骨扫描。据报道SRE发生的中位时间是骨转移(BM)后5个月。届时许多TC患者可能会错过最佳治疗机会,因为他们可能已发展为晚期疾病或多发性转移。

机器学习(ML)技术可以从不同的数据集中推断出数据项之间的重要联系,否则这些数据项将难以关联。如今,医学数据的庞大数量和复杂性使ML在诊断疾病和预测临床结果方面很有希望。ML已在临床环境中使用,并且比传统方法具有更高的准确性。因此,作者旨在建立一种基于机器学习的预测模型来预测TC患者的BM发生。这项研究可以为临床医生提供更多个性化的临床决策,并更适当地分配健康资源。

目的:本研究旨在建立一种机器学习预测模型,该模型可用于预测新诊断的甲状腺癌(TC)患者的骨转移(BM)。方法:对年至年间监测、流行病学和最终结果数据库中TC患者的人口统计学和临床病理学变量进行回顾性分析。在此基础上,作者开发了基于机器学习的随机森林(RF)算法模型。接收器工作特性曲线(AUC)、准确性得分、recallrate和特异性下的面积用于评估和比较RF模型和其他模型的预测性能。

在这项研究中,总共包括10个人群和临床病理变量。人口变量包括性别,年龄,种族,婚姻状况和保险状况。临床病理变量包括偏侧性,等级,组织学,T期和N期。根据IDO-O-3代码,组织学类型分为四类:“间变性甲状腺癌(ATC)...”。“甲状腺滤泡癌(FTC)..。”;“甲状腺髓样癌(MTC)。”;和“乳头状甲状腺癌(PTC)....”。所有方法均根据SEER数据库的相关准则进行。

本研究中的所有统计分析均使用R(版本3.6.8,RFoundationforStatisticsComputing)和Python(版本3.7,PythonSoftwareFoundation)进行。测试了所有变量之间的皮尔逊相关性,并通过热图显示了结果(图2)。所有患者均按7:3随机分为训练组和测试组(表1)。卡方检验用于分析训练集和测试集之间的差异。训练集用于建立随机森林(RF)模型和多元逻辑回归(LR)模型,并使用测试集对其进行评估。对于RF,它基于决策树(DT)构建Bagging集成,并在DT的训练过程中进一步引入随机属性选择。形象地说,要建立许多DT,以形成DT的“森林”,并通过多棵树的投票来做出决策。这种方法可以有效地提高新样本的分类精度。15RF的随机性体现在每个树的训练样本是随机的,并且树中每个节点的分割属性是随机选择的这一事实。由于这两个随机因素,即使没有对每个DT进行修剪,RF也不会过大。首先,作者使用RF中的树数(ntree=)来建立模型。对于多元LR,作者使用输入变量选择方法来建立模型。接收器工作特征曲线(AUC)下的面积、准确性得分、recallrate和特异性均用于比较两个模型的预测能力。

在完成第一轮建模后,作者从第一轮建模过程中提取了重要特征。之后,作者调整了RF模型的参数,将ntree值从1迭代到,以选择最佳ntree值(ntree=7)(图2A),并使用提取的重要特征进行进一步的模型构建,并且该模型在训练集中进行了10倍交叉验证(图2B),并在测试集中进行了验证。这减少了冗余特征对模型的影响,而较少的特征可以提高模型的临床使用便利性。此外,为了进行比较,还引入了其他机器学习算法,例如分类器(Ada),DT,朴素贝叶斯分类(NBC)和支持向量机。

结果:共纳入例患者,其中例(0.97%)发生了骨转移。等级、T期、组织学、种族、性别、年龄和N期是BM的重要预测特征。RF模型比其他模型具有更好的预测性能(AUC:0.、准确性:0.、recallrate:0.、特异性:0.)。

人口统计学特征

这项研究总共招募了名TC患者。在这些患者中,初诊时有例发生了骨转移(0.97%),而16,例没有发生骨转移(99.03%)。将所有患者以7:3的比例完全随机分为训练组(n=11,)和测试组(n=)。表1详细列出了人口统计学和临床病理变量。

模型分析和变量对预测的影响

测试了所有变量之间的皮尔逊相关性,相关热图显示它们之间没有显着相关性(图3),表明变量彼此独立。对于采用输入变量选择方法的多变量LR模型,确定了七个特征作为独立的危险因素,包括性别(p=0.),年龄(p=0.),种族(p0.),等级(p=0.),组织学(p=0.),T期(p0.)和N期(p=0.)(表2)。对于RF模型,根据袋外(OOB)错误率评估了变量的重要性,该错误率可以反映出将BM归类为无BM时每个变量的贡献(图4)。等级,其次是T期和组织学,是最重要的三个变量。有趣的是,在RF模型中,最重要的七个变量与LR模型筛选的风险因素一致。

模型表现

测试集用于测试和比较所有模型的预测性能。AUC,准确性得分,召回率和特异性用于评估和比较模型性能。初始随机森林(RF1)模型的性能优于初始逻辑回归(LR1)模型(AUC:0.,准确性:0.,敏感性:0.,特异性:0.vs.AUC:0.,准确性:0.,敏感性:0.,特异性:0.,表3;图5A)。之后,作者调整了RF模型的参数,并在ntree值(从1到)之间进行了迭代,以选择出具有最佳预测性能的ntree值(ntree=7,图2A)。在所有机器学习模型中,使用前七个重要功能的改进随机森林(RF2)模型具有最佳的预测性能(AUC:0.,准确性:0.,灵敏度:0.,特异性:0.,表3;图5B)。在训练集的10倍交叉验证中,它也表现出色(平均AUC=0.,图2B)。同时,改进后的RF模型的预测结果如表4所示,直观地显示了其预测能力。

结论:本研究构建的RF模型可以准确预测TC患者的骨转移,这可能为临床医生提供更多个性化的临床决策建议。机器学习技术具有改善TC患者BM预测模型发展的潜力。

讨论:

骨转移可导致严重的脊髓压迫,病理性骨折,骨痛和其他SRE,从而使患者的生活质量恶化。据报道,大约78%的TCBM患者发展出至少一种SRE。一项研究观察到DTC患者中有52例BM患者(3.7%)。3年前的一项研究报道了类似的结果,其中3.9%()的TC患者患上了BM。在本研究中,TC患者的BM患病率低于以前的报道,仅为0.97%。这可能是由于SEER数据库中记录的数据是同时诊断BM的事实,而其他研究中的BM数据是不同时间的累积数据。因此,本研究中BM的发生率较低。从上面可以看出,在TC患者中,在初次诊断时出现BM的可能性较低,并且大多数BM在TC最初诊断后的临床随访过程中发展。因此,在对TC患者进行初步诊断后,对那些极有可能发生骨转移的患者进行进一步随访检查对于接受适当的治疗和改善预后很重要。骨闪烁显像通常用于确定新诊断为TC的患者中可能的骨转移。但是,由于骨闪烁显像仪价格昂贵并且有放射线损伤,因此采用这种方法进行进一步的随访检查可能不合适。病理诊断被认为是金标准。但是,研究表明,活检不仅困难且痛苦,而且增加了肿瘤细胞增殖的风险,这意味着它对于常规诊断可能并不安全。为了更好地解决这个问题,作者使用了先进的机器学习算法并构建了用于识别BM高危TC患者的RF模型。

随机森林似乎是大多数临床研究中选择的机器学习算法。研究表明,它是最准确的机器学习模型之一,在处理大量特征和高度非线性数据方面优于其他技术。它在处理数据噪声方面非常灵活,并且比其他算法更易于调整和与学习算法集成。在研究中,作者发现先进的机器学习技术(例如RF建模)可以提高分析数据库中信息的利用率并实现具有更好性能的预测模型的开发和验证。RF模型具有更强的预测性能,这可能是因为与其他模型相比,RF模型使用了更高级的分类决策和不同的权重比。该模型在预测TC患者的BM方面显示出优异的性能,可以为临床医生提供更准确,更个性化的医疗决策。该模型的潜在用途是帮助TC患者预测骨转移的可能性,并警告处于BM高危状态的患者进行进一步研究,这可能有助于改善他们的预后。

在这项研究中,作者发现RF模型中最重要的七个特征正是在LR模型中筛选出的危险因素,包括等级,T期,组织学,种族,性别,年龄和N期。尽管SRE长期以来一直被认为是BM的标志,但仅在有骨受累症状的TC患者中考虑对BM进行靶向筛查是不合理的,因为这会延迟其治疗。因此,需要模型来预测患有骨转移高风险的TC患者,并提供早期

转载请注明:
http://www.zgjlmrys.com/jzxzys/12331.html
  • 上一篇文章:

  • 下一篇文章:
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有 2014-2024
    今天是: