论文部分内容阅读
目的:肺癌是肿瘤患者死亡的主要原因,其中非小细胞肺癌(Non-Small CellLung Cancer,NSCLC)约占所有肺癌病例的83%,其发病率为40.60/10万,5年生存率仅为22.1%。目前临床医生通常根据手术病理分期判断患者术后5年预后情况,但该分期仅考虑到肿瘤原发灶、区域淋巴结受累和远处转移三方面,忽略了其他预后影响因素的作用,预测效果不尽理想,加大了对治疗方法评价及患者预后评估的难度。非小细胞肺癌发病率高且预后差,对其预后的判断就尤为重要。目前,国际上缺少统一且效能好的生存预测模型,本研究旨在收集亚洲非小细胞肺癌患者数据,构建其术后5年生存模型,为手术效果评估与预测患者预后情况服务。 方法:通过软件SEER*Stat下载随访时间满5年的亚洲非小细胞肺癌手术患者记录。多方面参考NCCN临床指南、AJCC临床指南、CS肿瘤信息采集系统、临床专家意见,初步选取的预后研究变量(n=17)包括:性别、国别、婚姻状况、发病部位、亚型、组织学分级、患侧部位、邻近器官浸润程度、区域淋巴结受累程度、远处转移情况、肿瘤分期、手术类型、放疗情况以及年龄、肿瘤大小、受检淋巴结个数及阳性淋巴结个数。以手术后5年为时间基线,生存期大于(或等于)5年记为“生存”,否则为“死亡”,将二者作为本研究的结局变量。 数据预处理过程包括:根据AJCC临床指南对SEER中的部分数据进行分类;根据美国协作分期数据收集系统CS对数据进行清理;应用interval法对连续型数据实行离散化;按照约70%和30%的比例在总样本中随机产生训练集和测试集。 在训练集中,完成预后相关变量的筛选和模型的构建,应用SPSS22.0选取单因素分析和logistic回归逐步后退法筛选特征变量;而后应用R studio基于训练集以禁忌搜索方法构建初次网络模型,再结合临床专家的意见调整贝叶斯网络结构完成二次建模即构建最终模型。在测试集中,评估预后模型的效能并与支持向量机、人工神经网络和决策树算法作比较,比较实验应用数据挖掘软件WEKA实现。评估指标为预测准确率、F值及AUC面积。 结果:最终选取683位患者数据作为研究样本,患者术后5年的生存及死亡状态比约为6∶4,应变量类别比重较为平均。经筛选后的预后变量有:确诊年龄、肿瘤大小、组织学分级、肿瘤分期及受累淋巴比率,其关系为:年龄直接影响患者生存状态;肿瘤分期直接影响生存状态;组织学分级直接影响肿瘤分期;肿瘤大小直接影响肿瘤分期;受累淋巴比率直接影响生存状态;肿瘤分期直接影响受累淋巴比率。基于贝叶斯网络构建的模型预测准确率为72.87%,优于支持向量机(68.62%)、人工神经网络(64.89%)和决策树(67.02%)。 结论:本研究以非小细胞肺癌患者术后生存状态为目标构建患者生存预后模型,预测准确率达72.87%。通过构建贝叶斯网络探寻预后变量间的关系,在网络内部采用禁忌搜索方法学习后参照临床专家的建议调整网络结构,更好地诠释了网络模型中节点间的关系,实现了方法与经验的结合。首次应用SEER数据库,以亚洲肿瘤患者为主要研究对象,在未来的研究中,使用SEER的内部用户数据(Custom Data)模块,将化疗、淋巴移除个数及是否伴有其他恶性肿瘤等重要影响因素考虑其中,扩大预后变量数目及样本含量,尝试将其他人种患者共同纳入,提升模型的使用广度及适用程度,从而为临床手术及预后评价提供支持。