亚洲非小细胞肺癌患者预后模型的构建

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:guoyafeigood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:肺癌是肿瘤患者死亡的主要原因,其中非小细胞肺癌(Non-Small CellLung Cancer,NSCLC)约占所有肺癌病例的83%,其发病率为40.60/10万,5年生存率仅为22.1%。目前临床医生通常根据手术病理分期判断患者术后5年预后情况,但该分期仅考虑到肿瘤原发灶、区域淋巴结受累和远处转移三方面,忽略了其他预后影响因素的作用,预测效果不尽理想,加大了对治疗方法评价及患者预后评估的难度。非小细胞肺癌发病率高且预后差,对其预后的判断就尤为重要。目前,国际上缺少统一且效能好的生存预测模型,本研究旨在收集亚洲非小细胞肺癌患者数据,构建其术后5年生存模型,为手术效果评估与预测患者预后情况服务。  方法:通过软件SEER*Stat下载随访时间满5年的亚洲非小细胞肺癌手术患者记录。多方面参考NCCN临床指南、AJCC临床指南、CS肿瘤信息采集系统、临床专家意见,初步选取的预后研究变量(n=17)包括:性别、国别、婚姻状况、发病部位、亚型、组织学分级、患侧部位、邻近器官浸润程度、区域淋巴结受累程度、远处转移情况、肿瘤分期、手术类型、放疗情况以及年龄、肿瘤大小、受检淋巴结个数及阳性淋巴结个数。以手术后5年为时间基线,生存期大于(或等于)5年记为“生存”,否则为“死亡”,将二者作为本研究的结局变量。  数据预处理过程包括:根据AJCC临床指南对SEER中的部分数据进行分类;根据美国协作分期数据收集系统CS对数据进行清理;应用interval法对连续型数据实行离散化;按照约70%和30%的比例在总样本中随机产生训练集和测试集。  在训练集中,完成预后相关变量的筛选和模型的构建,应用SPSS22.0选取单因素分析和logistic回归逐步后退法筛选特征变量;而后应用R studio基于训练集以禁忌搜索方法构建初次网络模型,再结合临床专家的意见调整贝叶斯网络结构完成二次建模即构建最终模型。在测试集中,评估预后模型的效能并与支持向量机、人工神经网络和决策树算法作比较,比较实验应用数据挖掘软件WEKA实现。评估指标为预测准确率、F值及AUC面积。  结果:最终选取683位患者数据作为研究样本,患者术后5年的生存及死亡状态比约为6∶4,应变量类别比重较为平均。经筛选后的预后变量有:确诊年龄、肿瘤大小、组织学分级、肿瘤分期及受累淋巴比率,其关系为:年龄直接影响患者生存状态;肿瘤分期直接影响生存状态;组织学分级直接影响肿瘤分期;肿瘤大小直接影响肿瘤分期;受累淋巴比率直接影响生存状态;肿瘤分期直接影响受累淋巴比率。基于贝叶斯网络构建的模型预测准确率为72.87%,优于支持向量机(68.62%)、人工神经网络(64.89%)和决策树(67.02%)。  结论:本研究以非小细胞肺癌患者术后生存状态为目标构建患者生存预后模型,预测准确率达72.87%。通过构建贝叶斯网络探寻预后变量间的关系,在网络内部采用禁忌搜索方法学习后参照临床专家的建议调整网络结构,更好地诠释了网络模型中节点间的关系,实现了方法与经验的结合。首次应用SEER数据库,以亚洲肿瘤患者为主要研究对象,在未来的研究中,使用SEER的内部用户数据(Custom Data)模块,将化疗、淋巴移除个数及是否伴有其他恶性肿瘤等重要影响因素考虑其中,扩大预后变量数目及样本含量,尝试将其他人种患者共同纳入,提升模型的使用广度及适用程度,从而为临床手术及预后评价提供支持。
其他文献
[目的/意义]随着分享经济的发展,以在线付费问答平台为代表的知识付费产品有效地实现了知识的变现,本研究以这类平台为切入点,探索用户的付费模式及付费意愿,加深对用户知识
小学习作教学是小学语文教学中的核心,它不仅包括对学生的技能的训练,同时也是对他们的智力和创新思维的提高。面对恐惧习作的学生,老师们是八仙过海各显神通。下面是我的一点小
[目的/意义]通过分析数字图书馆导航结构与认知负荷对老年读者数字阅读情感体验和可用性的影响,提出设计优化建议.[方法/过程]针对国家数字图书馆常用功能,采用严格的控制实
[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成.从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而
[目的/意义]提出一种基于开放同行评议的学者影响力评价方法,即通过归纳收敛开放同行评议内容,形成能够表征学者不同层面影响力的多个标签簇,从而从质量层面多角度探索学者影
自20世纪80年代非营利组织传入中国后,学界便开始对其进行了大量的研究,并取得了一定的成果。然而,从目前的成果来看,学者大多侧重从组织理论和行政管理等宏观角度进行研究,而对非
[目的/意义]提出一种新的层次化科学知识结构发现方法,为优化知识结构发现过程,改善知识组织形式提供借鉴.[方法/过程]利用LDA主题模型构建层次化的科学知识结构发现方法,依
[目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建
[目的/意义]对移动阅读行为的相关研究进行综述,以深入理解用户的移动阅读行为特征,把握移动阅读行为研究的趋势。[方法/过程]通过文献调研和追踪,收集国内外2007-2017年发表
近年来,尽管我国生活经济水平得到不断提升,但在这过程中青少年的身体素质问题却不断突出.鉴于此,文章主要分析了当前中学生体育锻炼中家校联动现状及存在的问题,并在此基础