论文部分内容阅读
背景:基于患者报告结局(Patient-Reported Outcome,PRO)的症状管理是未来患者全程管理的重要方向。采用基于PRO症状作为监测指标,是研究患者疾病负担的新思路、新方法。准确的症状评估,为评估患者的疾病严重程度,治疗效果,以及患者生活质量提供了重要的依据。子宫腺肌病是一种常见的良性妇科疾病,以疼痛为中心的症状群是子宫腺肌病患者的管理焦点。成功的疼痛管理,不但可以缓解疼痛的严重程度,还能减少恶心,疲乏及焦虑等伴发症状,显著改善生活质量。与恶性肿瘤患者管理相比,PRO在良性疾病中的管理无论是方法学还是应用推广上,都存在一定的差距。虽然疼痛及相关症状是子宫腺肌病的主要临床表现及治疗目标,但无论是临床实践、患者管理、临床科研,还是对主要症状的长期监测及系统化管理方面,目前仍然缺乏基础方法学的数据以回答PRO应用的关键问题。如PRO监测的内容能否反映患者真实感受?量表测量性能在不同患者群体中能否保持一致?应用参数是否具有临床意义等?致使监测工具在真实世界落地实施中,支撑PRO指标可靠性、可信度及可解释性的测量学和统计学证据不足。使得PRO用于患者症状监测管理尚处于初级阶段。目的:本文旨在综合应用人工智能、测量学及统计学方法,评估并优化PRO症状监测条目生成,监测工具的验证及应用参数确立的方法学体系,使PRO监测可精准及时地识别患者症状及变化,达到对疾病进展或治疗不良反应的早期识别,早期治疗,有助于实现慢性疾病的全程化、精准化管理。1.探索是否可以通过微信等社交媒体数据中医患交流的数据,自动识别患者症状,从而可以替代一部分专家访谈及人工提取症状的功能,在获得患者真实感受及需求的同时,减轻医患及科研工作者的负担?使用PRO对子宫腺肌病患者进行全程管理的前提条件是,需要特异性的PRO监测工具。但目前尚无特异性的子宫腺肌病患者症状管理工具。一个全新的特异性量表的建立需要足够的时间和金钱。如何利用现有资料,保证条目既来源于患者,又具有完整性和可靠性,同时节约资金及时间成本。自然语言识别(Natural Language Processing,NLP)与机器学习技术的兴起,通过算法从自由文本数据源中自动提取和构建相关的患者报告的症状信息,可以帮助克服用手动文本分析涉及到的挑战。结合中国微信在中年妇女中普及的现状,运用医患微信交流数据,利用NLP对症状进行探索,并结合质性研究的结果,形成子宫腺疾病症状监测量表(Symptom Management Scale of Adenomyosis,AM-SAS)初稿。2.结合项目反应理论(Item response theory,IRT)与经典测量理论(Classical test theory,CTT),对开发的AM-SAS进行测量学评价。监测工具的可靠性和有效性是症状全程管理的质量保证。CTT是目前运用得最广的心理学测量理论,利用信度、效度、反应度等指标,对患者测量的随机误差进行定义。在现实中,只能获得观察分数,不能得到真分数,因此在分析时就不可避免的掺杂了大量的误差分数。这也造成了经典测量理论的局限性。IRT是近年来兴起的现代测量理论的代表。它利用潜在特质和项目特征曲线建立数学模型,对条目进行分析。两种测量理论间,互相补充,但却无法代替。在PRO的心理测量学验证中,多选用CTT,使用IRT的较少。本研究利用经典测量理论及IRT同时对AM-SAS进行验证,以保证量表测量性能在异质性患者中的稳定。3.探索参数制定中0-10分应归类于等级变量或者连续变量的统计学证据,并通过确定校标与目标症状最优的相关性阈值,为进一步制定子宫腺肌病AM-SAS量表的参数制定做好准备。评估工具的应用参数是工具应用的必要条件。MCID作为FDA推荐的对PRO临床结果进行解释的阈值,目前已经实现了广泛的应用。基于校标的MCID制定方法最为常用,也获得了业界共识,因此校标选择的标准是MCID临床应用价值的决定因素。专家根据实践经验,建议将校标与目标PRO症状的相关系数0.30–0.35作为校标选择的最低标准。但是经过Bootstrap的重抽样检验后发现基于这一阈值所得的MCID稳定性欠佳。后有作者推荐,PROM和校标之间至少具有中度至高度的相关系数(r>0.5),更有研究强调,相关系数应该高达0.7。基于现有的PRO与校标相关系数的标准不统一,且现有推荐都是根据专家经验及讨论法形成,但对于PROM与校标最优相关系数的选择还缺乏定量的研究。因此,有研究指出,需要系统的研究来确定测量条目和校标之间最优相关系数以及相关系数变化如何影响MCID等问题尚需深入的统计学探索。另外,0-10分应作为等级变量还是作为连续变量尚无定论。方法:1.以微信医患交流截图为原始数据,自然语言识别为文本后,通过预处理,初步建立子宫腺肌病症状语料库。采用词频-逆文本频率对子宫腺疾病患者报告的症状关键词的提取。并依据美国食品药品管理局(U.S.Food and Drug Administration,FDA)推荐的PRO量表开发及应用的原则和标准流程,开展质性研究,半结构访谈子宫腺肌病患者的症状及功能。使用扎根理论的方法对访谈本文进行定量分析。并将访谈结果与自然语言研究的结果进行结合比较,从而探索利用微信医患交流文本提取患者报告症状在监测工具开发的可行性。2.结合经典测量理论对由自然语言识别和质性访谈混合方法生成的子宫腺肌病核心症状条目进行信度,效度,区分度的验证,保证量表在实际应用中的有效性。同时,选择合适的IRT模型,对模型的假设进行验证(单维性、局部独立性),并对患者作答反应真实性进行检验,通过对项目特征曲线及参数估计判断条目的拟合程度及项目区分度。3.基于Copula函数构建模拟数据,生成不同的相关系数下的校标与症状变化值的模拟数据库。本部分假设制定目标症状疼痛(0-10分)的MCID,校标为功能干扰条目(0-10分)的变化差值。利用模拟数据,比较采用ANOVA与Logistic方法制定MCID的结果差异,并通过Bootstrap探索校标与症状变化值不同相关系数下生成MCID的稳定性,从而寻求校标与症状变化之间最优的相关系数。并将得出的参数选择的结果在AM-SAS及肺癌量表MDAC-LC中进行应用,计算其MCID。结果:1.共识别9074张医患微信交流图片,共计1,189,413字。最终来自于子宫腺肌病患者报告的文字共计121,520字。除性交痛、乳房胀痛等私密性的症状外,自然语言识别的医患交流文本能基本包含患者的常见症状。且在NLP中提取部分特异性的症状与原有症状存在矛盾之处,或为其他疾病症状。例如,月经量少,以及白带异常、异味等阴道炎常见的症状。2.经典测试理论结果显示,AM-SAS具有较高的内部一致性信度,且具有良好的校标关联效度、区别效度。在开发和外部验证队列中,AM-SAS可以区分疼痛干扰、贫血和复发患者。IRT选择广义部分信用模型(Generalized Partial Credit model,GPCM),结果验证了经典测量学的结果。受试者的拟合统计量表现出良好的拟合程度,证明本研究的作答反应真实。GPCM模型的局部独立性检验显示部分条目,特别是功能干扰的三个条目与下腹部疼痛、腰部疼痛、肛门坠胀之间存在局部依赖性。所有条目区分度较好,可以区分能力不同的患者。部分条目例如月经量过多,腰部疼痛在鉴别患者当前症状严重程度时,有较大的难度,特别是在6-10分之间。除了肛门坠胀以外,项目的拟合程度较好。条目维度总的信息量曲线在-2-0之间,表明个人水平的测量精度适中。3.无论选择ANOVA还是Logistic模型,Bootstrap结果显示计算MCID的结果非常接近。特别是基于ANOVA的F值与Logistic的卡方值结果,就统计学差异而言,通过定量或等级顺序方法处理0-10分量表未见显著性差异。同时,我们发现,校标与目标症状的相关系数0.3为最低要求(稳定性≥60%),相关系数为0.5及以上时MCID的结果稳定性保持在70%以上。通过应用以上校标选择标准,计算AM-SAS的MCID,AM-SAS中下腹部疼痛的MCID值为3分。MDASI-LC中疼痛和疲乏的MCID都为30%和2分。结论:1.对于特异性的疾病特征,自然语言识别社交媒体中的结果可能具有不全面和噪声较大等局限性,例如本文涉及到的性交痛等私密症状,及提取的症状中包含术后及其他合并疾病的症状。提示在进行自然语言识别提取症状后,还需进行专家咨询法对症状进行进一步的确定及增减,确保症状的完整性,也避免由于文本识别出包含与疾病本身无关的信息对最终的症状提取结果造成混杂。2.AM-SAS可用于临床实践以评估患者月经周期内的症状负担。IRT能发现条目在具体分级上的区分度,可以用于条目的优化与筛选。PRO量表心理学验证中,应同时结合CTT与IRT对量表进行验证,为PRO研究设计时选择量表提供更全面的测量学参数。3.针对0-10分的11个等级的量表,可将其作为连续变量进行MCID的计算。估计MCID时,应保证目标症状变化值与校标的相关系数至少为0.3,最好为0.5以上,以保证MCID的稳定性。