基于快速聚类算法优化的变更点分析模型的药品不良事件信号检测

来源 :海军军医大学 | 被引量 : 0次 | 上传用户:qqjianshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的:
  结合现有知识构建不同CPA模型,选择合适的指标、分割方法和惩罚构建CPA模型。利用KM优化的CPA算法,对传统药品不良事件信号挖掘中的无法校正的背景噪声(包括时间变化趋势)进行校正,从而实现对无规则数据的预处理。在各簇数据中,分别使用压缩估计的不成比例分析方法进行信号挖掘,对挖掘得到的信号进行加权拟合,得到最终信号。根据FDA(US Food andDrug Administration)药品说明书、临床试验和病例系列研究资料对照MedDRA(Medical Dictionary for Regulatory Activities)编码建立的金标准,以灵敏度、特异度和约登指数等诸多指标作为评价标准,观察新算法相对于传统的压缩估计不成比例分析模型药品不良事件信号挖掘特点。本研究旨在探讨KM优化的CPA算法在药品不良事件信号挖掘中的特点和应用价值,为今后药品不良事件信号挖掘中校正常规背景噪声和时序背景噪声提供方法学借鉴。
  研究方法:
  1.构建KM优化的CPA模型
  基于不良事件数据的无规律性,本研究在二进制分割算法、段邻域算法和PELT算法等CPA点分割方法的基础上,根据所基于的指标,考虑多种SIC、HQ、Asymptotic和人工惩罚等惩罚方式,探索适用于不良事件数据时间特征的CPA模型,从而有效校正不良事件数据的时序混杂。而KM算法以其高效、准确、运算负担低而适用于千万级数据的优点,可以探索其适用于不良事件数据常规混杂的校正。KM优化的CPA模型的旨在同时校正快速增长的不良事件数据的时序混杂和常规混杂,并将其结合基于压缩估计的不成比例分析方法用于不良事件数据挖掘中。
  2.数据模拟和不同CPA算法的检验
  采用蒙特卡洛方法,综合考虑时间序列长度、各时间点上药物-不良事件频数分布、变更点指标类型及个数等不同假设模拟时序序列,根据构建的各CPA模型,对不同假设情况下的时间序列进行变更点挖掘,每种情况模拟1000次,探索不同CPA模型在不同情境下的变更点挖掘特点,定义挖掘正确率作为各CPA模型评价指标。
  3.构建验证信号的金标准
  根据FDA所发布的最新的药品说明书,结合已经发表的临床试验、病例系列研究和单病例报告文献,利用FDA的FARES(US Food and Drug Administration Adverse Event Reporting System)数据,参照MedDRA编码PT层级制作相关药品不良事件的金标准。
  4.基于FARES数据库免疫抑制剂心血管毒性进行模型比较
  根据所挑选的混杂变量,在校正了时序噪声和常规噪声后,进行信号挖掘。本研究将进行以下实例研究:依据FARES数据库,对于免疫抑制剂PD-1(Pembrolizumab、Nivolumab和Cemiplimab)、PD-L1(Atezolizumab、Durvalumab和Avelumab)和CLAT-4(Tremelimumab和Ipilimumab)的单独用药和联合用药的心血管毒性进行实例验证,对照金标准库,探索比较基于压缩估计的不成比例算法、单一KM模型、单一CPA模型和KM优化的CPA模型信号挖掘结果的特点。
  研究结果:
  1.模拟研究
  (1)各CPA模型在不同时序长度和不同分布模拟数据中对应的正确率较为相似,其中BETA分布正确率波动幅度较大。
  (2)时序长度、数据分布类型、变更点指标类型等因素固定时,Mean指标和MeanVar指标的对应的CPA模型正确率整体高于Var指标系列模型,但Var指标系列模型正确率波动程度较小;相似地,PELT分割算法相对于其它两种算法正确率和波动程度均较高。
  (3)多数CPA模型在基于不同变更点个数的各模拟数据中正确率随变更点个数增加而逐渐上升。
  (4)基于不同惩罚的各CPA模型所对应的正确率在指标和分割算法确定时较为相似,且受各模拟因素影响较小。
  2.实例研究
  (1)基于压缩估计的不成比例分析方法
  基于压缩估计的不成比例分析方法结果显示,Nivolumab单独用药和联合用药心血管不良事件报告较多。Nivolumab相关的心脏衰竭、心肌炎、咯血和腹水等报告频率较高且整体死亡比例较高的不良事件应值得医务人员警惕。非金标准事件相对于已经明确的金标准事件呈现出较高的死亡比例。
  (2)基于压缩估计的不成比例分析方法与单一CPA算法和KM优化的CPA算法挖掘结果整体趋势比较
  同一指标对应的同一分割算法对应的不同惩罚的变更点挖掘结果并无显著区别,惩罚方法所起的作用小于指标和分割方法的影响。对于同一组药物相关不良事件,单一CPA算法与KM优化Mean和MeanVar指标的CPA算法对应的IC025值在整体趋势上略低于基于压缩估计的不成比例分析模型结果,这一效应与后续灵敏度和特异度结果相对应。单一CPA算法与KM优化的CPA算法中的Mean和MeanVar指标灵敏度表现较差,特异度表现较好,但基于Var指标算法则特异度表现较好,灵敏度表现较差。
  (3)基于压缩估计的不成比例分析方法和单一CPA、单一KM、KM优化的CPA算法比较
  在单一CPA算法与KM优化的CPA算法中,Var指标算法普遍较优于MeanVar和Mean指标算法。除了特异度外,各个指标中均可观察到单一校正时间噪声的Var_BinSeg算法最优、单一校正时间噪声的Var_PELT和Var_SegNeigh算法较优的趋势,进一步探讨显示正确适当的变更点个数对于校正背景噪声十分重要。
  在除特异度以外的各指标中,单一CPA算法普遍优于KM优化CPA算法,单一KM算法普遍较差。但值得注意的是,单一KM算法的特异度较高,相应的KM优化CPA算法在特异度上也多优于单一CPA算法,KM优化Meanvar_BinSeg和Meanvar_PELT算法在特异度指标上表现最好。
  除了Mean指标,在各指标中,BinSeg分割的算法均相对优于PELT和SegNeigh分割的算法。在Mean指标中,SegNeigh分割的算法在各指标上整体优于或类似于其它两种分割算法。
  各算法灵敏度随着特定策略对应不良事件频数a的增加相对较为稳定,但其它指标均波动较大。特异度等随着a的增加下降较快,一致率和约登指数在灵敏度较为稳定的情况下,受特异度变化趋势影响较为明显。
  研究结论:
  (1)模拟数据中,时序长度对各CPA模型对应的正确率影响较小,因而本研究结果可外推至更短或更长时序序列中。一些服从特殊分布的数据计算结果波动较大,实际结果与标准模拟数据所得不全相似。
  (2)模拟数据中,在各影响因素固定时,基于Mean和MeanVar指标的CPA模型所对应的正确率均相对较高于基于Var指标的CPA模型,但其结果波动程度也远高于Var指标系列CPA模型。而实际数据往往基于指标相互混杂且变化较快,因而较为稳健的Var指标系列CPA模型在后续实例研究中表现较优。相似地,显著的波动程度导致模拟数据分析中正确率均相对较高的PELT分割算法在实例研究中其明显差于BinSeg和SegNeigh两种分割算法。
  (3)实例研究中,Nivolumab相关心血管不良事件报告较多,部分重要不良事件值得临床医务人员警惕,及时更新药品不良事件信息可降低其带来的负面影响。
  (4)与模拟研究发现相似,实例研究中惩罚方法所起的作用较小。对于同一组药物相关不良事件,Mean和MeanVar指标算法相比于基于压缩估计的不成比例分析在信号灵敏度等指标上结果略为保守,而基于Var指标算法则相对比较灵敏。在单一CPA算法与KM优化的CPA算法中,基于Var指标的算法在除特异度外的各指标中普遍优于MeanVar和Mean指标算法,结合模拟分析结论提示实例研究中数据混杂较为复杂。
  (5)除了特异度外,单一校正时间噪声的Var指标算法多优于基于压缩估计的不成比例分析方法和单一KM算法,提示校正不良事件中所包含的时序混杂对于提高整体灵敏度和挖掘效能十分重要,校正常规混杂可以提高算法的特异度。
  (6)多数算法对高频分布的常见不良事件和低频分布的罕见不良事件在灵敏度上相差较小,但在特异度上,高频分布的常见不良事件较优于低频分布的罕见不良事件,提示多数算法可以较好排除低频分布的罕见或新发不良事件中的阴性信号,但无法有效排除一些高频报告的常见不良事件中的阴性信号,一致率和约登指数等指标特点与特异度变化趋势相似。
  明确时序数据特点有助于正确选取相应CPA算法,实际情况中时序数据潜在变更点分布常较为复杂且变化较大,因而结果稳健的CPA算法在实际运算中会表现更优。在实例研究中,各类算法互有优缺点,单一CPA算法灵敏度和整体效能较高,单一KM算法和KM优化CPA算法特异度较高,部分算法结果受到常见不良事件报告频数影响较大,因而将多种算法联合应用于不良事件信号挖掘具有十分重要意义。
  
其他文献
研究目的据世界卫生组织公布的2020年全球最新癌症负担数据统计,乳腺癌新发病例数快速增长,成为全球第一大癌症。放射治疗(Radiotherapy,RT)是临床上应用广泛且高效的癌症治疗手段,其主要机制是通过损伤DNA的方式引起肿瘤细胞直接死亡[1]。然而近年来,辐射诱导的“远端效应”引起临床医师和肿瘤学家的关注。远端效应是指对原发肿瘤部位进行局部放射治疗后,非受照区的肿瘤产生肿瘤自发消退,其机制被
学位
研究背景:直肠癌是最常见的恶性消化道肿瘤之一。由于缺乏早期筛查意识,大多数患者确诊时已处于局部进展期或发生远处转移。对于局部进展期直肠癌患者而言,术前新辅助放化疗+直肠全系膜切除术+术后辅助化疗是标准治疗手段。但个体对术前新辅助放化疗的病理反应具有很强的异质性,只有45%的直肠癌患者可以通过新辅助放化疗(Neoadjuvant chemoradiation,NCRT)获益。现阶段,术后病理结果评估
学位
目的抗性淀粉(Resistant starch,RS)是一种在小肠中不会被消化,而在结肠中可发酵的新型膳食纤维。近年来人们越来越关注RS,且对其生理功能的研究也愈发增多,不管是动物实验还是人体实验,都有研究表明RS对糖尿病(Diabetes mellitus,DM)防治有较好的作用,具体表现在RS可以改善空腹血糖(Fasting blood glucose,FBG)和胰岛素水平,减少胰岛素抵抗,增
学位
研究背景随着儿童超重肥胖及不健康生活方式的流行,儿童血压偏高已成为重要的公共卫生问题。中国营养与健康调查数据显示,根据“2018年中国高血压防治指南中的儿童血压偏高判定标准”,儿童青少年血压偏高检出率从1991年的7.0%增长至2015年的11.7%。心血管疾病(cardiovascular diseases,CVD)占我国居民死因构成之首,其患病率和死亡率现呈持续上升趋势。既往队列研究证据显示,
学位
背景:目前有研究人员用受试者工作特征(ROC)曲线分析和最大选择秩检验的方法来确定连续性风险因素对结局的阈值或者称截断值,这两种方法都是以获得最好的预测价值为目的的单变量分析方法。流行病学和卫生统计研究有两大重要目的:疾病预测和因果推断。基于因果关系研究界值也是有意义的,该界值不同于以往的风险阈值,它的确定应当控制混杂因素,建立在因果关系的基础上。目前在因果推断上比较高级的证据是随机对照试验和孟德
研究背景  非自杀性自伤(Non-suicidal self-injury, NSSI)是指在无自杀意图的情况下采取故意的,自我施加的对身体组织的破坏,其行为目的不被社会所认可。NSSI和自杀未遂均属于故意自我伤害,主要区别在于是否存在自杀意图。鉴于两者的区别,《精神障碍诊断和统计手册》第五版(2015年)首次将非自杀性自伤障碍从自杀行为障碍中独立出来,设立了单独的诊断标准,但目前相关研究仍以自杀
学位
背景和目的:  利用高维组学数据(基因组学、代谢组学、影像组学等)对疾病进行辅助诊断、亚型判别等对个性化诊疗具有重要意义。因为各种疾病类型及亚型的患病率不尽相同且相差悬殊,因此这些高维组学数据通常为多分类不平衡数据。多分类不平衡数据是指在数据集中一个或多个类别的构成比较小(少数类)而其它类别的构成比较大(多数类)。针对平衡数据构造的传统判别模型,通常以总体判别准确率作为优化目标。当这些模型被直接应
学位
[背景]  蜱是最早被确认可将病原体传播给人类的媒介节肢动物,是世界上仅次于蚊子的第二大传染病媒介,可以感染、传播和贮存的病原体包括病毒、细菌和原虫等,且通常会同时携带多种病原体。  病毒是蜱传病原体的重要组成部分。目前,已经从蜱中发现了至少160种病毒,其中25%左右与人类和/或动物的病毒感染性疾病有关,主要以各种硬蜱作为传播媒介。其中,正内罗病毒隶属于布尼亚病毒目、内罗病毒科,是有包膜且基因组
学位
研究背景  病因推断是流行病学研究的永恒主题,然而,由于受到混杂因素和逆向因果作用的干扰,在常规观察性研究中得到的暴露和结局的关联往往并不可靠。针对因果方向的确定及混杂因素的控制,孟德尔随机化方法(Mendelian Randomization,MR)使用遗传变异作为工具变量(instrumental variable,IV),在推定暴露到结局因果方向的前提下,准确估计从暴露到结局的因果关联效应,
学位
目的:  早在2019年11月初,新型冠状病毒(SARS-CoV-2)感染在欧洲、美洲、亚洲等全球多地出现。新冠肺炎(COVID-19)在全球范围内引起极大的公共卫生危机。至今,SARS-CoV-2在全球仍呈大流行趋势,且进化速度较快,常出现新的变异株,导致传播速率上升,无症状感染者所占比例呈升高趋势。然而,SARS-CoV-2的起源和进化关系仍不清楚。对于新冠病毒的防控、病原体进化溯源和临床诊疗