论文部分内容阅读
研究背景与目的药品安全问题一直是社会关注的重点,就我国而言,2006年以来发生的齐二药、欣弗、上海华联、广州佰易等一系列药品安全性事件,均对许多受害者造成了不可挽回的巨大损失,也引起了社会极大的关注,药品不良反应(Adverse DrugReaction,ADR)监测的重要性日渐凸显。为此,我国于2001年开始实行ADR信息通报制度,建立了自发呈报系统(Spontaneous Reporting System, SRS)数据库,为药品上市后的监管提供了大量宝贵的数据资源。对不良反应数据影响因素进行分析有助于及时判断不良反应的特征、发生机制、危险人群和可能的引发途径。目前ADR监测数据中常用的影响因素分析方法主要为Logistic回归。该方法能够有效地控制混杂因素并估计影响因素的相对危险度,但其在SRS数据库中的应用相对局限。第一,Logistic回归对样本量有一定要求,且分析的影响因素越多,对样本量的要求就越高;第二,Logistic回归在SRS数据中的应用通常只限于二分类结局的数据,即将目标不良反应以外的其他不良反应看作对照,存在一定不足。第三,当数据中存在缺失值时,需要采用缺失填补方法对数据进行填补后才能够进行分析。由于SRS数据中既包含常用药品引起的ADR,数据量通常很大,又包含了一些不常用药品引起的ADR,数据量相对较小,有时仅有十几例或几十例,并且,数据中不可避免会存在一些缺失值,故常用方法分析此类数据时存在一定不足。因此,本研究拟针对这些实际存在的问题以及现有方法的局限性,引进随机森林方法,以实际数据为例,探索随机森林方法在不良反应数据中用于影响因素分析的可行性及相对于现有方法的优势。研究资料与方法本研究以2007年上海等地爆发的阿糖胞苷不良反应为例,搜集了上海市ADR监测中心SRS数据库中的相关报告,作为研究的数据集,共计94例。随机森林方法是多棵决策树组成的综合模型,用于对数据进行预测和分类,已在医学、生物学、物理学等领域广泛应用于识别危险因素和分析交互作用等。该方法的优点是对数据集大小基本没有限制、内嵌缺失填补方法、不存在过拟合及共线性等问题。本研究还针对SRS数据的特点,采用了随机森林的一种改进方法来消除变量间存在的相关关系等偏倚,以得到更精确的结果。本研究运用了随机森林方法分析阿糖胞苷事件发生的重要影响因素,并采用随机森林改进方法来控制偏倚。最后将分析结果与实际情况进行对比,用以分析随机森林及其改进法在不良反应监测数据中应用的可行性及相应优势。研究结果通过对阿糖胞苷事件的数据进行影响因素分析,随机森林得到四个重要性评分较高的影响因素:触发时间、用药途径、发病季节和生产厂家,其重要性评分值均有统计学意义。触发时间重要性较高提示各不良反应的发生很可能存在本质差异,不大可能是由随机因素导致的;用药途径重要性较高则提示某些用药途径更容易引发不良反应;季节的重要性提示不良反应存在爆发或季节性趋势;生产厂家的重要性提示药品可能存在质量问题。且相比较于其他不良反应,肌无力和截瘫的各个影响因素重要性评分较高,其中截瘫对应的各个影响因素重要性最高。表明肌无力和截瘫与影响因素之间存在真实关联的可能性更大。通过对阿糖胞苷事件的数据进行影响因素分析,随机森林改进法也得到这四个重要影响因素:触发时间、发病季节、用药途径和生产厂家。与随机森林法结果相比,改进法的结果中药品剂型与用药途径的重要性评分排序略有下降,是由于这两者之间存在相关关系,会对分析结果带来一定的偏倚,通过改进法去除偏倚后,得到的结果更精确。阿糖胞苷不良反应最后查明是由于某生产厂家部分批号药品存在质量问题,在鞘内注射时引起肌无力、截瘫等神经损害症状。随机森林及其改进法得到的结果均与阿糖胞苷不良反应的实际情况相吻合。研究结论随机森林的综合评价机制能够从复杂数据中识别出真正重要的影响因素,并定量估计它们对不良反应发生的影响,其改进法还能够去除不良反应数据本身存在的偏倚,得到更精确的影响因素分析结果。因此推测,随机森林能够有效运用于SRS数据库,挖掘与不良反应发生有关的潜在危险因素,在ADR信号的发现、因果关联评价和指导临床用药方面将具有广泛的应用价值。