论文部分内容阅读
在生物医学领域,基于各种组学的转录组、蛋白质组以及临床上患者病理记录等数据层出不穷,如何从海量生物医学数据中挖掘出新颖且有用的信息来揭示生物医学机制已成为人们关注的热点之一。数据挖掘已广泛地运用到生物信息的各个方向中,但仍面临各种挑战和机遇。本课题分别从蛋白质、microRNA和临床医学数据层面对蛋白质翻译后修饰、疾病的诊断和预后进行了数据挖掘分析。在本课题中,我们尽可能多地收集赖氨酸乙酰化的数据,在蛋白质和肽段水平都做了去冗余处理,整合了氨基酸物化属性(AAPP)、位置特异性组成(PSSC)以及相邻氨基酸之间的转换概率(TPM)等生物学特征,并构建预测模型LAceP。与其他已有的方法比较,LAceP模型准确率最高,而且能预测分析多种生物的乙酰化位点,模型的稳定性更高,应用性更广。另外,为了便于生物科学家使用,LAceP做成了公开且免费的网络服务器,用户可以在网上简单快速地输入序列进行预测分析。LAceP模型为蛋白质乙酰化修饰研究提供了新的分析方法,有助于科研人员更好地理解蛋白质的作用机制。高通量测序的方法为某些疾病的诊断提供了新的研究思路。在本课题中,基于microRNA的高通量测序技术,我们提出了一种新颖的基于两层逻辑回归模型的HBV相关疾病诊断方法。通过样本收集、数据处理、模型选择、特征选择和模型优化过程,我们筛选到9个microRNAs可作为HBV相关疾病诊断的潜在标志物。第一层模型利用3个microRNAs区分HBV相关疾病和健康对照组。第二层模型通过8个microRNAs将HBV相关疾病进一步分为肝硬化和慢乙肝。两组独立测试集的验证结果显示,我们的模型具有高的准确率和鲁棒性。通过对筛选到的microRNAs和它们的靶基因进行功能富集分析,这些microRNAs显著性地富集到了 HBV相关疾病和相关的功能通路。除了疾病的诊断,疾病预后也是生物医学领域最为关心的话题之一。而影响预后的因素除了病人的身体素质外,还有治疗方式、病情以及社会生活等因素。在课题中,我们收集了 SEER数据库中近十年50岁以下的Ⅰ期子宫内膜样腺癌(EEAC)患者的临床病理学诊断和治疗记录数据。采用倾向得分匹配以及一些统计学方法对其进行数据挖掘,回顾性地分析了年轻患者保留或切除卵巢对其生存预后的影响。研究结果表明,与切除卵巢的患者相比,保留卵巢的患者显著性地倾向于更小的诊断年龄、更早的癌症分期和分化更好的肿瘤组织,她们的肿瘤更小,接受放疗和淋巴结切除术的可能性更低。经过倾向得分匹配随机化的过程后,保留卵巢和切除卵巢组间排除许多潜在的混杂因素,去除许多数据间的噪音,两组间各临床特征的差异也将不再显著。对降噪之后的数据进行多因素统计分析结果显示,保留卵巢以及切除卵巢对总体生存和肿瘤特异性生存均无显著性差异。保留卵巢对于年轻的Ⅰ期患者可能是安全的,患者可以在确保治疗效果的情况下,考虑接受较为保守的治疗方式从而保障其正常的生活质量。以上结果对临床诊断和治疗具有一定的指导意义。总体而言,本文从蛋白质、microRNA和临床医疗信息等层面对数据进行挖掘分析,提出了 LAceP模型对赖氨酸乙酰化位点预测,准确率较高,稳定性良好,网络服务器版本的预测工具,具有一定的实用性。论文基于两层模型利用9个microRNA标志物对HBV相关肝病进行诊断,模型具有较高的准确率和鲁棒性,能明确区分HBV相关慢性肝炎和肝硬化,具有一定的临床应用价值。另外,论文基于倾向得分匹配算法,提出的Ⅰ期年轻子宫内膜样腺癌患者保留卵巢具有一定安全性的建议,具有良好的临床指导意义。