数据挖掘在蛋白质翻译后修饰及疾病诊断和预后中的应用

来源 :华东理工大学 | 被引量 : 2次 | 上传用户:zzzkkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学领域,基于各种组学的转录组、蛋白质组以及临床上患者病理记录等数据层出不穷,如何从海量生物医学数据中挖掘出新颖且有用的信息来揭示生物医学机制已成为人们关注的热点之一。数据挖掘已广泛地运用到生物信息的各个方向中,但仍面临各种挑战和机遇。本课题分别从蛋白质、microRNA和临床医学数据层面对蛋白质翻译后修饰、疾病的诊断和预后进行了数据挖掘分析。在本课题中,我们尽可能多地收集赖氨酸乙酰化的数据,在蛋白质和肽段水平都做了去冗余处理,整合了氨基酸物化属性(AAPP)、位置特异性组成(PSSC)以及相邻氨基酸之间的转换概率(TPM)等生物学特征,并构建预测模型LAceP。与其他已有的方法比较,LAceP模型准确率最高,而且能预测分析多种生物的乙酰化位点,模型的稳定性更高,应用性更广。另外,为了便于生物科学家使用,LAceP做成了公开且免费的网络服务器,用户可以在网上简单快速地输入序列进行预测分析。LAceP模型为蛋白质乙酰化修饰研究提供了新的分析方法,有助于科研人员更好地理解蛋白质的作用机制。高通量测序的方法为某些疾病的诊断提供了新的研究思路。在本课题中,基于microRNA的高通量测序技术,我们提出了一种新颖的基于两层逻辑回归模型的HBV相关疾病诊断方法。通过样本收集、数据处理、模型选择、特征选择和模型优化过程,我们筛选到9个microRNAs可作为HBV相关疾病诊断的潜在标志物。第一层模型利用3个microRNAs区分HBV相关疾病和健康对照组。第二层模型通过8个microRNAs将HBV相关疾病进一步分为肝硬化和慢乙肝。两组独立测试集的验证结果显示,我们的模型具有高的准确率和鲁棒性。通过对筛选到的microRNAs和它们的靶基因进行功能富集分析,这些microRNAs显著性地富集到了 HBV相关疾病和相关的功能通路。除了疾病的诊断,疾病预后也是生物医学领域最为关心的话题之一。而影响预后的因素除了病人的身体素质外,还有治疗方式、病情以及社会生活等因素。在课题中,我们收集了 SEER数据库中近十年50岁以下的Ⅰ期子宫内膜样腺癌(EEAC)患者的临床病理学诊断和治疗记录数据。采用倾向得分匹配以及一些统计学方法对其进行数据挖掘,回顾性地分析了年轻患者保留或切除卵巢对其生存预后的影响。研究结果表明,与切除卵巢的患者相比,保留卵巢的患者显著性地倾向于更小的诊断年龄、更早的癌症分期和分化更好的肿瘤组织,她们的肿瘤更小,接受放疗和淋巴结切除术的可能性更低。经过倾向得分匹配随机化的过程后,保留卵巢和切除卵巢组间排除许多潜在的混杂因素,去除许多数据间的噪音,两组间各临床特征的差异也将不再显著。对降噪之后的数据进行多因素统计分析结果显示,保留卵巢以及切除卵巢对总体生存和肿瘤特异性生存均无显著性差异。保留卵巢对于年轻的Ⅰ期患者可能是安全的,患者可以在确保治疗效果的情况下,考虑接受较为保守的治疗方式从而保障其正常的生活质量。以上结果对临床诊断和治疗具有一定的指导意义。总体而言,本文从蛋白质、microRNA和临床医疗信息等层面对数据进行挖掘分析,提出了 LAceP模型对赖氨酸乙酰化位点预测,准确率较高,稳定性良好,网络服务器版本的预测工具,具有一定的实用性。论文基于两层模型利用9个microRNA标志物对HBV相关肝病进行诊断,模型具有较高的准确率和鲁棒性,能明确区分HBV相关慢性肝炎和肝硬化,具有一定的临床应用价值。另外,论文基于倾向得分匹配算法,提出的Ⅰ期年轻子宫内膜样腺癌患者保留卵巢具有一定安全性的建议,具有良好的临床指导意义。
其他文献
递归算法贯穿了数据结构课程的始终,是数据结构课程中的重点和难点。本文探讨了如何对"递归算法与实现"的教学内容进行取舍,从简单递归函数入手介绍了递归算法的设计方法,进而
近年来浮顶油罐的火灾、爆炸事故也越来越多,本文主要介绍了大型外浮顶储油罐在原油储运过程中发生火灾爆炸的原因,并且对其一二次密封圈间混合气体进行了检测与分析.针对外
<正>我国民航机场的主营业务收入分为航空性收入和非航空性收入两类。航空性收入指与航空运输活动有关,为飞机、旅客、货物服务的收入;非航空性收入指来源于与飞机无关的商业
研究背景新生命的孕育始于卵子和精子的结合。卵子和精子的受精发生在输卵管的壶腹部,受精卵在输卵管向子宫移动的过程中经历卵裂发育为桑椹胚。在受精后4-5天发育为囊胚,此
1研究背景肝郁脾虚证是中医常见证候,可见于临床多种疾病,所涉及疾病病种达40多个,包括肝胆疾病、肠道疾病、胃病等消化系统疾病及抑郁症等精神类疾病等。逍遥散是治疗肝郁脾
[背景与目的]宣威地区(包括云南省宣威、富源、麒麟和沾益,贵州省盘县,水城,六枝等),位于中国西南部,该地区拥有人口约310万,是中国乃至世界肺癌的高发区,有学者把当地肺癌称
工业园地下管网较为复杂,导致施工难度增加,施工质量和工期往往无法保证。依据给水排水管道施工的实际情况,可将施工的全过程分为管道铺设前的准备、管道铺设和施工场地恢复三个
随着我国对外开放的脚步的日益加快,伴随着中国—东盟自由贸易区的启动、西部大开发战略的实施,以及“一带一路”的建设,云南省从开放“末端”变为“前沿”。云南的出路在开
期刊