论文部分内容阅读
异质信息网的节点和边中包含更加丰富的语义信息,基于异质网的数据挖掘可以发现传统数据挖掘方法不易发现的关联和隐藏的关系,因而近年来受到研究者的重视。本论文利用蛋白质相互作用数据、疾病-基因关系数据、表型相似数据构造异质信息网,研究带重启算子的随机游走算法等数据分析方法,对疾病的候选致病基因进行排序,从而实现致病基因的准确定位。论文首先详细分析了经典的RWRH模型,包括其数据集,状态转移矩阵的构造以及利用随机游走算法得到基因排序结果的全过程。RWRH模型在探索蛋白质功能、药物靶点关系以及RNA疾病关系等领域被广泛应用。对于预测疾病的致病基因的研究,已经提出的方法大多是在构造异质网的数据源或者构造方式上进行改变或改进,但其本质都是基于RWRH模型的方法。基于RWRH模型,论文提出带扩展重启算子和扩展种子向量的RWRHESER模型,对初始种子向量p0按广度优先搜索(k次)形成扩展种子向量集PE,并相应地对重启算子也进行了扩展,在随机游走迭代算法中添加扩展重启算子Pe(k)。本文所提出的RWRHESER模型有效地避免了初始种子节点选择对算法性能的影响,在候选基因的排序过程中加强了异质网中致病基因节点和疾病表型节点的相邻结构数据对排序结果的影响。在预测疾病致病基因问题上,LapRWRH算法是基于RWRH模型的性能提升较大的方法之一,论文将RWRHESER模型应用于LapRWRH算法提出LapRWRH-ESER算法。利用HPRD数据库的开源蛋白质互作网络、MimMiner的表型相似性网络及OMIM数据库的基因表型关系网络构造异质信息网,对所提出的RWRHESER模型及LapRWRH-ESER算法与经典RWRH模型及LapRWRH算法进行了性能对比分析,使用留一交叉验证法比较,实验结果表明RWRHERSR模型和LapRWRH-ESER算法拥有更多的疾病基因成功预测数目。