基于耦合度量的多模生物特征分类研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:aaajansen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因数据具有唯一性,难以仿制性,也被视为是一种生物特征。计算机信息技术的发展带来的高通测序技术的进步为实现癌症的精准医疗提供了数据基础,通过对基因组数据的分析实现对癌症患者子型的划分,探索相应的癌症分子生物标志物是攻克癌症的关键。现阶段大部分对于癌症分子子型的研究都是基于单一基因组学也就是单一模态的数据,特别是转录组数据进行的。考虑到基因调节不同层次上的分子的异质性,仅仅使用转录组数据并不一定能观测到完全的生物学特征。而且癌症分子学子型的划分只适用于转录组学mRNA数据,对于其他组学数据诸如miRNA数据,则无法利用分子学子型的有关信息。所以本文尝试将耦合度量学习中的典型相关性分析(CCA)方法,经过改进后应用到生物信息学领域,实现对多模态分子生物学数据的融合,建立起多模态分类器,并使用已有标签的结直肠癌的两种基因组学数据:mRNA和miRNA数据进行验证。
  本文的主要研究工作如下:
  1.本文首先介绍了癌症的危害性,以及现阶段癌症治疗存在的一些问题,通过对癌症起因和目前全球癌症的整体描述,展示了精准治疗的重要意义。接着介绍了目前基于基因组数据的癌症的研究的现状,讨论了癌症分子学子型与临床精准治疗的关系,对融合多模态数据的癌症分类的必要性做了阐述。
  2.简单描述了用于方法验证的癌症基因数据集的建立,主要包括基因数据的获取,对数据缺失值的处理,基于表达变异对数据的筛选和对数据的标准化方法,并对本文所使用到得分类器和Wilcoxon秩和检验进行了介绍。
  3.对传统典型相关性分析算法进行了介绍,并针对其潜在的高维数据不可逆的问题进行改进,使用改进的典型相关性算法和多种特征融合方法进行对比实验,选出效果最好的特征融合方法和分类器的组合,使用建立的多模态分类器对多模态数据和单模态数据的分别进行分类,将结果进行比对。
  4.从聚类的角度出发,尝试从数据角度对结直肠癌样本添加标签,通过改进的典型相关性算法利用多模态数据和特征融合,建立起多模态分类器,并使用留一法交叉验证对比了样本在聚类标签和癌症分子学子型标签下的识别率,进一步验证了多模态分类器的有效性。
  本文提出的从癌症基因组数据角度出发,使用改进的典型相关性算法对多模态数据进行融合的思想,为综合利用癌症基因组学数据提供了新的思路。本文通过多组实验选取了最适合于数据的预处理方式,特征融合方法和分类器设计,并验证了多模态分类器的有效性。针对目前癌症分子学子型分类只适用于转录组学的现状,通过多模态分类器可以在一定程度上实现对其他基因组学数据的分类,对于综合利用多模态信息对癌症进行进一步研究具有重要意义。
其他文献
我国采取司法鉴定的方式来解决民事诉讼中不断增多的专业问题,但因极易出现鉴定人垄断专业事实认定权的现象,所以我国在民事诉讼中设立了专家辅助人制度,以弥补鉴定制度的不足和协助当事人更好地进行专业诉讼活动。目前该制度在我国已经初具规模,但立法还比较简陋,实践中不具有可操作性,无法实现制度的应然功能。鉴于此,本文通过四部分内容来研究、完善该制度。第一部分是民事诉讼专家辅助人制度概述。文章首先明确了专家辅助
学位
网络游戏产业是互联网技术和数字经济发展和应用的产物,伴随网络游戏产业的快速发展,在激烈的市场竞争背后,网络游戏著作权侵权行为日益增多。然而,理论界对网络游戏的法律性质尚无统一认识,对网络著作权保护模式更是莫衷一是。司法实践中,因缺乏明确的法律依据,法院对网络游戏侵权案件的裁判标准尺度不一,裁判结果大相径庭。因此,加强对网络游戏著作权保护模式的理论研究,探讨司法实践中对网络游戏侵权案件的具体适用标准
学位
该文首先分析了高启所处的元末明初的大变革时代和吴中地域的特殊环境,从人文氛围和诗歌风气的转化出发,来阐释高启诗歌和性格中与时代相应的新元素,和这种元素产生的历史与地域背景.其次,以高启诗歌中鲜明的文人意识为核心,该文从出仕和归隐的矛盾、孤独和自适的统一、为艺术的诗歌等三个角度来阐释这一意识对高启的意义所在.最后,该文从高启拟古的特色——精神意象,高启对"主情"的重视,来论述其诗歌在文学史上的地位与
学位
随着全球矿物燃料大量消耗和化肥的大量使用,氮沉降量在过去的几十年间不断增加。中国已成为全球第三大氮沉降集中区,其中华北、华东以及内蒙古中西部草原区是高氮沉降地区。氮沉降引起了严重的氮饱和问题,深刻影响了生态系统生产力、多样性、群落结构和养分循环等生态系统功能与过程。本文通过在内蒙古呼伦贝尔草甸草原和锡林郭勒典型草原设置对照CK(0g.N/m2/yr)、低氮(LN,2.5g N/m2/yr)、中氮(
由于现代人的膳食结构不均衡、缺乏运动锻炼、烟酒摄入、工作压力大等不健康的生活方式,心脑血管疾病呈现年轻化的趋势,目前主要采用动脉搭桥等方式作为治疗手段,但由于自体血管的来源有限或血管病变程度过高而难以实行。为响应这一临床需求,在过去的十年间,致力于人工血管的研究成为热点。目前,大口径的人工血管已经形成了商品化,但由于小口径的人工血管(内径<6mm)在吻合口处易形成血栓和内膜增生,移植后的长期通畅率
学位
活动依赖性的突触可塑性——长时程增强(LTP)、长时程抑制(LTD)和LTP反转——通常被认为是成熟大脑中学习和记忆的细胞机制,在这之中N-甲基-D-天冬氨酸(NMDA)受体和神经发生起重要作用。LTP反转可能是参与介导遗忘和许多精神疾病如精神分裂症的关键因素,然而具体机制仍不清楚。有研究发现LTP反转随动物年龄的增加变得更容易被诱导,而这一过程可能与NMDA受体亚基NR2A和NR2B的相对表达量
学位
先天性黑朦(LCA)是一类遗传性视网膜疾病。在正常人群中,该病的发病率约为1/30000到1/80000。LCA通常在患者出生后几个月即可发病,引起严重的视觉损伤甚至完全失明。LCA具有很高的临床异质性和遗传异质性,临床上,主要由以下4个特征来定义该症:严重且早发的视觉损伤、眼球震颤、黑朦性瞳孔和视网膜电生理反应消失。不同的患者可伴发不同的临床症状,包括圆锥形角膜、白内障、屈光不正、畏光、夜盲、智
特发性基底节钙化(Idiopathic basal ganglia calcification,IBGC)是一种以脑组织双侧发生渐进性钙质沉积为主要病理特征的遗传性神经系统疾病,临床症状包括肌张力障碍、共济失调、帕金森病样症状、痴呆、情感障碍、精神错乱、记忆力下降、偏头痛和癫痫等。本课题组在2012年首次克隆第一个IBGC的致病基因SLC20A2,该基因编码III型钠磷转运蛋白2(PiT2),它主
无刷直流电机具有调速性能好、体积小、效率高等优点,在很多领域得到了广泛的应用。无刷直流电机采用无位置传感器控制技术后不但克服了有位置传感器无刷直流电机的的缺点,还更进一步地拓宽了其应用领域。本文在借鉴国内外已有研究成果的基础上,对无位置传感器无刷直流电机的控制系统进行了研究和总结。研究的内容主要包括以下几个方面:(1)详细地分析了无刷直流电机的数学模型。设计了一种新的软硬件相结合的方法去检测反电动
在复杂疾病的研究中,生物标志物可以作为客观测定和检验正常生理、病理过程和临床诊断中的具有某些特定表征的生化指标。凭借对相应标志物的检测,可以深入理解疾病的亚临床型和生物学过程,是针对疾病实施精准化医疗和个体化医疗的基础,探索和挖掘有意义的生物标志物已经成为生物医疗领域中一个重要的热点。但是,由于现有算法的局限性,对于同一种复杂疾病的研究,不同研究机构得到的生物标志物通常并不一致,这引起了人们对这些