肿瘤基因表达谱数据聚类的谱方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ruannengjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达谱数据的聚类分析研究是生物信息学研究的重点。肿瘤样本的聚类分析有助于发现新的肿瘤类型或亚型。通过样本的聚类,不仅能确定肿瘤的类别,同时可以根据已知聚类的肿瘤样本对未知聚类的样本进行预测和分类,从而帮助诊断。另外,对于不同肿瘤类型或同一肿瘤的不同亚型,可以通过找出信息基因或不同致病时期的信息基因,来研究肿瘤的病变及转移等机制。而对基因进行聚类可以帮助找出功能表达相似的基因,从而发现基因之间的调控关系,并发掘出具有研究价值的基因,并从中筛选药靶和诊断靶。本文提出了几种有效的基于谱图理论的聚类或半监督聚类算法,并将其应用于肿瘤基因表达谱的聚类分析中。通过构图的方法将基于数字序列的无结构信息的基因表达谱矩阵转化为具有结构信息的图结构,在使数据有效降维的同时,获取肿瘤样本的图结构的特征表示,并利用相关的图论算法对肿瘤样本进行划分与识别,同时分析了相应的实验结果。主要内容如下:1.提出一种改进的谱聚类方法。通过对基因表达谱数据构造概率矩阵,经奇异值分解(SVD)后提取前k个特征向量,并以此作为肿瘤样本的特征表示,运用模糊C均值(FCM)进行聚类分析。对比实验证明了该方法的有效性。2.提出一种基于谱隙和单位特征向量的谱聚类算法。首先,以肿瘤样本为图的节点构造Laplacian矩阵;然后,计算Laplacian矩阵的特征值和相应的特征向量,并利用谱隙序列的最大值确定该方法的聚类个数;最后,选取相同个数的特征向量作为原始样本的特征表示,并从单位化特征向量着手,以实现样本的聚类。通过模拟数据与癌症数据的实验,证明了该方法的有效性。3.提出一种基于Gauss-Seidel迭代的标记传播算法,并将其应用于基因表达谱数据分析。首先将高维基因表达谱数据表示为权值矩阵,同时定义一个表示样本类别属性的标记序列,并将其中少量样本标记为已知;然后利用根据Gauss-Seidel迭代算法推导出的迭代公式更新标记序列,并证明了标记序列的解的收敛性;最后采用正负标记的方式,根据标记序列各分量的符号差异实现数据类别的划分。通过白血病和结肠癌数据集的实验,证明了该方法的有效性。
其他文献
结核病至今是人类死于传染病的主要原因[1],目前在我国发病率仍较高,有死恢复燃的现象.由于结核病是全身性疾病,临床上除常见的肺结核外,结核性脑膜炎、结核性腹膜炎、肠结核
期刊
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
石油化工产业在我国产业结构中占有非常重要的地位,且是我国国民经济的重要组成部分。石油化工企业在生产过程中最重要的环节就是安全管理,安全管理也是实现石油化工企业可持
党的十八大以来,深化“放管服”改革推进政府职能转变、提升服务水平,成为我国全面深化改革的重要内容。其中,行政审批制度改革成为政府自我革命的“先手棋”和“当头炮”,在
斜向预应力水泥混凝土路面是一种新型的混凝土路面,它可以在较长范围内不设置伸缩缝,提高了道路的承载能力和路面使用性能,并延长水泥混凝土路面的使用寿命。但是由于混凝土原材
<正>我们时常注意一些百岁老人的养生经验,但他们的一些经验也时常让我们困惑:有人说生命在于运动,运动才会健康,有人说生命在于静止,像乌龟那样静养才能长寿;有人一辈子喝酒
期刊
风能作为一种可再生的循环利用能源,近年来风电技术不断得到发展,风力发电机经常处于恶劣的工作环境下,其载荷处于长期的交变状态下,在大力发展风电的过程中,对环境影响较为突出的问题便是风机运转带来的噪声污染。由于风力机机组包含非常多的机械部件,因此在正常运行与异常状态下都会产生各种噪声与振动。通常采用传感器进行信号的采集时,往往伴随着诸如润滑系统的振动信号、温控循环系统的振动信号等强干扰信号,为了将机械
本文总结了陕西省中小企业信用体系试验区建设的基本经验和主要成效。在此基础上,提出进一步推动中小企业信用体系试验区建设工作的建议:如进一步完善中小企业信用体系试验区建
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技