肿瘤基因芯片数据聚类分析算法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:lw8307817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域中来,使得生物信息学很快成为全球关注与研究的焦点。基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音非常大等特点,使得选择与肿瘤有关的信息基因或从基因表达谱中抽取肿瘤特征信息成为一项有挑战性的工作。正因如此,国内外专家学者对这个分类问题进行了广泛而深入的研究,发表了大量的研究论文。从基因表达谱的成千上万个基因中选择分类能力尽可能强而数量又尽可能少的信息基因子集极巨复杂性,通常情况下,在如此大的基因空间中进行穷尽搜索是不可能的事情。因而,合适的聚类方法与分类器的选择是至关重要的。本论文中,我们在总结肿瘤聚类与分类研究成果的基础上,提出了新的肿瘤信息基因选择方法和基于基因表达谱的肿瘤聚类与分类模型,然后详细阐述了模型的关键环节及所采用的方法,最后对聚类与分类正确率与用传统方法的结果做了比较。本文主要作了以下研究工作:第一,对选择的信息基因数据集进行肿瘤的聚类分析。我们提出了利用独立分量分析算法(Independent Component Analysis:ICA)进行信息基因的选择,然后将非负矩阵分解(Non-negative Matrix Factorization:NMF)及其扩展算法—稀疏非负矩阵分解(Sparse NMF:SNMF)和具有稀疏约束的非负矩阵分解(NMF withSparseness Constraint:NMFSC)用于聚类分析。实验采用了三种肿瘤样本集验证了我们所用方法的可行性和有效性。第二,在用ICA提取特征基因的基础上,进一步利用顺序浮动前向选择算法(Sequential Floating Forward Selection:SFFS)来选择最具判别力的特征基因,然后将支持向量机(Support Vector Machine:SVM)作为分类器进行肿瘤分类研究。我们也将这种方法用在三种肿瘤样本集上,通过与利用其它方法的结果对比,表明了算法有效性。本文最后指出了目前肿瘤分类研究存在的一些问题以及今后需进一步开展的研究工作。
其他文献
足球机器人涉及多个学科、领域,是一个典型的智能机器人系统,为研究发展多智能体系统、多机器人之间的合作与对抗提供了生动的研究模型,是展示信息自动化前沿研究成果的窗口
基于视觉传感的焊缝跟踪技术具有信息量大、可靠性高、适用性广等特点,因而具有很大的研究和发展空间。本文在前人研究的基础上,进一步探讨了视觉传感技术的优势,并且依据实
移动机器人的运动规划首先需要考虑位姿空间中障碍物所导致的约束,即由于障碍物的存在使得机器人位姿空间中的某些姿态是不能达到的。对于非完整性机器人的运动规划,还需要考
在机器视觉领域,行人是图像、视频分析的重要关注对象,同时为了完成可移动、实时的行人检测,不仅需要在软件及算法上实现检测功能,而且需要一个小型化的智能视觉平台来搭载行
人类基因组计划的实施,产生了大量的生物医学数据。生物信息学是基于信息科学的理论和方法,利用计算机技术,分析和研究生物医学数据的新兴学科。基于基因表达谱,在分子水平上
本文研究了基于MPEG-2标准的传输流复用的原理,总结和分析了前人在相关技术方面取得的成果,并在吸收前人先进技术的基础上,对传输流复用器的实现算法和相关理论进行了深入研究,给
随着控制科学和计算机技术的不断研究和广泛应用,在交通、制造、通信等领域内相继出现了一大批反映新技术发展的先进系统,其中很多是通过对原系统进行新技术革新完成的,如先
基于DSP(digital signal processing)技术的人防警报广播/电视执行终端是专用于广播/电视系统的人防警报信号发放设备。利用广播/电视系统的信道发放警报的目的是补充了人们
H.264(MPEG4 Part10,AVC)是ITU-T(国际电信联盟)和ISO(国际标准化组织)在H.263和MPEG4的基础上制定的新一代视频压缩编码标准。H.264采用了许多先进的技术,在编码效率和性能大
随着经济全球化导致市场竞争的日趋激烈,现代项目日趋复杂,要求周期更短、准时完工率更高、成本更低。传统的项目进度计划方法虽然在解决工程单目标优化如工期优化、费用优化