基于流形学习的生物数据特征提取方法

来源 :济南大学 | 被引量 : 0次 | 上传用户:just_username
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息新技术的快速发展,人们直接从试验中得到的数据正以指数级规模增长,并且掺杂着许多不确定信息和冗余信息,因此直接对数据进行处理已变得越来越艰难。研究生物数据特征的意义重大,不但有助于加快对生物数据的处理,提高对生物数据的精度,而且对生物学、医学和药学的探究都有非常重要的作用。目前在计算机视觉、基因微阵列数据分析和生物特征识别中直接获得的数据都是高维的,因而如何有效得从这些高维数据中提取有效数据信息已迫切成为信息科学与技术所面临的重要课题。本文所要研究的是针对生物数据的高维小样本特征如何提取有效信息,使之成为低维小样本,以及如何构建一个对生物数据特征的分类模型,使之能够更加准确有效的识别不同类别的生物数据。内容包括生物数据的特征提取方式,神经网络结构设计及流形学习算法的选择。(1)生物数据特征提取。要对生物数据特征进行分类识别,首先必须把生物数据特征信息提取出来,转换成计算机能够处理的数据,然后对这种大批量的高维小样本数据进行特征提取,即选择主要特征剔除冗余及无关特征。因此,如何提取生物数据主要特征,即选择何种特征提取方法尤为重要,不同的特征提取出来的信息不尽相同,目前的方法主要有线性特征提取方法如主成分分析(PCA)、独立成分分析(ICA),非线性特征提取方法如非线性PCA网络、Kohonen匹配,流形学习如等度规映射(Isomap)、局部线性嵌入(LLE)、非负矩阵分解(NMF)等,从不同角度对生物数据进行特征特征提取。本文采用了等度规映射和非负矩阵分解的特征提取。实验表明,不同的特征提取方式对于不同的数据集和分类模型效果不同。(2)分类模型的建立。本文采用了克隆数据集和白血病数据集,其分类及预测的实质是根据前面所提取的有用信息即降维后的数据,通过分析这些信息之间的关系,总结出一定规律,然后实现对未知数据的类别预测。这两种数据集特征提取后的数据信息维数仍然比较高,计算量也比较大,因此借助神经网络是非常必要有效的。神经网络具有比较强的自组织、自学习和自适应能力,此外还具有比较好的容错能力,因此利用神经网络能快速有效地学习到数据序列中所包含的特征信息,实现对类别的训练及预测。神经网络的优化包括结构的优化以及参数的优化两部分,采用哪种优化算法是至关重要的,不同的优化算法具有不同的时间效率,不同的算法产生不同的分类预测精度。针对神经网络的这种特点,本文采用不同的优化算法对神经网络进行优化,选择出更适合这种数据集的优化算法。实验表明,采用BP神经网络能够在一定程度上提高对数据的预测准确率,通过实验还表明,神经网络采用单输出方式比采用多输出方式能够取得更好的效果。
其他文献
肿瘤是目前危害人类健康乃至生命的重大疾病之一,它的发生发展与受损DNA上基因的异常表达密不可分,然而利用基因芯片技术测量得到的成千上万个基因的表达水平中,仅有为数不多
近年来,随着多媒体以及网络技术的飞速发展,基于内容的视频应用得到了人们越来越多的关注,成为数字视频技术乃至计算机视觉领域的一个研究热点。这些应用包括基于内容的视频
随着多核系统的普及和发展,中央处理器的数目越来越多,软件应用规模也越来越大,对存储器的存储容量和访问速度要求逐渐加大。另一方面,随着工艺的发展,作为主流的DRAM和SRAM的工艺
随着嵌入式技术的发展, GPS移动导航产品在汽车电子技术行业得到了广泛的使用。但由于常见移动导航终端功能较为单一,不具备多媒体功能,使其很难满足市场上对人性化导航终端
伴随汽车社会的临近,机动车数量的不断增加,机动车驾驶员的数量也在快速增长,交通安全问题日益成为社会发展的重要影响因素。在交通管理中数据库技术已经获得了普遍的应用,经
随着Internet的飞速发展,信息内容空前庞杂,通用搜索引擎已经很难满足特定领域的信息检索需求,垂直搜索引擎应运而生。然而,现在流行的垂直搜索引擎多在语法级层面进行操作,
随着农民收入的稳定增长和政府对农村安全用药的高度重视,农民整体健康水平有了显著的提高,消费潜能不断地释放也使得农村售药终端所蕴含的市场变得越来越清晰。但是由于相关
随着Internet的迅速发展,Web资源成指数级增长使得对Web资源的管理显得更加困难。如今,大量隐藏着木马、病毒和非法广告等程序的恶意网页在Web网络中泛滥。这些网页采取作弊
随着多核并行计算技术的普及,如何开发适应多核体系架构的软件逐渐成为人们关注的焦点。然而,要想真正发挥出多核处理器的最佳效力,软件的开发一定要跟上多核硬件的开发速度,
异构数据集成在现代工业信息化过程中起着很重要的作用,其中集成各个异构数据已经成为系统集成的一个十分重要的技术。由于企业系统在发展的各个阶段采用不同的数据存储格式,