【摘 要】
:
互联网时代,网络已成为最大的信息聚集地。特别是因特网的快速发展,信息及电子文本数目迅速增加。据统计,互联网中80%的数据是以非结构化的形式存在的,如Web页面、电子邮件、
论文部分内容阅读
互联网时代,网络已成为最大的信息聚集地。特别是因特网的快速发展,信息及电子文本数目迅速增加。据统计,互联网中80%的数据是以非结构化的形式存在的,如Web页面、电子邮件、基因数据、图像等。由于这些数据的半结构化甚至于无结构化的特点,使得表示这些数据的特征向量高达几万维甚至于几十万维。特征维数的庞大引起了维度灾难(curse of dimensionality),这对文本分类,信息检索,基因工程,计算机视觉等问题造成了极大的障碍。所以我们引入特征选择,通过它来移除不相关的特征,检测出冗余的特征,得到一个较小、较优的特征子集,最终达到维数约简的目的。与此同时提高学习算法的泛化性能和运行效率,得到更加简单和容易理解的学习模型。本文关注的焦点是高维数据的特征选择以及基于特征选择的集成聚类。研究重点主要包括以下两个方面:一、我们提出了一种基于稀疏表示的组合式特征选择方法。首先我们利用相关性特征选择方法(如IG、EVSC等)去除不相关的特征,然后引入用稀疏表示的方法来探测冗余特征,结合这两个方式得到最优特征子集。在多个高维数据集上的实验结果表明,从分类/聚类准确率,特征子集大小等多角度考察该算法具有良好的综合性能。二、从聚类成员质量和个体差异度两方面出发,提出了一种适于高维数据的基于特征分层抽样的集成聚类算法。实验表明,在高维数据集上,我们实现的基于特征分层抽样的集成聚类算法优于基于随机特征选择和随机特征投影的集成聚类算法。
其他文献
心电图的自动分类研究一直是近年来信号处理领域的研究热点之一,在重症监护室、可穿戴心电设备、疾病与心脏活动关系研究、评价起搏器功能等方面有着广泛应用。通过引入计算机
随着高速铁路以及随之而来的动车组在中国的飞速发展,动车组的安全运行与故障处理变得日益重要。因此,车载无线传输设备技术(WTD技术)应运而生,通过对车辆的状态信息进行采集,处
人工免疫系统(Artificial Immune System,AIS)是借鉴生物免疫系统的诸多特性,如分布式检测、自适应性、多样性、记忆性等,用来解决网络安全中所遇到的问题的一门新兴学科。其
随着信息技术的发展和传统实验系统的升级,提高实验平台的利用率和增强服务能力的成为业界研究的热点。云计算(CloudComputing)为实验平台提供了有力的支撑,然而如何有效的利用云
智能视频监控系统是计算机视觉研究领域的一个重要课题,而运动对象检测则是智能监控系统的核心技术。运动对象检测的研究对象是视频图像序列,其目的是判断视频序列中是否存在
人工智能近年来受到越来越多的关注,并成为今年全国两会的热门话题。机器博弈的研究为人工智能提供了很多方法和理论,如博弈搜索等。机器博弈又分为完全信息博弈和不完全信息
随着数字视频技术的不断发展和广泛应用,传统的以二维图像为基础的视频画面已越来越难满足使用者的需求。因此人们更多的将研究重点转向了多视点、自由视点和三维等多种立体
ESP问题,即Euclidean最短路径问题,是计算几何中一个比较典型的问题。该问题的基本描述为:在欧式空间中,给定源点、目标点以及一系列障碍物,希望求出从源点出发经过这些障碍物
在油田事故灾难救援中,涉及到的救援资源种类多,参加救援的救援点也比较多且分布离散无规律,对于一次事故救援过程来说,合理高效的选择救援资源,对参与救援的救援点进行合理
模型驱动软件开发(MDSD)关注的焦点是模型驱动架构(MDA)在软件工程中的运用。MDSD的主要目标是提高软件开发效率,并通过提高模型的抽象层次来提高软件复杂度的易处理性。随着建模