面向高维数据挖掘的特征选择方法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:aaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是目前国际上数据库和信息决策领域最前沿的研究方向之一。由于高维数据日益成为主流,在实际应用中经常会遇到高维数据的情况,对高维数据挖掘的研究有着越来越重要的意义。但高维数据本身独有的一些特点,使得高维数据挖掘变的非常困难,因此必须采用一些特殊的方法进行研究处理。 本文从数据挖掘的概念及高维数据的特点入手,围绕着“面向高维数据挖掘的特征选择方法”这一核心思想,探讨了分别应用于文本数据和基因表达数据的特征选择方法。 针对文本数据,采用词的quality标准进行特征选择及降维,同时在稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进,提出了一种面向文本聚类的改进的K均值算法。通过采用20NewsGroup数据集进行实验,结果表明,改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K均值算法。 对于基因表达数据,提出了一种新的面向基因表达高维数据的特征选择方法,特征子集的搜索采用遗传算法进行随机搜索,特征子集的评价采用基于边界点可分性度量作为评价指标及适应度函数。实验表明,该算法可有效的找出具有较好的可分离性的特征子集,从而实现降维并提高分类精度。在此研究的基础上,又提出一种综合了filter及wapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验表明,该算法可有效的找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。
其他文献
把现有的Web服务按照一定的语义和逻辑自动组合起来,以得到增值的服务是当前Web服务领域研究的一个热点。目前Web服务组合面临的主要问题是系统的可伸缩性、消息传输效率以及
实时协同编辑系统作为CSCW的一个重要应用,近年来得到了广泛研究。本文介绍了一种实时协同编辑算法及其在协同编辑器Z-Office中的设计与实现。本文首先对现有多种协同编辑并
近年来,随着计算机网络的蓬勃发展,电子商务已经逐渐成为一种重要的经济模式和理念。电子支付作为发展电子商务的一个重要手段和基础得到了人们的广泛关注。电子支付的安全性
数据库知识发现是(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,分类是其中的一个重要研究方向。决策树是分类中
仿真技术,特别是计算机仿真技术是一门建立在相似理论、控制理论和计算机技术基础上的综合性与实验性科学,由于它不需对系统进行抽象与简化,通过计算就能模拟系统行为的全过
PID控制器以其自身的优点在工业控制领域应用非常广泛,免疫算法是基于人工免疫理论,在遗传算法的基本框架之上结合免疫算子而形成的一种新型优化算法,本文深刻分析了免疫算法
流程管理是 PDM 系统中实施业务过程管理与过程控制的一项关键技术。为了从整体上提高产品设计的效率,降低设计成本,提高产品业务管理水平和竞争力,需要把产品数据管理技术与
随着中国数字娱乐产业的发展,三维游戏引擎系统已开始成为众多关注和较快发展的VR应用技术之一,然而相对于美国、日本等国家而言,我国对三维游戏引擎技术的研究还比较滞后。
随着计算机技术的迅猛发展,程序设计技术的不断成熟,模块化的设计要求已经不仅仅是出于程序编写规范性上的要求,人们越发的意识到把应用程序设计成一组彼此通信的小片段是比设计
在数据库系统中,查询速度的快慢直接影响到应用系统的生命力,其中连接作为关系数据库模型的一个基本的操作,将在不同的关系上进行,使用频率较高,执行的开销也很大,因此查询优