基于信息论的特征选择算法研究

被引量 : 0次 | 上传用户:apworld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘和机器学习应用领域的数据朝着大规模,高维度方向发展,这给传统的数据挖掘带来了巨大的挑战。例如在生物信息学中的基因表达阵列分析,所处理的数据集具有高特征、低样本的特点,其中存在的冗余特征或者不相关特征,不仅会降低学习算法的学习速度,影响到算法的准确率、知识发现以及知识的理解,而且会造成“维灾难”的问题。因此,特征选择在目前海量数据的条件下尤为显得重要。特征选择是根据某种评估标准,从原始特征空间中去除不相关以及冗余的特征,达到降低特征空间维数的目的,在很多领域得到了广泛应用。基于信息论的特征选择算法是近年来的一个研究热点,出现了大量基于信息熵的选择算法。本文对特征选择及信息论相关知识进行总结研究,分析目前信息度量的发展趋势以及典型的信息度量方法,目的是提出一个普遍适用的基于信息论的特征选择度量标准NVI(Normalized variation of information),并详细证明该标准满足度量距离的条件——对称性、非负性和三角不等式。基于新的度量标准提出了一种改进的特征选择算法IFCA,该算法采用k-means聚类算法的基本思想,并将相关度高的特征组成为一个聚类,再从每个聚类中选择区分能力较强的特征,同时达到去除冗余和不相关特征的目的。通过在公用测试数据集上与其它典型的度量表示对比实验表明,本文提出的度量标准NVI能够获取较小的特征子集,运行效率较高,并且将取得的特征子集用于不同的学习算法,都获得较好的的分类性能,同时该信息度量不但可以描述特征的类相关度,还可以描述特征间的依赖关系,可作为算法的距离度量标准,不局限于本文提出的特征选择算法。在公用测试数据集的实验也表明本文所提的算法IFCA在不同分类器上具有较低的训练和泛化错误,能够应用于处理高维数据集。虽然在公共测试数据集上的模拟实验表明了所提出的IFCA特征选择算法的有效性,但它也存在几个方面缺陷,今后主要的工作将对存在的这些问题加以改进,以进一步提高所提出的选择算法的性能和效率。
其他文献
在我国城市化进程中,农村留守儿童已成为一个备受关注的社会问题。其中,父母缺位所导致的留守儿童在人际交往中的不适和偏差愈来愈严重。本文以徐州市睢宁县Y村162名留守儿童
以高中函数概念教学为案例,说明高中数学教学应用"先行组织者"的路径:(1)概念同化:重视各位属关系的教学设计;(2)问题化归:注意教学任务中的问题设置;(3)概念再识:纠正问题解
社区是基本的社会载体,在社会转型时期,社会急需一个新的稳走的治理模块,本文聚焦南京市建邺区推广的共享幸福圈社会治理创新模式。这一模式注重运用市场机制和政府供给等渠
茶多酚作为天然功能性物质能有效防治2型糖尿病,但是其具体作用机制仍不太清楚。研究表明它的作用机理主要是通过调控糖代谢平衡:包括降低α-糖苷酶、α-淀粉酶等双糖酶活性,
<正> 温补肾阳法在临床上有较为广泛的应用,首先须追溯历代对“肾阳”的认识演变以及治法上的改进。《内经》谓肾居腰部,主出伎巧,藏精,与骨、发、耳等有关,并主生殖以及生长
知识经济时代和全球化趋势对高等教育提出了更高要求,我国高等教育跨越式发展促使高等职业教育实现了非常规快速发展,促使高职院校思想政治教育的环境也发生了巨大变化。在此
藏书作为家庭、家族财产的一部分,是祖先留给后人的重要遗产,在宋代这个科举发达的时代对世家大族和中小家庭有着特殊的意义。本文从宋代家庭藏书出发,探讨藏书在科举时代对世家
权力清单制定主体多元的特点决定了权力清单是行政规范性文件。尽管理论上规章制定主体制定的权力清单可以是规章,但是从体现党和政府文件精神、有利于实施监督、实现"治理目
目的通过对257例狼疮性肾炎(Lupus nephritis,LN)患者临床资料和病理资料的回顾性分析,总结LN临床特点,探讨LN临床评分与病理评分的相关性,为LN患者肾脏病理活动性的无创性评