基于信息差异性分析的特征选择算法研究

来源 :湖南大学 | 被引量 : 1次 | 上传用户:LUEYONGS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着获取信息技术的飞速发展,信息数据以前所未有的速度增长和积累,信息社会进入“大数据”时代。这些数据往往呈现出样本多、维度高的特点,对机器学习和数据挖掘带来了巨大的挑战。高维数据集中往往存在大量冗余的、无关的甚至是噪声的信息,这些信息可能对机器学习算法的建模造成困扰,如增加计算成本、降低学习模型的泛化性能和准确率等。特征选择技术通过剔除原始高维数据集中的噪声、无关和冗余特征,实现对数据集的预处理,良好的特征选择结果可以高效地生成精度更高的机器学习模型,因此,针对高维数据特征选择方法的研究具有重要的研究价值和应用意义。本文从信息差异性分析的角度出发,在聚类特征选择、启发式特征选择、深度特征选择和集成特征选择方面开展了一系列研究工作。信息差异性可以很好地度量变量之间的分布差异,研究工作采用信息距离度量及其变换和信息交叉熵等信息差异性分析指标作为评价判据,研究和设计新的特征选择准则和方法,实验证明在分类建模中应用所提出的特征选择算法,获得了良好的分类预测准确率。本文研究工作的主要内容和贡献包括以下几个方面:(1)针对聚类特征选择算法中特征差异表达不足的问题,利用信息距离作为差异性分析指标,提出了一种基于密度峰值聚类的特征选择方法DPCID(Density Peaks Clustering based Feature Selection using Information Distance)。该方法首先构建了基于信息距离的最大相关最大差异特征选择准则,然后利用密度峰值聚类算法实现了该准则的优化求解,并针对噪声特征可能聚为一个或多个簇类导致噪声特征被选为代表特征这一问题,引入噪声特征剔除处理,使得特征聚类在相关特征集上进行,同时实现了不同簇类特征之间的信息差异最大化。在高维的基因表达谱和文本分类问题数据集上对该算法进行实验验证,通过与经典的Filter特征选择方法和聚类特征选择方法在不同分类器上进行分类性能比较,实验结果表明提出的算法取得了更优的性能。(2)针对基于信息相关性的特征选择方法过于倾向选择熵值较大的特征而导致的分类器过拟合问题,在选择熵值较大的特征时引入自冗余因子进行适当的惩罚,提出了一种基于信息距离度量的启发式特征选择方法MFFID(Maximizing the Feature-Feature Information Distance)。该方法的特征选择准则是信息距离度量的表达形式,基于该表达形式生成新的前向增量特征选择算法。MFFID方法有效利用了特征之间的差异性来实现了对高熵特征的适当惩罚。在不同的特征选择数目和不同的分类器条件下比较了提出的算法和经典的启发式特征选择算法,在12个基因表达谱上的实验结果证明了MFFID方法的优越性。(3)深度学习模型在建模小样本数据集时,往往存在训练精度高而测试精度低的过拟合问题。基于特征的信息交叉熵越小,贝叶斯分类错误率越小这一思想,提出一种基于交叉熵的高层降噪自动编码特征选择方法HDAECE(Feature selection algorithm for High-level Denoising Automatic Encoder based on Cross-Entropy)以简化自动编码网络结构,构建出泛化能力强的分类模型。从不同参数条件下对提出的算法进行了实验分析,与经典特征选择算法和深度神经网络进行了比较,实验结果证明高层特征的选择可以构建出分类性能更好的分类模型。(4)集成特征选择本质上是分类器集成和特征选择的融合,大多数集成特征选择方法由于没有合适的度量特征子集差异性的方法,对特征子集采用随机划分的策略,所选特征子集之间的差异性得不到保证,从而导致集成方法的性能不稳定。针对这一问题,提出了基于特征子集信息距离度量的集成特征选择的表达模型,设计了最小信息距离和SMID(Sum of Minimal Information Distance)这一特征子集之间信息差异性的度量标准,并在理论上证明了SMID指标是特征子集信息距离度量的上界。将SMID作为计算困难的特征子集信息距离度量的替代,设计出一种新的集成特征选择框架。实验中这一框架结合mRMR、CMIM和JMI算法生成具体的集成特征选择算法,在不同参数条件下的实验、与经典集成分类方法以及经典特征选择方法的比较实验验证了提出的集成特征选择框架的有效性和优越性。
其他文献
家畜链霉素中毒,在兽医临床较为少见,笔者在多年兽医临诊工作中仅见12例,除2例因延误治疗时间而死亡外,其余全部治愈,现将诊治情况报道如下.
中兽医学对畜禽传染病的认识与防治伊福生(湖北省丹江口市科委441900)中兽医学历史悠久,内容丰富,它对我国畜禽疾病防治和农牧业生产的发展做出了重要贡献。为继承和弘扬祖国兽医学,进一
在阅读教学中培养学生的自主学习能力应该从四个方面入手:激发学生学习动机,培养自主学习的兴趣;重视预习环节,强化训练指导;引导质疑答难,创设自主学习氛围;教给学生自主学
为了提高检验速度,降低检验成本,特对现有乳糖试剂盒法进行开发,以满足生产、检验的需求。低乳糖牛奶由于乳糖质量分数比较低,用现有的国标滴定法无法进行检测,而色谱法需配备液相
英汉语属于不同的语种,不同的语系。翻译时,若过于强调忠实原文的形式,望文生义,就会造成误译。为此,须调整原文的表达形式,认真钻研原作,注意语言表达下的深层含义,勘查词典。
学校是师生共同学习生活的天地,课堂是师生教学演练的场所,讲台是教师传播知识的重要阵地.独守阵地常常被众多教师认为理所当然.在中国传统的课堂教学中,教师一统天下,学生很
采用微波消解前处理,电感耦合等离子体质谱法测定部分婴幼儿奶粉中磷的质量浓度。实验表明,采用在线内标和碰撞反应池模式,磷的线性范围在0-30mg/L,得到的线性方程相关系数为O.9999
课堂教学是素质教育的主渠道.语文教学是一门艺术,应从教学语言、课堂结构、教学环节、教学角度、教学方法以及教学手段诸方面去把握,使语文课堂教学魅力不衰.