【摘 要】
:
在数据挖掘、生物信息学和文本识别等应用中,高维数据带来了诸多挑战。如何利用特征选择技术从这些复杂的大数据中挖掘出能反映样本信息的关键特征,一直以来都是诸多领域中的关键问题。特征选择旨在筛选出包含重要信息的特征,同时剔除无关或冗余特征,最终获得一个具有最大信息量的特征子集,继而有效降低学习算法的计算成本,并提高数据的可读性和可解释性。本文针对高维数据中重要特征的筛选问题,以互信息和交互信息等信息度量
论文部分内容阅读
在数据挖掘、生物信息学和文本识别等应用中,高维数据带来了诸多挑战。如何利用特征选择技术从这些复杂的大数据中挖掘出能反映样本信息的关键特征,一直以来都是诸多领域中的关键问题。特征选择旨在筛选出包含重要信息的特征,同时剔除无关或冗余特征,最终获得一个具有最大信息量的特征子集,继而有效降低学习算法的计算成本,并提高数据的可读性和可解释性。本文针对高维数据中重要特征的筛选问题,以互信息和交互信息等信息度量标准为基础,围绕如何准确度量特征关系展开研究。最后提出了两种新的基于信息论的特征选择算法。(1)提出了一种基于交互信息的两阶段特征选择算法SAMBFC(Strong Approximation Markov Blankets and Feature Complementarity)。通过对FS-RRC(Feature Selection based on Relevance、Redundancy and Complementarity)算法的分析发现,该算法在冗余性分析时忽略了近似马尔可夫毯的误判问题。此外,在度量冗余特征与已选特征的协同作用时忽略了冗余特征与已选特征集合之间的冗余信息,导致所选冗余互补特征不够准确。为了更准确地度量候选特征的相关性、冗余性以及互补性,防止遗漏重要信息,SAMBFC利用强近似马尔可夫毯理论进行相关-冗余性分析,其次结合基于相关性特征选择算法和对称不确定性构建冗余特征的互补-冗余性分析方法。实验结果表示,SAMBFC算法能准确选出包含重要信息的特征子集。(2)提出了一种基于改进条件权重联合相关性的特征选择算法ICWJR-FS(Feature Selection based on Improved Conditional-Weight Joint Relevance)。通过对CWJR-FS(Feature Selection based on Conditional-Weight Joint Relevance)算法的研究发现,该算法在考虑信息的动态变化时,忽略了候选特征与已选特征间的协同作用。为了准确度量信息的变化,ICWJR-FS引入归一化交互信息作为权重,准确分析候选特征带来的分类信息。实验表明,ICWJR-FS算法可以有效地提高分类器的分类准确率。
其他文献
眼科疾病主要是指人体内的视觉系统内部发生病变,病变区域主要包含眼球及其周边相关部位。青光眼,作为众多眼科疾病中具有代表性的一种,是一种具有不可逆性的致盲性眼底疾病。青光眼患者早期并不会产生一些显著的生理性症状,一旦出现视力下降、视野缺失等症状时,患者的病情已经到了不可逆转的地步。在实际的诊疗中,眼科医生主要通过眼底照相机得到患者的彩色眼底图像,继而进行初步的检查工作。但是在青光眼患者的临床诊断中,
非厄米系统是与外界发生能量交换的开放系统。非厄米系统的参数空间中存在一个特殊点,在这一点处本征值发生重合,且原本保持正交的本征向量也聚合到一起,这个点被称为非厄米系统的奇异点。工作在奇异点(Exceptional Point,EP)附近的系统对扰动产生非线性响应,使基于奇异点的超灵敏传感成为了研究者关注热点。基于共振光隧穿效应的谐振腔具备易于集成和成本低廉的优点,为传感应用的设计提供了新的选择,目
农业机器人的发展是农业现代化进程中不可缺少的一环,农业从业人员的减少、人本成本的上涨以及设施化栽培规模的逐渐扩大,为农业机器人的发展提供了契机和条件。番茄作为最普遍的鲜食蔬菜之一,在我国的栽培规模和食用需求都是极大的,为了保证番茄的品质和产量,在番茄的整个栽培周期中需要不断的进行整枝。在我国,番茄整枝工作主要依靠人工完成,其成本占番茄生产周期中人力成本的40%-60%,因此,研发一款番茄整枝机器人
微表情作为一种独特的面部表情,和一般的表情比较,通常具有如下几个特点:一、动作显现时间特别短暂,一般只有1/25s~1/3s;二、面部情绪动作强度比较低,很难被人们发觉;三、是由人类在无意识状态下产生的;四、对微表情方面的研究通常在视频资料中展开,而对普通面部宏表情的研究在单帧的图片中就可以进行。由于微表情情绪都是由人类在其自身意识没有感知的状态下自发生成的,一般很难被隐藏,能够揭示人类最为真实的
随着深度卷积神经网络的发展,基于深度学习的视频目标检测算法的检测精度和速度都取得了突破性的进展,但其仍面临着诸多挑战。比如逐帧通过大型卷积神经网络提取特征并进行特征聚合,单帧图像检测算法计算资源消耗大,不能满足实时在线的视频目标检测。本文以基于内存增强的全局-局部融合方法(MEGA)为基本的检测框架,提出一种基于特征传播和知识蒸馏的视频目标检测算法,分别从时间维度和单帧图像目标检测维度对MEGA算
目前,语义分割任务主要是通过卷积神经网络提取影像数据中的语义信息,实现图像的像素级分类。随着卷积神经网络的不断发展和完善,基于神经网络的分割模型在语义分割任务中取得较高的准确率,但是这些分割模型在训练过程中通常需要强大的算力支持,无法达到实时分割的效果。现有实时分割算法虽然可以快速对图像进行分割,但在图像边缘部位分割粗糙,无法达到精细分割的效果。为了使分割算法达到精确且快速分割的效果,本文提出了多
猕猴作为人类的近亲,在生理上与人类接近,通过猕猴来探索人脑的工作机制和病理机制是人脑研究的一种重要手段。近年来,跨物种比较神经影像学新技术和方法的研究越来越受到重视,并逐渐成为脑科学研究的热门问题。目前,主要的跨物种比较方法是使用已有同源脑区作为参照系,该方法比较依赖已有同源脑区的信息,而在部分脑区的研究过程中,可能存在先验同源脑区信息缺失的情况。最近的研究表明,在高等灵长类动物中,白质组织在不同
命名实体识别作为自然语言处理领域的一项基础性研究课题,其目标是在句子中辨认并提炼出指定类型的实体词信息。准确的辨别非结构化文本中的实体词可以协助完成诸如智能翻译、自动摘要、情感分析等多项下游任务。材料命名实体识别对机器理解材料领域文献,构建材料知识库起着重要的作用,正确且高效的识别材料实体有助于提高查阅效率并减少重复的科学研究工作。但是目前材料领域命名实体识别还存在着一些不足:(1)目前常用的词嵌
股票价格预测是金融和计算机学科交叉领域的经典问题。由于股票市场内部机制极其复杂,市场波动性极强,准确预测股票价格被认为是最具挑战性的问题之一。深度学习技术在自然语言处理、图像识别等领域的成功应用为解决股票价格预测问题提供了一种新的思路和方法。长短期记忆(LSTM,Long Short-Term Memory)神经网络由于其具有链状、记忆、选择遗忘等的结构,在时间序列预测问题中表现出良好的性能,是目
伴随着工业化进程的快速发展,人们对居住的环境的空气质量提出了更高的要求。气体传感器作为空气质量监测系统的关键原件,其敏感材料的特性对传感器性能有决定性的影响。近年来,新兴的金属有机框架(Metal Organic Frameworks,MOFs)材料为开发高效的气体传感器提供了崭新思路。与传统金属氧化物材料相比,MOFs材料由于具有更大的孔隙率和比表面积,尤其是可调节的孔径以及可变的功能基团,为气