面向数据流的在线无监督特征选择算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:dxcnet2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模、高维度数据的无监督特征选择,一直是机器学习领域的研究热点,其中,面向动态、高速数据流的在线无监督特征选择算法的研究,更是在诸如在线异常诊断、媒体数据分析和智能视频监测等应用方面具有迫切需求。真实的应用数据普遍存在维度高、流速快、类型复杂等特点,这给面向数据流的在线无监督特征选择提出了新的挑战:第一,高维数据往往分布为不规则的非线性流形结构,存在潜在结构挖掘困难的问题;第二,新样例实时到达,存在关联特性不稳定的问题;第三,真实的应用数据往往以混合型数据流的形式存在,同时包含数值型和类别型特征,存在混合型数据实时度量、混合型数据流上关联特性挖掘的问题。针对这些问题,本文首先研究面向静态数据集的无监督特征选择算法;然后对面向数值型数据流和混合型数据流的在线无监督特征选择算法,分别展开进一步的研究,主要的研究进展如下:高维数据往往分布成不规则的非线性结构,而数据样例间的距离在高维空间中近似相等,失去定性意义。现有的无监督特征选择算法,大多利用样例间的精确距离来挖掘数据潜在结构,容易造成有效信息过量丢失或无效信息过量保留,影响特征选择的准确性。为此,本文提出了一种基于局部全序关系保留的无监督特征选择算法UFSLTP(Unsupervised Feature Selection via Local Total-order Preservation)。该算法利用全序关系的概念,表示数据集上的一组三元关系:对于某给定的数据样例,其距离一个数据样例比距离另一个数据样例更近。在此基础上,我们在原始特征空间中挖掘局部全序关系,评估各特征维持局部全序关系的能力,求解特征权重,并筛选权重较高的特征形成新的低维空间。实验结果表明,相较于现有的无监督特征选择算法,UFSLTP能够选择具有更高质量的特征子集,其对应的聚类性能指标NMI(Normalized Mutual Information)平均提升了15.32%。动态数据流上的关联特性可以归纳为三层关联模型,即个体层次、聚合层次及流层次上的关联关系。现有的在线无监督特征选择方法只考虑了其中的一部分,导致关联特性挖掘的实时性、准确性较差,选择的特征子集不理想。为此,本文面向数值型数据流提出了基于多簇图结构保留的特征选择算法FSMCP(Feature Selection via Multi-Cluster graph structure Preservation)。该算法基于全序关系的概念,构造了适用于数值型数据流的多簇图结构,这种结构集成了数据流上的三层关联模型。个体层次上的点-点全序关系描述了新到数据样例之间的关联关系;聚合层次上的全局簇-簇全序关系和局部簇-簇全序关系(“簇”是对数据流上已到达数据样例的一种数据摘要),描述了已到达数据样例之间的关联关系;流层次上的点-簇全序关系描述了新到数据样例与已到达数据样例之间的关系。在每个时刻,FSMCP通过评估各特征维持多簇图结构的能力来求解特征权重,筛选特征子集并形成新的低维空间。实验结果表明,FSMCP比离线特征选择算法具有更高的效率,且提供近似同等甚至更高质量的特征子集;相较于在线特征选择算法,FSMCP能获得具有更高质量的特征子集,其对应的聚类性能指标NMI平均提升26.41%。真实的应用数据往往以混合型数据流的形式存在,同时包含数值型和类别型特征。目前还没有针对混合型数据流的在线无监督特征选择算法,为此,本文面向混合型数据流提出了一种基于混合距离的特征选择算法FSHD(Feature Selection based on the Heterogeneous Distance)。该算法采用混合欧式重叠度量模型HEOM(Heterogeneous Euclidean Overlap Metric)来实现混合型数据的度量。HEOM是一种混合距离度量方法,对数值型和类别型特征分别采用不同的距离进行度量,并整合所有特征的度量结果来表示总距离。FSHD将HEOM模型融入到多簇图结构的构造中,形成基于HEOM的多簇图结构。在每个时刻,FSHD评估各特征维持该结构的能力,求解特征权重,并筛选特征子集形成新的低维空间。实验结果表明,FSHD拥有较高的实时性和对混合型数据流的适应性,能够及时获得质量稳定的特征子集。相较于处理数值型数据流的在线无监督特征选择算法,FSHD能够获得更高质量的特征子集,其对应的聚类性能NMI平均提升85.89%;相较于处理混合型数据集的离线无监督特征选择算法,FSHD对应的聚类性能NMI平均提升36.52%。
其他文献
实景三维建模在城市建设、高精度地图、地理勘测等领域都具有十分重要的作用。因此,关于基于图像的高精度三维建模方面的研究也逐渐成为关注的热点,大量方法涌现出来。其中增量式三维重建因其较好的鲁棒性和较高的建模精度被广泛应用在学术研究与工程实现领域。其中,传统增量式重建中的初始图像对选取方法在相似图像搜索、相对位置关系计算的过程均依赖SIFT、SURF等特征点提取的效率和准确度,并且要进行两两图像间的特征
翼伞系统可用于精确空投和大型航天器的回收,应用前景广阔,是空投和回收领域研究的热点。而翼伞系统的航迹规划与控制作为无人翼伞系统自主寻的的核心,始终受到研究者的高度关注。翼伞的航迹规划与控制方面的研究,大多数假设无风环境或者设置恒定风环境,没有考虑到在执行实际任务当中风场的变化性。在此背景下,本文首先利用地形数据设置复杂风场仿真模型,并以该模型为飞行环境,对翼伞系统风场辨识、分段航迹规划以及轨迹跟踪
航天器电磁操控是一种新的在轨服务技术,通过在航天器上安装三个正交的超导线圈产生任意方向的电磁力控制航天器间的相对运动。与传统惯性推力相比,星间电磁力具有无推进剂消耗、连续、可逆、无羽流污染等优点,在对地观测、空间探测等领域有广阔的应用前景。然而,任意两个通电线圈间都会产生电磁力,这使得多航天器电磁操控动力学分析变得异常复杂,针对这一问题,论文设计了电流频率/相位调制方法达到简化目的,基于此,还研究
X射线自由电子激光、红外激光系统作为重要的战略资源,其发展建设对国防具有重要意义。随着应用领域的拓宽和用户需求的提升,对激光系统光束线传输质量、稳定性等指标提出了更高的要求。研究表明,X射线自由电子激光、红外激光系统使役性能与反射镜材料、表面精度、表面质量等有密不可分的联系。单晶硅凭借其优良的理化特性,被广泛用作反射镜基底材料。目前,单晶硅反射镜主要以超精密磨削结合磁流变抛光、离子束修形等组合工艺
随着现代科技成果的引入和大气科学自身的快速发展,天气预报已经从传统的建立在天气学原理、数理统计与预报员经验基础上的定性预报方法,发展以大气探测和大气科学理论为基础、综合运用科学技术新成就、在高性能计算机上实施的现代数值天气预报体系。数值天气预报水平的高低,已经成为衡量一个国家气象业务保障能力的重要标志。准确的数值天气预报必须以高质量初始场为基础。生成初始场数据的资料同化是数值预报的核心关键技术之一
自动问答系统要求机器在阅读由自然语言表述的问题之后给出问题的答案,可以用于衡量机器的智能程度。因此,对于自动问答系统的研究不管是在学术界还是工业界都受到了极大的关注。由于问答系统的知识源包含大量的文档,而这些文档由许多段落组成,因此段落排序技术是问答系统中重要的信息筛选工具,也是自动问答领域的关键性技术。近年来,随着深度学习方法的不断发展以及问答系统与机器阅读理解领域大规模基准数据集的发布,问答系
近年来,随着社会和经济的发展,土地等自然资源的利用价值充分体现出来。由此,一些时间久远、权属不清、界线不明的土地行政争议纠纷逐渐增多,此类案件从实体处理上论证被诉行政行为是否合法难度较大,行政诉讼程序"空转"问题突出。检察机关在办理此类行政生效裁判监督案件中,程序方面应严格按照法律规定认定诉讼主体资格及起诉期限问题;实体方面应坚持依法精准监督、运用多种方式推动实质性化解行政争议。
期刊
事件抽取是信息抽取领域内的一项富有挑战性的任务,其目的是从自然语言文本中抽取结构化形式的事件信息。从上世纪末开始,研究者们针对事件抽取任务提出了很多方法和模型,并在当时取得了很好的效果。尽管如此,事件抽取任务的准确率仍然存在很大的提升空间。另一方面,面对事件抽取模型愈发复杂的现状和处理大规模文本的需求,工业界希望能够进一步提升事件抽取的效率。本文面向大规模英文文本事件抽取的关键技术进行了深入研究,
生物种群中存在着令人震撼的运动场景,如欧洲椋鸟的“空中芭蕾”、海洋鱼群的聚集洄游等.科学家们从理论建模角度来理解和解释生物群集行为,积累了丰富的研究成果并已广泛应用于无人机编队以及无人机集群作战等群体智能系统中.在实践过程中,一些现实问题值得思考,比如,群体内部避碰、时间延迟的影响以及具有领导群体的一致性问题等.本文围绕上述问题开展如下几个工作:1.针对多粒子群行为演化过程中免碰撞集群问题,研究了
近年来,越来越多的机器人问题开始探索基于深度学习的解决途径。然而,深度神经网络能力的提升往往伴随着模型规模和复杂度的增加,需要在运行时消耗大量资源。而作为一类特殊的计算设备,机器人由于物理设计约束,其上资源往往是受限的。二者之间的矛盾已经成为制约机器人自主性和智能化水平提升的瓶颈问题。在分布式领域,这一问题的一种可行解决方案是采用自组织云(Ad Hoc Cloud),即由多个机器人以自组织和对等的