【摘 要】
:
序列是一种常见的数据类型,是由一系列元素构成的一个有序线性表。很多实际应用的核心算法问题均是序列数据分析问题,比如:血压监控、网络购物链接点击预测等等。在序列数据分析领域中存在有许多不同的研究方向,例如分类、聚类和模式发现等等,本文主要关注序列数据中的判别模式挖掘和分类两个问题。现有的判别序列模式挖掘算法以及序列分类算法,都缺乏对于结果的质量控制,造成挖掘模式集合假阳性结果较多或者分类准确率不高。
论文部分内容阅读
序列是一种常见的数据类型,是由一系列元素构成的一个有序线性表。很多实际应用的核心算法问题均是序列数据分析问题,比如:血压监控、网络购物链接点击预测等等。在序列数据分析领域中存在有许多不同的研究方向,例如分类、聚类和模式发现等等,本文主要关注序列数据中的判别模式挖掘和分类两个问题。现有的判别序列模式挖掘算法以及序列分类算法,都缺乏对于结果的质量控制,造成挖掘模式集合假阳性结果较多或者分类准确率不高。当判别序列模式集合中包含有过多的假阳性模式时,会降低模式的可用性。而对于分类器来说,会直接影响分类准确率,影响分类性能。针对于判别序列挖掘问题,本文首先提出了一个新的数据挖掘问题:统计显著判别序列模式挖掘,并针对该问题提出了相应的算法:DSPM-MTC算法。DSPM-MTC算法利用Bonferroni校正法和BH方法分别对FWER和FDR进行控制,从而提供稳定且高质量的结果集合。实验结果表明,DSPM-MTC算法可以过滤掉大量的假阳性判别序列模式,能够提供稳定且高质量的结果集合。对于序列分类问题,本文提出了一个新的序列分类算法:MTC-Sclassifier算法。该算法将序列分类问题归纳为一个假设检验问题,并通过p-value来量化序列分类结果的统计显著性,并能有效的控制分类结果的错误率。MTC-Sclassifier算法使用两样本检验测试待分类样本属于正反例集的可能性,同时结合k-NN算法减少了无关训练序列以及异常训练序列的影响,并利用FDR控制了错误分类的样本个数,还可以鉴别离群数据。实验表明,MTC-Sclassifier算法的分类准确率良好,并能通过控制FDR有效的控制错误分类的样本数量,同时可以很好地鉴别离群点。
其他文献
在"一带一路"国家政策的指引下,中国与世界各国联系日趋紧密,有助于"一带一路"周边国家民众认识和了解中国,尤其是中国共产党领导下的新时期中国。以红色经典电影名的外宣异
随着时代的发展我国园林事业呈现出良好的发展趋势,地域特征在风景园林建设中作为一个重要的因素,对园林建设后期工作起到一定影响。本文将对地域特点下的风景园林规划展开分
唐德宗时期,果州女道士谢自然飞升事件引起朝野轰动。首先,当时和后世对谢自然史实和传说的记述呈现出两个不同的文献脉络,对二者的对照分析体现了历史真实和传说虚构之间的
固井水泥环质量对套管的强度影响很大。建立了水泥环缺少1/12的井筒平面应变有限元模型,通过对固井水泥环缺陷引起的套管应力变化进行仿真模拟分析,得出无内压下套管的最大径向
采用电聚合方法将茜素红非共价修饰到碳纳米管上,制备了聚茜素红/碳纳米管修饰电极。以多巴胺(DA)和抗坏血酸(AA)为模型化合物,研究该修饰电极的电催化作用。结果表明:电聚合法使
自2012年《中华人民共和国行政强制法》实施以来,行政强制为行政相对人权益的保护提供了法律保障。然而,有关的行政强制救济制度在立法和实践中均存在着诸多问题,如行政强制
在城市的交通系统中,公共交通系统毫无疑问是其中的重要组成部分,欲缓解日益严重的城市交通拥堵现象,改善乘客的用户体验,公交系统智能化是一种有效解决途径。设计了一种基于
“治神”,是指在针刺治疗过程中,通过调整病人的心理状态,集中医者的精神,使针下易于得神取气的一种方法。体现在与察神、定神、调气、修身、针刺手法、守神及针后摄调关系7个方面
目的分析1992~2006年郴州市乙肝流行特征,为预防和控制乙肝提供科学依据。方法收集整理郴州市1992~2006年乙肝疫情资料,并对其进行描述性研究分析。结果郴州市1992—2006年乙肝年
《野草在歌唱》是诺贝尔文学奖获得者英国作家多丽丝.莱辛的代表作之一,本文运用传记研究方法,从作家所处的时代背景、地理环境以及人生经历、创作意图,充分展现南部非洲殖民