多变量时间序列分类中的降维和相似性度量研究

来源 :武汉大学 | 被引量 : 2次 | 上传用户:tiger20091
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多变量时间序列是一种现实世界中普遍存在且具有重要意义的数据类型,用多变量时间序列对事物进行描述,可以更加全面完整地反映事物自身特性,对这些序列进行研究分析,对人们深入认识事物并发现其内在规律提供了可靠的途径。目前,多变量时间序列及其数据挖掘已经受到了多方越来越多的关注。然而,多变量时间序列由于其自身的时间特性、高维特性及变量之间的相关性给挖掘带来了困难。当输入变量的维数增加到一定程度时,会导致模型的预测精度大幅降低,从而产生“维数灾难”。数据本身存在着无关和冗余变量的影响,如果不加处理地对所有变量直接计算,计算效率将会非常低下,更严重地还会对模型的预测效果造成负面影响。数据挖掘任务离不开样本之间的相似度计算,相似性度量方法的选择直接影响到挖掘任务的准确性和可行性。已有多变量时间序列的相似性度量方法的解决问题能力已经越来越难以满足人们的要求,而针对改进方法的研究还相对较少。因此,本文围绕多变量时间序列分类中的降维和相似性度量问题展开:1、对现有的针对多变量时间序列的分类问题进行了梳理总结,尤其是对其中的关键环节——数据预处理和降维、相似性度量方法——进行了详细分析,指出其中的不足,从而产生本论文的研究方向。2、针对多变量时间序列的降维问题,根据训练数据中类内类间散度,提出了一种衡量每个变量对类可分离性所做贡献的标准,从而根据此标准对变量进行排序;再根据输入变量之间互信息值的大小将冗余变量剔除,最终选择出分类性能最佳的变量子集。该方法可以选择出对分类贡献最大的那些“核心变量”,并且剔除掉冗余变量,实现多变量时间序列变量维度的降低,提高分类的效率和性能。3、针对多变量时间序列的相似性度量问题,本文改进了已有的shapelet方法,基于shapelet非相似的特性,提出了一种快速查找多个shapelets的方法。根据子序列间距离整体分布设置一个距离阈值,以此过滤掉候选集中的相似子序列。再使用类可分离性作为过滤后的候选子序列的评价标准,最终选择出性能最好的多个shapelets。通过在单变量时间序列数据集上的实验表明了本方法可以极大缩短查找shapelets时间,而且能保持较高的分类准确性。又将该方法扩展到多变量时间序列,对多个变量采用组合分类器的方法来提高整体分类的准确率。
其他文献
少先队作为我国培养未来共产主义接班人的摇篮,是培育和宣传社会主义核心价值观的前沿阵地,而少先队辅导员在其中起着必不可少的作用。由于少先队辅导员工作的特殊性及缺乏外
目的分析慢性阻塞性肺疾病(COPD)继发肺部真菌感染的临床特征及发病相关因素,为临床诊断治疗提供参考依据。方法选取2010年6月-2016年6月医院接诊的2010例COPD患者为研究对象,回
目的探讨TSRH椎弓根钉系统治疗腰椎滑脱的效果.方法对24例腰椎滑脱患者TSRH椎弓根钉系统内固定术及术后随访分析.结果对24例获平均21.8个月的随访,临床评估植骨融合率94.8%.
目的探讨HCG试纸在诊断胎膜早破中的临床应用价值.方法采用北京万华普曼生物工程有限公司生产的HCG试纸对120例妊娠中、晚期有少量阴道流水的患者进行测定.结果 112例患者明
目的探讨MCV对不同原理血液分析仪计数血小板结果的影响.方法用电阻抗一浮动界标法、电阻抗一拟合曲线法、电阻抗一鞘流技术法、二维激光散射法4种方法计数血小板(MCV≥80fl
三仁汤,出自清·吴瑭《温病条辨》。由杏仁、白蔻仁、薏苡仁、厚朴、半夏、滑石、竹叶、通草组成。是治疗湿病邪遏卫气的名方。具有宣上、畅中,渗下之功。几年来,笔者应用此
行人检测技术是图像处理、模式识别等多学科交叉的研究课题。随着科技的不断进步,行人检测技术越来越受到人们的关注。它在智能交通、自动化控制、人机交互等领域有着广泛的