【摘 要】
:
序列数据广泛存在于医学、经济学等学科中,对其的数据挖掘在医疗诊断、金融数据分析等领域已有较为成功应用。序列数据是典型的海量、高维数据,如何对海量的序列数据进行高效
论文部分内容阅读
序列数据广泛存在于医学、经济学等学科中,对其的数据挖掘在医疗诊断、金融数据分析等领域已有较为成功应用。序列数据是典型的海量、高维数据,如何对海量的序列数据进行高效的分析,对于揭示事物发展规律、为科学决策提供依据具有重要的意义。本文针对序列数据挖掘中的两项核心技术:序列相似度量及相似搜索技术进行了研究。本文的具体工作和贡献包括:(1)基于自适应搜索窗口的序列相似比对算法本文提出基于自适应搜索窗口的序列相似比对算法(Adaptive Searching WindowDTW,ADTW),算法利用分段聚集平均(Piecewise Aggregate Approximation,PAA)策略进行序列抽样,得到低精度序列,然后计算低精度序列下的比对路径,并根据低精度距离矩阵上的梯度变化预测路径偏差,限制路径搜索窗口的拓展范围;随后依次提高序列精度,并在搜索窗口内修正路径、计算新的搜索窗口,最终,实现DTW距离和相似比对路径的快速求解。对比FastDTW,ADTW算法在同等度量准确率下计算效率提升约20%,其时间复杂度为O(n)。(2)基于多级下界过滤的时序相似搜索算法针对时序数据相似搜索效率较低的问题,本文提出基于多级下界过滤的相似搜索算法(Multi_LB),算法挑选多个下界距离函数组成多级过滤器,对候选集中的无效序列进行分级过滤,同时根据实时过滤成功率对下界函数的过滤顺序进行动态调整,从而保持较高的过滤效率。Multi_LB避免了对部分差异明显的无效序列进行耗时的下界度量,并降低了过滤失败产生的额外计算开销。实验表明,相较基于单一下界过滤的搜索算法,本文算法在保证搜索完备性的同时,搜索效率提升15%左右。
其他文献
随着科学技术的快速发展,“互联网+”已然成为现今社会的主流方向,促进社会发展迈向信息化的时代。加强对5G通信中数据传输有研究,提高其传输的整体可靠性,对5G技术的全面推
20-羟二十烷四烯酸(20-hydroxyeicosatetraenoic acid,20-HETE)是细胞色素P450(Cytochrome P450,CYP450)ω-羟化酶催化花生四烯酸(arachidonic acid,AA)代谢所生成的产物。本实验室
在阅读文章时,只要抓住一定的线索,运用一些技巧就可以“顺藤摸瓜”地猜出词意。本文介绍了在英语阅读中较为常见的几种猜词技巧,帮助读者排除阅读中的词汇障碍,解除生词所带
结合近几年云南省农村公路建设项目的造价管理经验和调研中发现的问题,从项目前期准备阶段、设计阶段、招投标阶段、施工阶段和竣工验收阶段探讨分析农村公路建设如何开展全
花山文化是壮族文化的重要组成部分。它生动真切地记录了壮族先民跋涉求索的人生历程,彰显了欧骆人雄强的生命力,融注了他们对青蛙特有的深情,并视之为民族图腾。
以缩苯甲醛化及半碳化处理后的高强聚乙烯醇纤维为原料,利用它与巯基乙酸的酯化反应将-SH基团引入合成纤维骨架,制成一种新型的功能纤维--巯基聚乙烯醇螯合纤维.文中研究了这
<正> 全球化、信息化是未来城市经济发展的总趋势,实现城市信息化是一个城市融入全球化浪潮的必要条件。广泛开发各类城市资源并实现资源共享,加强和推进城市信息化建设,将成
2-脱氧糖是很多具有生物活性的临床药物和天然产物的重要组成部分,也是它们发挥生物活性所必需的结构单元。然而,天然产物中2-脱氧糖类化合物的含量很低,并且存在形式较为复
<正>《中导条约》全称为《美利坚合众国与苏维埃社会主义共和国联盟关于消除其中程和短程导弹的条约》(INFTreaty),是美国和苏联于1987年签署的军控条约。该条约明确规定缔约
随着计算机技术的飞速发展,人工智能及大数据技术已经逐渐渗透到社会的各个领域。在线教育是近些年兴起的一种新的教育模式,目前较为流行的在线教育平台有网易云课堂、MOOC等。此类在线教育平台以视频课程教学为核心,不具备计算机类课程在线实验的功能。本文就是在这一背景下,为想学习计算机课程的学生量身打造了一套基于云的在线学习平台学生子系统。本文首先基于软件工程方法对系统进行了充分的需求分析,接下来根据用户对