一种基于相似性的时间序列聚类方法

来源 :第二十届全国数据库学术会议 | 被引量 : 0次 | 上传用户:shijipan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对时间序列的聚类方法进行了研究,提出了基于序列模糊相似性距离的聚类方法.在决定簇的融合时,使用簇之间的相对距离以消除序列的分布特征对聚类结果的影响,在聚类的开始阶段,使用随机选取的点形成初始化簇,减少了层次聚类初始簇的数目,提高了聚类效率.
其他文献
决策规则的挖掘是数据挖掘的内容之一,现行的算法主要是用决策树或粗糙集进行挖掘,但是它们的计算复杂度非常高.本文基于粗糙集中的不可分辨的思想,设计了一种算法,通过逐渐判断属性值的重要性来选择属性值构造决策树的分支,最后用规则拟合的思想对在决策树上得到的规则进行整理,得到最终的决策规则.该算法与ID3算法在结果上是等价的,但是其计算复杂度低,适合于大型数据库的挖掘.
Apriori算法是关联规则挖掘最有影响的算法之一,本文提出的该算法关键在于结合领域知识,即商业领域用户关注的焦点利润,经过频集产生过程中的多次剪枝,产生那些满足用户利润要求的规则,不仅能挖掘出满足指定支持度阈值的关联模式,而且能挖掘出置信度很高的稀有数据的关联模式,即就是支持度低于支持度阈值但项集利润高的那部分规则.该算法可并行运行,因而也适于大型数据库的处理.
本文提出了一种动、静态信息区分设计的方法:首先将业务规则分析、归类,并将所获得的数据信息区分为静态信息和动态信息;围绕动、静态信息采用不同的建模方式,最终形成了具有较高业务表达能力的数据库概念模型.本文的动、静态信息区分设计为数据的抽象提供了一种可行的方法.
为了实现数据资源命名的透明性,网格需要有效管理数量繁多的名字和属性以及它们之间的关系;为了实现定位的透明性,网格需要有效管理数据集的定位信息;为了实现协议的透明性,网格需要有效管理数据资源的有关信息.本文对基于全局命名的数据网格环境下元数据的目录管理进行了分析与研究.
本文特别针对实际中处理的数据的误差,即"数据中的噪声",提出了两种新的约简概念,即ε-分布协调集和ε-误差分布协调集并讨论它们的性质、判定定理和约简的求法,并将它们加入到已有的经典无噪声的约简方法中,在文章最后给出了它们的关系图.
本文主要工作是对Velocity Density Estimation算法进行分析,针对其中的一些需要改进的问题,提出相应的解决方法,包括采用滑动窗口模型的计数方式,对数据流中的变化区域进行动态跟踪检测等.算法的有效性通过实验进行了验证.
本文介绍了如何使用支持向量机方法进行蛋白质功能分类研究,其关键问题是特征提取,除生物学常用的物理化学属性之外,还可以结合信息处理中的技术进行研究,实验结果表明支持向量机方法在生物数据分类问题上是一种有效的工具.更好的分类效果还可以通过加强特征提取,研究更好的核函数,使用更合理的训练数据等方式获得.
本文提出的GAM属性融合算法解决了传统符号分类算法的不足,提高了分类的精度;设计保留最优基因的策略提高GAM算法的收敛速度;提出的SubsmallAttSet算法弥补了GAM和IGAM需要预先指定属性个数的缺点.
基于构件设计工作流的方法已经引起了极大的关注,基于构件的工作流的动态修改是目前急待解决的一个问题,本文提出了一种基于构件的修改方法以对工作流的逻辑和语义进行动态修改.本文第2节讨论了本体扩展的工作流,第3节提出了基于构件的工作流动态修改方法.
本文提出了模式索引树,以及在此基础上的增量挖掘.模式索引树可以保存多个不同长度项集的支持度,与同类研究——哈希树相比,极大提升了项集的空间共享程度和索引树的简洁程度.基于模式索引树的增量挖掘,只需建一棵索引树,只需一趟原数据库扫描,大大减少了对原数据库的扫描次数,提高了在原数据库上进行模式匹配的效率.