基于滑动窗口的XML数据流的聚类算法研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:caoenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML是一种用于数据交换和共享的自描述语言,已经成为互联网上数据表示和数据交换的标准。在数据传输及交换过程中,许多结构化或半结构化数据都以XML格式来表示,由此产生了大量的XML数据。该数据是一种按时间顺序无限到达的实时数据,我们称之为XML数据流。   对XML数据流进行知识挖掘,是一个重要的研究课题,同时也面临着很多挑战。为了从XML数据流中发掘出有用的知识,众多研究者主要集中于XML数据的聚类挖掘,并提出了大量的XML聚类算法。但现有的XML数据聚类算法主要用于静态数据集的处理,一般需要多次反复的文档读取和解析,并没有考虑随时间变化的在线聚类研究。   本文针对上述问题,提出了一种基于滑动窗口的XML数据流聚类算法。   首先,以时间聚类特征为基础,采用层次结构的方法,来表示XML文档的概要数据结构。这种表示方法较好的完成了对XML文档结构信息的提取和文档间相似度的计算。   其次,采用滑动窗口模型,以XML聚类特征指数直方图为该窗口中的一个微簇,来动态的接纳“新”的数据,淘汰“旧”的数据,从而较好的保存当前窗口内的数据流分布特征。   最后,在XML真实和模拟数据集上的实验结果表明:本文提出的算法不仅可以达到实时在线聚类的要求,而且可以获得较高的聚类质量和较快的处理速度。
其他文献
物联网随信息技术进步发展迅速,融入社会各方面,悄然改变着人们的日常生活。IEEE 802.15.4标准出现、6LoWPAN工作组的成立,使无线嵌入式网络成为可能,促进了物联网的发展。WS
粗糙集理论是波兰数学家Z. Pawlak提出的一种可用于处理不精确性、模糊性和不确定性的有效的数学工具。其特点是在无先验知识或者附加信息的情况下处理数据。粗糙集在数据挖
随着计算机技术的发展,特别是网络技术的迅猛发展,电子商务、ERP、VPN、虚拟化等这些曾经的IT“新宠”20年间曾经不断地为企业信息化注入生机与活力。但是正是由于企业信息化
随着网络和多媒体技术的发展,视觉通信的需求急剧增加,数字视频技术在通信和广播领域获得了日益广泛的应用。视频信息和多媒体信息在Internet和移动网络中的处理和传输技术成
随着三维扫描和建模技术的发展,三维网格成为继声音、图像、视频之后的一种新型多媒体数据。由于三维网格数据规模和复杂程度的急剧增长,给三维网格的存储、处理、网络传输以及
学位
手语是听力障碍者在日常生活、工作中与人交流、表达意图的主要手段,然而当今社会中信息传播的主要方式都是建立在自然语言之上,对听力障碍者接受信息、融入社会主体造成极大的
学位
Web服务是近年来蓬勃兴起的一种分布式计算模型,能够实现在不同平台、不同程序设计语言编写的应用程序或应用程序组件之间无缝的互操作。随着Web服务标准的完善和支持Web服务
随着计算机多媒体技术的迅猛发展,人们可以方便地利用数字设备制作、处理和存储图像、语音、文本和视频等数字信息;与此同时,网络通信的飞速发展使得信息的发布和传输实现了数
TTCN-3测试语言作为国际上唯一的测试标准语言,广泛应用于协议一致性测试,互操作性测试等测试领域。使用TTCN-3进行测试需要解决的一个重要问题就是测试适配器和编解码器的开发
近年来,随着社会经济和汽车工业的飞速发展,道路上的交通问题得到前所未有的关注。车辆自组网(Vehicular Ad Hoc Network, VANET),作为未来智能交通系统的基础之一,通过车与