基于学习的数据流TOP-N查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:z178933143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对数据流的研究,我们知道数据流具有实时性、持续性、广泛性、语义不定性等特性。本文首先总结了传统技术的优劣,如:直方图方法、抽样方法、哈希方法、小波方法等。在此基础上并根据数据流的特性,本文提出了使用基于时间滑动窗口模型的方法改构建概要数据库的方法,该方法很好的克服了传统技术在处理数据流问题上的局限,从而为使用基于学习的TOP-N查询解决数据流问题提供了可能。然后,本文分析了传统的TOP-N选择查询的优劣,并在此基础上提出了基于学习的TOP-N查询的方法。该方法首先需要建立一个知识库,用来存储查询简档。在知识库建立完成之后,直接对知识库进行检索即可。检索知识库时,需要首先计算出区域分布密度ρ,然后根据区域分布密度ρ计算出查询半径r,从而可以近似地得到符合要求的N个查询结果。当有一批新近的数据到达时,还需要运用某种策略,分别对概要数据库和知识库进行更新、维护。
其他文献
随着信息时代的到来,社会对数据处理的需求越来越复杂,越来越多样化。传统的关系型数据及关系型数据库已经渐渐不能够满足现代数据,尤其是结构化半结构化数据的数据描述需求与数
贝叶斯网络检索模型是信息检索中概率模型中的一种。合理使用术语关系扩展该检索模型可以有效地提高检索性能。本体是共享的概念模型的形式化的规范说明,具有概念层次结构和
随着信息化技术的迅速发展,数字出版已经显示出它特有的优势。但数字作品可以几乎零成本复制和传播也带来了版权很难得到保护等问题。于是数字版权管理(Digital Rights Manage
本文基于微软.NET平台开发了一个远程网络考试系统。该系统可以应用在多种远程教育考试上,可以基本上实现无纸化和自动化考试模式。系统不仅可以应用在局域网环境下,还可以应用
数字媒体是指以二进制数的形式记录、处理、传播、获取信息的载体。数字版权管理指的是数字媒体出版者用来控制数字媒体使用权所采用的一项技术。同其他的加密技术不同,数字版
随着信息化时代的到来以及企业对办公自动化的需求不断加强,企业内部根据不同部门的职能根据各自需求建立了多个企业内部的应用系统,其中员工考勤系统可以使繁杂重复的手工记录
文字识别技术一直以来都是模式识别领域中的一个重要课题。基于不同的书写方式,不同的识别对象,识别方法也不尽相同。在充分考察目前英文单词识别技术发展现状的基础上,本文设计
随着计算机科学技术的快速发展和广泛应用,为了解决海量数据处理、大规模数据计算等问题,研究各种耦合程度的分布式多机系统,已成为当今计算机及其应用技术的一个重要方向。  
现今,网络数据不断激增,这其中大多数数据是半结构化的,半结构化数据的结构类似于图或树,通常称为有向标记图。怎样才能在这些海量的半结构化数据中找到我们需要的数据甚至如何从
随着XML相关标准的推广和应用,如何有效管理大规模的XML数据成为数据库领域的一个研究热点。为尽可能重用关系数据库领域已有的众多成熟理论和技术,如事务管理、存储管理、锁管