面向Web的XML文档数据管理及分类检索技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:dfm1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据,据统计,非结构化数据占有整个信息量的80%以上,在信息传递过程中,80%的时间是用来获取信息,因此,如何从Web网上科学高效地获取信息即是本文研究的意义所在。XML数据库技术和Web搜索引擎技术的发展为提高Web信息检索特别是非结构化数据的检索效率带来了希望。因为XML数据库技术提供了信息存储和管理的技术保障,而搜索引擎技术为Web信息检索构建了操作平台。基于此,本文针对XML文档数据管理技术及面向Web的分类检索技术做了深入细致的研究。本文主要研究内容和创新性工作如下:首先,综述和分析了纯XML数据库和使能XML数据库的管理技术及索引机制,在分析各种数据模型特点基础上,研究讨论了以关系数据库作为存储源、扩展XQuery作为数据模型的优势,通过对XQuery数据模型的扩展,提出了基于Schema模式约束的XML数据存储和索引结构SBXI,从用户逻辑层面定义了XML文档更新语言XUL,并应用Kweelt查询系统和JAVA技术实现了文档更新的关键技术。然后,解决了XML网页分类的关键技术-信息检索模型问题。由于传统的向量空间模型不能适用于XML文档结构相似度比较,提出了基于TreeMiner算法的频繁结构向量模型,构建了文档特征矩阵的表示方法和相似度函数;并对该模型拓展,进一步提出频繁结构层次向量模型,不仅挖掘XML文档的结构信息,同时抽取表征文档内容的关键词信息,提高了相似度量的准确率。通过对频繁结构挖掘算法TreeMiner进行改进,使其更适合大文档集合的频繁结构挖掘,实验证明基于频繁模式的检索模型具有很好的网页分类效果。最后,提出了分类检索与全文检索结合的二次检索策略,从系统设计角度构架了以频繁结构层次向量模型作为信息检索模型、SBXI作为索引结构的基于主题分类的Web文献全文检索搜索引擎的系统结构,并讨论了其主要构件的功能和工作流程。
其他文献
随着软件行业的快速发展,软件公司需要开发出满足企业顾客需求的高质量软件系统,努力使开发后的系统能适应企业顾客的商业需求和业务流程变化。在这种环境下,基于构件的软件
作为虚拟现实系统的重要组成部分之一,听觉显示(尤其是三维虚拟听觉显示)变得日益重要。论文主要对实现三维虚拟声的关键技术之一——头相关传递函数(Head-Related Transfer
本文从大学生信息素养现状入手,论述了高校图书馆在进行大学生信息素养教育方面所具有的优势,并且提出了高校图书馆在信息素养教育过程中可以采取的方法途径。
文书档案管理工作是档案工作中的重要组成部分,随着信息时代的来临,计算机网络逐渐进入到人们生活工作中,为人们提供了更多便利。传统的文书管理工作逐渐不能满足社会发展的需求
视觉时代下,人们对图像信息的识读以积极主动的方式代替了简单、被动的接受方式,这为视觉表征设计和解读提供了良好的受众基础。视觉表征作为知识可视化图解的方法和手段,成
(南方医科大学,广东 广州 510515)  摘要:引进“翻转课堂”教学有望加强医学人文教育教学中思维与实际操作能力的培养。以我校医学人类学课程“翻转课堂”教学改革实践经验为基础,本文讨论了医学人文课程“翻转课堂”中学生与教师、理念与工具、课堂内与课堂外、师资与课程的关系。  关键词:医学人文;翻转课堂;教学改革  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)
可见光成像一般利用目标反射的可见光信息,实现对目标的探测成像,系统的成像分辨率很高。获得丰富、精确的目标信息,并进行准确的目标探测,是可见光成像系统应用研究中非常重
近几年来,随着社会经济与科学技术的不断发展,我国建设行业也取得了越来越多的成就。在建设项目当中,档案工作是一项非常重要的工作,建设项目的每个步骤如项目的提出、立项、可行
随着经济的日益发展,传统的财务档案管理工作已逐渐无法满足发展需求,财务档案管理的信息化成为必然的发展趋势。本文基于此背景,对财务档案管理信息化的现况进行整体分析,并提出
"反向混淆"是来自美国法的概念,通常的商标侵权是将在后使用人的商品误认为在先商标权人的,谓之"正向混淆",而"反向混淆"则指将在先商标权人的商品误认为在后使用人的。我国