面向Web的XML文档数据管理及分类检索技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户：dfm1999

【摘要】

：

随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据,据统计,非结构化数据占有整

【作者】

：

阎红灿

【出处】

：

天津大学

【发表日期】

：

2009年期

【关键词】

：

XML数据库 XQuery数据模型空间向量模型频繁模式挖掘 XML网页分类 Web信息分类检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据,据统计,非结构化数据占有整个信息量的80%以上,在信息传递过程中,80%的时间是用来获取信息,因此,如何从Web网上科学高效地获取信息即是本文研究的意义所在。XML数据库技术和Web搜索引擎技术的发展为提高Web信息检索特别是非结构化数据的检索效率带来了希望。因为XML数据库技术提供了信息存储和管理的技术保障,而搜索引擎技术为Web信息检索构建了操作平台。基于此,本文针对XML文档数据管理技术及面向Web的分类检索技术做了深入细致的研究。本文主要研究内容和创新性工作如下:首先,综述和分析了纯XML数据库和使能XML数据库的管理技术及索引机制,在分析各种数据模型特点基础上,研究讨论了以关系数据库作为存储源、扩展XQuery作为数据模型的优势,通过对XQuery数据模型的扩展,提出了基于Schema模式约束的XML数据存储和索引结构SBXI,从用户逻辑层面定义了XML文档更新语言XUL,并应用Kweelt查询系统和JAVA技术实现了文档更新的关键技术。然后,解决了XML网页分类的关键技术-信息检索模型问题。由于传统的向量空间模型不能适用于XML文档结构相似度比较,提出了基于TreeMiner算法的频繁结构向量模型,构建了文档特征矩阵的表示方法和相似度函数;并对该模型拓展,进一步提出频繁结构层次向量模型,不仅挖掘XML文档的结构信息,同时抽取表征文档内容的关键词信息,提高了相似度量的准确率。通过对频繁结构挖掘算法TreeMiner进行改进,使其更适合大文档集合的频繁结构挖掘,实验证明基于频繁模式的检索模型具有很好的网页分类效果。最后,提出了分类检索与全文检索结合的二次检索策略,从系统设计角度构架了以频繁结构层次向量模型作为信息检索模型、SBXI作为索引结构的基于主题分类的Web文献全文检索搜索引擎的系统结构,并讨论了其主要构件的功能和工作流程。

其他文献

基于构件的软件开发中的构件供应商任务指派及构件选择方法

随着软件行业的快速发展,软件公司需要开发出满足企业顾客需求的高质量软件系统,努力使开发后的系统能适应企业顾客的商业需求和业务流程变化。在这种环境下,基于构件的软件

学位

基于构件的软件开发面向服务的架构构件选择构件供应商任务指派多目标启进化算法服务模块设计

三维虚拟声的头相关传递函数个性化方法

作为虚拟现实系统的重要组成部分之一,听觉显示(尤其是三维虚拟听觉显示)变得日益重要。论文主要对实现三维虚拟声的关键技术之一——头相关传递函数(Head-Related Transfer

学位

头相关传递函数三维虚拟声人体测量主成分分析个性化

文书档案管理的信息化建设分析

文书档案管理工作是档案工作中的重要组成部分，随着信息时代的来临，计算机网络逐渐进入到人们生活工作中，为人们提供了更多便利。传统的文书管理工作逐渐不能满足社会发展的需求

期刊

文书档案信息化建设档案管理

知识可视化视觉表征形式及设计方法研究

视觉时代下,人们对图像信息的识读以积极主动的方式代替了简单、被动的接受方式,这为视觉表征设计和解读提供了良好的受众基础。视觉表征作为知识可视化图解的方法和手段,成

期刊

知识可视化视觉表征视觉形式

论医学人文课程“翻转课堂”教学改革实践

（南方医科大学，广东广州 510515）　　摘要：引进“翻转课堂”教学有望加强医学人文教育教学中思维与实际操作能力的培养。以我校医学人类学课程“翻转课堂”教学改革实践经验为基础，本文讨论了医学人文课程“翻转课堂”中学生与教师、理念与工具、课堂内与课堂外、师资与课程的关系。　　关键词：医学人文；翻转课堂；教学改革　　中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2017）

期刊

医学人文翻转课堂教学改革medical humanityflipping classroom modeleducation reform

可见光模糊图像的信息处理及目标探测

可见光成像一般利用目标反射的可见光信息,实现对目标的探测成像,系统的成像分辨率很高。获得丰富、精确的目标信息,并进行准确的目标探测,是可见光成像系统应用研究中非常重

学位

可见光成像图像模糊图像复原模糊参数显著图目标探测

浅谈建设项目档案工作应注意的问题

近几年来，随着社会经济与科学技术的不断发展，我国建设行业也取得了越来越多的成就。在建设项目当中，档案工作是一项非常重要的工作，建设项目的每个步骤如项目的提出、立项、可行

期刊

建设项目档案档案管理档案工作问题

推进财务档案管理信息化建设的探索与实践

随着经济的日益发展，传统的财务档案管理工作已逐渐无法满足发展需求，财务档案管理的信息化成为必然的发展趋势。本文基于此背景，对财务档案管理信息化的现况进行整体分析，并提出

期刊

财务档案管理信息化建设探索

论“反向混淆”概念之不必要

"反向混淆"是来自美国法的概念,通常的商标侵权是将在后使用人的商品误认为在先商标权人的,谓之"正向混淆",而"反向混淆"则指将在先商标权人的商品误认为在后使用人的。我国

期刊

“反向混淆”混淆可能性仿冒

面向Web的XML文档数据管理及分类检索技术研究

其他学术论文