利用文档分类结构的信息检索技术

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:tt1234554321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管文档分类作为一种知识组织方法在诸多场合有广泛的应用,但针对这类高质量数据的数据挖掘研究却不多。本文着重于利用文档分类结构的信息检索技术研究。对平行分类结构和层次化分类结构两大文档分类组织方式作了深入分析并相应地提出了多个信息检索模型。平行分类结构.作为第二代万维网的典型代表之一,社会化收藏和标注系统,比如Delicious和Flickr等,为互联网用户提供了给网络文档进行平行分类的功能。由于这种平行分类系统是开放给所有网络用户参与的,所以我们称之为“社会平行分类”,本文着重研究这类平行分类系统。网络用户、平行类标和网页文档构成了社会平行分类的三大实体。为此,我们考虑两块信息检索工作。1)利用社会平行分类作为用户的兴趣指标和网页的主题指标的个性化信息检索。通过分析和应用社会平行分类的三个属性:类标属性、关键字属性和结构属性,我们提出了一个个性化搜索框架。2)利用社会平行分类作为额外元数据的通用型信息检索。我们提出了一个新的统计语言检索模型(LMIR)将文档的社会平行分类类标和文档的内容结合,实现搜索性能的提升。我们进行了大量的实验对两个模型进行评测。实验结果均显示我们的模型要比基准模型效能高出很多。层次化文档分类结构。本部分研究在搜索数据集具备层次化内容组织结构时的信息检索问题,比如ODP网页分类数据。这些数据中的层次结构都是根据人类先验知识而构建,因此他们在语义层面上是高质量的。在信息检索中将这类数据考虑在内将有很大潜力提高搜索的效果。我们提出了一个非参数的贝叶斯层次化统计语言检索模型(NPH-LMIR)来实现文档内容和层次化分类结构的整合。在ODP数据上进行的大量实验显示我们的模型比基准模型在搜索精度上提高了几十个百分点。
其他文献
网格是构建在互联网上的一种新兴技术,网格技术逐渐成为计算机领域近期研究的热点之一。电力行业目前存在着硬件资源利用率低,软件资源不统一,资源重复建设等问题。电力网格是解决这些问题的有利武器,网格技术应用于电力行业能大大提升电力服务性能。本文利用Globus Toolkit 4搭建网格仿真系统,为研究电力网格提供一个实验性环境。论文首先介绍了网格计算的基础知识,对网格体系结构做了详细介绍。分别介绍了系
伴随着计算机网络的普及和通讯技术的迅猛发展,网络信息已逐步成为当今社会发展的重要资源。网络互连一般采用TCP/IP协议,由于网络及其协议的设计者,在设计之初只考虑了效率
网格计算是为解决大规模资源密集型问题而提出的新一代计算平台,是当前并行和分布处理技术的一个发展方向,资源管理是计算网格的关键技术之一。然而,由于网格系统的分布性、
随着信息技术的发展,人类社会步入知识经济时代。对知识的管理已经成为企业管理的重要方面。本体的应用使得企业能够共享知识结构的标准化表示。有效的本体建模和实例检索方
本文在深入分析粒子群算法的缺陷及成因的基础上,引入了云理论、人工鱼算法,并提出扩张变异算子等方法,对粒子群算法进行改进,来提高算法的收敛速度和精度,有效克服了算法易
Domination问题是组合学中最具有代表性的一类判定问题,一般可分为:支配集问题,强支配集问题,独立支配集问题和联通支配集问题等。其中研究最多的是支配集问题。它和集合覆盖
在网络得到快速发展和应用的现代社会,代理签名的应用越来越广泛。例如:某总行授予所属支行签发电子货币的权利,让他们以总行的名义签发电子货币,而又不让他们获得总行的签发密钥
随着互联网技术和电子商务的飞速发展,各类企业都纷纷采用因特网和Web技术,将它们的主要服务搬到互联网上,以得到更强的自动性、更迅速的交易和更广阔的视野。SaaS(Software
随着数值计算技术的发展,使用数值模拟方法来制作引人注目的流体特效动画已在电影工业中成为一种趋势。在模拟计算中,小尺度的流体细节尤为重要,比如烟雾中的涡旋或是流沙中
我们生活在一个信息爆炸的时代,各行各业积累了大量的,甚至是海量的数据。根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的90%~95%,世界每年的申请量以100多