论文部分内容阅读
在当前“信息爆炸”的时代,信息过量几乎成为每个人都需要面对的问题。海量信息的复杂性以及信息处理的时效性严重影响了人们对信息的获取。如何便捷、准确地检索到所需信息已成为人们关注的焦点问题。信息检索就是研究如何对各种形式信息(如文本、图像、语音以及视频等)进行高效检索的学科。在信息检索中,文本的特征表示可以采用基于词语、短语和语义概念的表示方法。这些方法分别对应于文本的词语级、句法级和文档级的信息表示,并且信息的粒度由细到粗。从理论上来说,短语(句法级)优于词语(词语级),语义概念(文档级)优于短语。但针对不同的检索需求,有必要在相应的粒度上进行信息处理,并实现不同粒度间的信息转换。本文针对不同的检索需求对文本信息从不同粒度的角度进行分析,研究文本的特征表示,进一步地对文档进行标引、分类。本文提出了基于场论的信息检索模型,并将其应用于文档的检索中,实验结果显示它的文档相关性的定义能够更好地描述文档间的关系。本文主要的研究内容有:(1)文档商空间讨论粒度计算的三类理论和方法;采用商空间的理论在文档信息的三个层次上构建了信息商空间,实现了对文档信息在不同粒度上的分析,并讨论了相应信息粒度上的信息检索的方式;对三个层次的信息商空间提出了运用粗糙集方法对信息从细粒度到粗粒度进行转换;并根据商空间的保真原理和保假原理提出了文档信息检索的两种搜索的策略;(2)文档自动标引在帕欧理论的指导下,构建文档标引词候选集,运用集对理论分析了文档标引词间的相关性,通过标引词相关度对候选标引词进行筛选及文档标引词扩展,从而实现文档的自动标引;(3)文本分类运用粗糙集方法对标引词相关性进行知识约简,构建了文档类别的三层特征标引词相关度集;在此基础上通过对核心标引词相关度的加权,实现了基于标引词相关度的文本分类;(4)基于场论的信息检索模型分析经典信息检索模型,采用标引词的NTF-NIDF权重度量方法,运用场论的知识,结合信息检索的特点,设计了基于场论的信息检索模型。本文的主要创新点有:(1)在深入研究文献计量学理论的基础上,提出了文档标引词选择的新方案。这该方案以帕欧理论为依据,减少了自动标引过程中预处理信息量,从而降低了文本标引的复杂度;(2)在对标引词的相关性进行全面分析的基础上,提出了一种新的文本分类的模型——基于标引词相关度的文本分类。该模型运用了粗糙集的方法,对标引词的相关性进行约简,建立了文档类别的三层特征标引词相关度集。在此基础上通过对核心标引词相关度的加权,实现了基于标引词相关度的文本分类;(3)在分析了各种信息检索模型的基础上,提出了一种新的信息检索模型——基于场论的信息检索模型。该模型是将物质间的作用具体表现在文档上,通过文档间的作用描述文档的相关性,从而进行信息的检索;(4)在分析了面向检索需求的信息粒度选择之后,在文档词语级信息空间上,构建句法级信息商空间和文档级信息商空间。通过商空间的粒度分析,运用粗糙集方法将文档信息从细粒度向粗粒度的转换,从而实现了不同粒度上的信息检索。