论文部分内容阅读
随着科技的发展,我们步入了一个信息化的社会,其信息量呈几何级数增加,如何有效地进行信息检索分类,以满足人们对信息的需求。而现有待处理信息中以文本文档占据大多数,本文主要研究文本文档的检索分类技术。 词频统计是进行信息处理工作的基础,本文对词频统计方法尤其是多关键词的词频统计进行了研究,设计了一种有效的多关键词词频统计方法——利用检索树来词频统计。在该方法中,充分考虑了关键词之间的冗余信息,扫描一次文档就可统计出全部关键词词频信息,实现了多关键词的高效匹配。利用该方法还可间接地实现对中文文本的切分词处理,并能得到每个关键词相应的前缀信息。该方法比常用的BF方法、KMP方法及BM方法减少了重复开销。 根据已有的词频统计结果,分析中文信息中的词频分布规律。齐普夫定律是英文的词频分布经验定律。实验结果表明中文信息也满足词频分布的经验公式,即高频部分满足Zipf定律,低频部分满足Booth定律。 对常用的几种信息检索分类模型的原理和方法进行比较研究,包括布尔逻辑模型、向量空问模型及概率推理模型。通过实验比较分析