论文部分内容阅读
随着Internet的迅速增加,查找信息成为问题。搜索引擎的出现在一定程度上解决了找信息难的问题。但由于网络信息增长太快,检索返回的结果太多,查询的歧义性问题,使得用户在返回的大量信息中找到有用信息成了问题。本文提出的面向主题的信息检索系统能在一定程度上解决这种问题。 面向主题的信息检索系统,主要由爬行器,前向索引器,倒排索引器,检索器,主题分类器,相似文章聚类器组成。与通用搜索引擎最大的区别在于检索结果中有层次主题类信息,相似文章推荐,以及更加友好的人机交互方式等。正是这些功能使得用户在检索时更加主动,获得的信息更加丰富,并且能更加快速地找到有用信息。 正是如此,本文研究设计了面向主题的信息检索系统。并在索引建立,带有主题信息的检索方法,系统结构和信息可视化上有所改进和创新。 为了主题分类和相似文章聚类的需要,设计了自动获取TermID来建立前向索引的方法和对前向索引的管理。为了高效建立索引,通过前向索引词典信息来划分存放倒排索引的文件,实现Term和文件的映射。以后处理Term的信息就只需要在划分的对应文件中处理即可。同时,本文提出了通过两遍文件迭代建立海量倒排索引的方法,并且在建立过程中没有使用归并算法,而只进行顺序链接即可。因而速度很快。 在检索中,为了提高检索的TopN精确率和检索效率,本文提出了对文档抽取摘要信息来建立小索引用于检索。同时设计了文档和主题类的映射关系以及父、子主题类的继承关系,使得检索时获取文档的主题类信息以及判断主题类间的继承关系都是常数时间复杂度。进而带主题信息的检索和通用检索在检索时间上相差不大。 由于用户输入的查询通常比较短,使得查询有歧义,因而返回的所有结果文档属于多个类别。主题检索系统返回了文档的类别信息,使得用户可根据自己所找信息对应的类别来选择类别,让系统只返回该类别的文档,进而快速找到有用信息。使得用户在检索过程中更加主动。同时,当用户看到一篇相关文档后想看更多与当前文档相似的文档时,系统的相似文章推荐就能满足用户的需求。提供给了用户更丰富的信息。