论文部分内容阅读
随着互联网的飞速发展,信息量正以指数规律急剧增长,互联网已经成为人类获取信息的主要途径。信息量的爆炸性增长,使得“信息迷航”和“信息过载”问题日益严重,增加了用户在海量的数据中准确获取理想信息的难度。百度、谷歌等通用搜索引擎在一定程度上解决了这个问题,然而随着用户需求的精细化和专业化,这些通用搜索引擎的“不专业”信息,已经不能使用户满意。随着信息社会的深度发展,这种矛盾也在被不断激化,于是提出了在特定领域进行深度数据挖掘的理论,主题搜索引擎的研究应运而生。 主题搜索引擎是一种针对特定主题的专业搜索引擎,它只关心它所限定的主题信息,聚焦于某一领域的深度数据挖掘。旨在满足特定领域专业化检索需求,相比通用搜索引擎可以获取更详细、更全面、更即时的信息。 本课题就主题搜索引擎的核心技术进行了全面剖析,在此基础上,提出自己的解决方案。本课题的研究内容可以分为如下五个部分: (1)分析通用搜索引擎的结构、工作流程; (2)研究主题爬行技术,提出基于网页主题信息语义分析和网页链接分析相结合的主题分析算法; (3)分析当前的中文分词技术,为索引建立提供理论依据; (4)研究Lucene全文检索框架技术,以此作为开发工具包; (5)以上述研究为理论依据构建自己的主题搜索引擎,并对结果进行分析,为算法改进提供事实依据。实验结果表明,改进的主题算法具有较高的采集效率和主题区分度,符合预期目标。