论文部分内容阅读
随着网络技术的发展,网上的资源成指数级的增长,如何在Internet这样的海量信息资源中迅速搜索和查找到用户感兴趣的信息已成为网络上必不可少的需要。已经有象Google和百度这样成熟的通用Web搜索引擎出现,并在很大程度上满足了用户Web信息检索的需求。目前的通用Web搜索引擎在传统的全文检索技术基础上,更多地涉及到网页数据全面快速的采集、海量网页数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言处理技术等。 通用Web搜索引擎通常难以收集全所有领域和主题的网络信息,即使信息领域和主题收集比较全面,由于领域和主题范围太宽,很难将各领域和主题都做得精确而又专业,从而使得检索结果无用信息太多。基于领域主题的Web搜索引擎则弥补了这一不足,它是就某一特定的专门的主题或领域范围来提供Web信息检索服务的搜索引擎,以其高度目标化和专业化在各类搜索引擎中占据了一席之地,其查询结果具有很高的针对性,因此用户对查询结果的满意度较高。 本论文主要是探讨基于领域主题的WEB信息检索相关的技术问题,围绕着Web页面信息的抓取与处理、中文分词、文本自动分类、网页排序、索引与搜索等关键技术问题展开讨论。 本文的主要贡献是: (1) 研究并提出了一种基于块的不需要复杂机器学习方法而仅采用探试法来获取并识别Web页面主要信息内容块的快速算法,实验证明该算法在Web页面主要内容块的识别方面有着较高的正确率与召回率,并且利用该算法可以去掉对非主要内容块的存储,对存储网页快照和建立索引也会带来可观的外存存储节约。 (2) 基于简化贝叶斯网络模型提出并实现了一种文本分类算法,该算法的学习时间具有多项式的时间复杂度,并且分类的准确率和召回率均高于朴素贝叶斯方法。