论文部分内容阅读
随着互联网的迅速发展,越来越多的信息资源以网络为媒介呈现在人们面前,而通过搜索引擎获取生活、生产所需的信息资料也开始成为人们掌握资讯的主流方式之一。但是由于Web信息资源的爆炸式增长及其半结构化、实时性、异构性和离散性等的特点,如何对Web资源进行挖掘分析、提取人们需要的特定主题的信息,已经成为一项重要的研究课题。本文的研究内容是基于企业竞争情报、面向Web挖掘的主题式搜索,在介绍了课题的研究背景和现状之后,着重讨论了Web挖掘和主题搜索引擎的核心技术。具体的研究工作如下:主题网络爬虫:综合分析了现有搜索引擎的网络搜索算法,改进了相关的搜索策略,提出了一种非贪婪遗传搜索算法。Web文档分析:本文利用HTML Tidy工具将Web文档转换为其对应的树型结构,然后根据用户的需求利用不同的遍历算法提取相关的信息;爬虫系统对网页的正文内容进行提取和分词之后,采用经过改进的特征项权重计算方法建立文本的特征向量。主题相关性评价:在利用向量空间模型对网页正文内容进行主题相关性评价的基础上,系统结合超链接的锚文本、自身字符串和它所在的网页对其进行了主题相关性的计算。在以上研究内容的基础上,设计并实现了基于企业竞争情报的主题网络爬虫系统。