论文部分内容阅读
随着Web信息的指数级增长,如何快速、准确地从海量的互联网信息资源中获取所需信息已经成为困扰人们的一大难题。
论文研究主题Web动态信息推荐技术,即针对专业的信息搜集部门长期实时收集互联网某一领域或某一学科动态信息的实际需求状况,提出跟踪用户浏览记录,主动推荐主题信息的主动式信息服务设计方案,并探讨相关技术及实现方法,建立一个智能化、专业化、小型化的人—机互动式搜索引擎,并通过理论分析和实验结果证明了系统性能的优越性。围绕主题Web动态信息推荐系统设计,论文的主要工作包括以下几个方面:
(1)中文Web新闻页面正文的精确抽取。在分析html语法结构及国内外知名中文新闻门户网站的页面特征的基础上,提出规则与统计相结合的中文新闻页面正文抽取方法。论文在对新闻页面进行严格界定之后,制定了一系列提取规则,详细阐述了正文抽取方法,并以国内外知名新闻门户网站随机抽取的大量页面为实验数据验证了方法的优越性。
(2)基于三字哈希索引的汉语分词。通过对PFR语料的分析,总结汉语构词特点,得出三字索引具有最好的分词效率;通过字串三态标记的方式,解决了索引深度的问题,提出并实现三字哈希索引的汉语分词词典机制,并从理论和实验两方面证明了方法的优越性。
(3)基于分类评估的未登陆词识别。在分析借鉴现有未登陆词识别方法的基础上,提出并设计了基于分类效果评估的未登陆词识别算法。该算法先采用传统的统计方法查找固定字串,然后采用机器学习方法,评估字串对类别的表现特征,依此抽取包含高类别特征信息的未登陆词。识别结果用于主题扩展,取得了良好效果。
(4)主题WEB动态信息推荐系统设计。论文从用户需求出发,着眼于解决实际问题,搭建了一个面向中文动态新闻信息的小型化、专业化、智能化的搜索引擎,并给出了系统及分系统的实现架构和具体实现方法。
此外,论文也对超链接分析、文本分类、信息过滤等技术进行了分析与探讨。