论文部分内容阅读
随着Web信息的急剧增长,Web用户的迅速壮大,Web搜索产业的繁荣,信息检索技术受到国内外学者、公司和政府的普遍关注。由于Web页面信息容量的日益膨胀,PDA用户和手机用户浏览网络信息时从当前页面中人工检索需求信息越发困难。因此本文提出“Web页面信息主动检索技术”,该技术根据Web用户过去的浏览行为特性自动产生可能的信息需求;主动从当前浏览的Web页面检索需求信息,最后将检索结果返回。 根据信息检索的基本原理,本文分别对索引资源的组织和标识,多维查询请求向量的自动获取,基于树形索引的匹配检索等三个方面做了深入研究。 (1)索引资源的组织和标识 一方面,在现有的基于视觉信息的页面分块技术基础上,根据Web页面编著语言的特点,建立了一种新的Web页面内容信息提取技术、页面分块和块主题提取技术;进一步,根据Web页面信息逻辑内容的语义层次对目录页面中的目录项进行分类、聚类研究,提出一种基于模糊软集合理论的目录项文本分类方法,设计了基于语义层次的Web页面分块技术,建立了Web页面树形索引构建技术,为索引资源的组织和标识奠定基础。 (2)多维查询请求向量的自动获取 一方面,在页面结构化处理技术基础上,深入研究了用户的浏览记录,提取用户浏览历史信息所对应的语义层次结构特性,构造了用户的浏览行为特征树模型,设计了用户信息需求获取算法,从而建立了基于语义层次的用户需求模式分析技术,为多维查询请求向量的自动获取奠定了基础。另一方面,针对用户对信息需求的时空动态性,设计了一种新的例外模式发现技术和一种新的周期模式发现技术,发现用户的例外信息需求模式和周期性信息需求模式,这些技术是精确把握用户信息需求的基础。 (3)基于树形索引的匹配检索 由于索引资源以及查询请求向量是多元树结构,对多元信息树的检索理论做了一定的探讨和描述,建立了基于树形索引的信息类型检索、信息路径检索和信息结构检索等基础技术。结合Web页面信息特点,设计了基于EMD语义距离的兴趣主题检索、K近邻兴趣路径检索、基于结构相似度的兴趣结构检索等算法,并实验验证了这些算法的可行性。 本文研究的是基于树形索引的Web页面信息主动检索技术核心问题,该技术不仅仅具有技术理论上的创新,同时具有广阔的应用前景。理论上: (1)提出了基于模糊软集合的Web页面特征提取方法,进一步建立了Web页面树形索引技术。现有的页面结构化技术是一种基于页面视觉信息的处理技术,在现有页面结构化技术基础上提出了一种基于语义层次的结构化处理技术。通过设计新的Web页面信息内容提取、Web页面分块及块主题提取、目录信息项分类等算法建立了Web页面信息逻辑语义处理技术,进一步设计了页面分块树、页面分类树(索引树)的构造技术,为Web页面信息主动检索提供索引数据资源奠定基础。 (2)提出了基于Web用户浏览行为的特征树模型的用户信息需求分析方法,从而建立了多维查询请求向量的自动获取技术。传统的Web用户行为分析技术利用马尔科夫链或向量空间模型分析用户日志获取用户局部链接特征,本文则利用Web页面信息的语义层次特性分析Web用户浏览的历史信息获取全局信息的逻辑需求特征。通过设计Web用户浏览行为特征树(BBC)的构造算法,进一步分析特征树获取用户兴趣主题、兴趣路径、兴趣偏好、例外兴趣、周期性兴趣等行为特征,从而建立了基于语义层次的用户信息需求分析技术,为Web页面信息主动检索提供多维查询请求向量奠定基础。 (3)提出了一种基于树形索引的Web页面信息匹配方法,包括语义距离和结构相似度算法,进一步建立了基于树形索引的Web页面信息匹配检索技术。现有的信息检索技术都是基于线性索引的关键字匹配检索,Web用户浏览信息时通过人工从当前页面中检索兴趣信息,本文讨论了多元信息树的检索技术理论,通过设计兴趣主题检索、兴趣路径检索、兴趣结构检索等算法建立了基于树形索引的Web页面信息检索技术,为Web用户从当前页面中检索兴趣信息奠定基础。应用上: (1)Web页面信息主动检索技术为PDA用户和手机用户从各大门户网站获取自兴趣信息提供便利。 (2)基于语义层次的Web用户行为特征分析技术在电子商务中为客用户行为分析技术提供新的技术和方法。 (3)基于语义层次的Web页面分块技术为基于页面分块检索和基于页面分块的归档技术提供新的技术。 从理论讨论和关键实验情况来看,本文所提出的主动检索系统技术是可行的,理论上具有一定创新,应用上具有广阔的前景。