Web页面信息主动检索核心技术

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:liyin900101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息的急剧增长,Web用户的迅速壮大,Web搜索产业的繁荣,信息检索技术受到国内外学者、公司和政府的普遍关注。由于Web页面信息容量的日益膨胀,PDA用户和手机用户浏览网络信息时从当前页面中人工检索需求信息越发困难。因此本文提出“Web页面信息主动检索技术”,该技术根据Web用户过去的浏览行为特性自动产生可能的信息需求;主动从当前浏览的Web页面检索需求信息,最后将检索结果返回。  根据信息检索的基本原理,本文分别对索引资源的组织和标识,多维查询请求向量的自动获取,基于树形索引的匹配检索等三个方面做了深入研究。  (1)索引资源的组织和标识  一方面,在现有的基于视觉信息的页面分块技术基础上,根据Web页面编著语言的特点,建立了一种新的Web页面内容信息提取技术、页面分块和块主题提取技术;进一步,根据Web页面信息逻辑内容的语义层次对目录页面中的目录项进行分类、聚类研究,提出一种基于模糊软集合理论的目录项文本分类方法,设计了基于语义层次的Web页面分块技术,建立了Web页面树形索引构建技术,为索引资源的组织和标识奠定基础。  (2)多维查询请求向量的自动获取  一方面,在页面结构化处理技术基础上,深入研究了用户的浏览记录,提取用户浏览历史信息所对应的语义层次结构特性,构造了用户的浏览行为特征树模型,设计了用户信息需求获取算法,从而建立了基于语义层次的用户需求模式分析技术,为多维查询请求向量的自动获取奠定了基础。另一方面,针对用户对信息需求的时空动态性,设计了一种新的例外模式发现技术和一种新的周期模式发现技术,发现用户的例外信息需求模式和周期性信息需求模式,这些技术是精确把握用户信息需求的基础。  (3)基于树形索引的匹配检索  由于索引资源以及查询请求向量是多元树结构,对多元信息树的检索理论做了一定的探讨和描述,建立了基于树形索引的信息类型检索、信息路径检索和信息结构检索等基础技术。结合Web页面信息特点,设计了基于EMD语义距离的兴趣主题检索、K近邻兴趣路径检索、基于结构相似度的兴趣结构检索等算法,并实验验证了这些算法的可行性。  本文研究的是基于树形索引的Web页面信息主动检索技术核心问题,该技术不仅仅具有技术理论上的创新,同时具有广阔的应用前景。理论上:  (1)提出了基于模糊软集合的Web页面特征提取方法,进一步建立了Web页面树形索引技术。现有的页面结构化技术是一种基于页面视觉信息的处理技术,在现有页面结构化技术基础上提出了一种基于语义层次的结构化处理技术。通过设计新的Web页面信息内容提取、Web页面分块及块主题提取、目录信息项分类等算法建立了Web页面信息逻辑语义处理技术,进一步设计了页面分块树、页面分类树(索引树)的构造技术,为Web页面信息主动检索提供索引数据资源奠定基础。  (2)提出了基于Web用户浏览行为的特征树模型的用户信息需求分析方法,从而建立了多维查询请求向量的自动获取技术。传统的Web用户行为分析技术利用马尔科夫链或向量空间模型分析用户日志获取用户局部链接特征,本文则利用Web页面信息的语义层次特性分析Web用户浏览的历史信息获取全局信息的逻辑需求特征。通过设计Web用户浏览行为特征树(BBC)的构造算法,进一步分析特征树获取用户兴趣主题、兴趣路径、兴趣偏好、例外兴趣、周期性兴趣等行为特征,从而建立了基于语义层次的用户信息需求分析技术,为Web页面信息主动检索提供多维查询请求向量奠定基础。  (3)提出了一种基于树形索引的Web页面信息匹配方法,包括语义距离和结构相似度算法,进一步建立了基于树形索引的Web页面信息匹配检索技术。现有的信息检索技术都是基于线性索引的关键字匹配检索,Web用户浏览信息时通过人工从当前页面中检索兴趣信息,本文讨论了多元信息树的检索技术理论,通过设计兴趣主题检索、兴趣路径检索、兴趣结构检索等算法建立了基于树形索引的Web页面信息检索技术,为Web用户从当前页面中检索兴趣信息奠定基础。应用上:  (1)Web页面信息主动检索技术为PDA用户和手机用户从各大门户网站获取自兴趣信息提供便利。  (2)基于语义层次的Web用户行为特征分析技术在电子商务中为客用户行为分析技术提供新的技术和方法。  (3)基于语义层次的Web页面分块技术为基于页面分块检索和基于页面分块的归档技术提供新的技术。  从理论讨论和关键实验情况来看,本文所提出的主动检索系统技术是可行的,理论上具有一定创新,应用上具有广阔的前景。
其他文献
中国互联网络信息中心(CNNIC)发布的近几年的《中国搜索引擎市场研究报告》中指出,网络音乐以其使用率一直位居中国互联网应用前三甲,大部分综合搜索引擎都已经提供针对音乐
音乐曲风与情感自动识别是音乐检索与推荐领域的重要课题。相较于元信息、歌词、标签等文本数据,数字音频本身是音乐最直接、客观的数据来源。当今大多数现有的音乐自动分类
中国悠久辉煌的历史,孕育了中华深厚文化内涵,而古代汉语作为传承中国文化的主要载体,是学习、研究中华灿烂历史文明中不可忽视的重要媒介。得益于信息技术的蓬勃发展和在语
对等网络(Peer-to-Peer Network,即P2P网络)诞生已有十余年,其至今已成为互联网流量的最大消耗形式之一。P2P网络的发展中出现了多种形态,而其中结构化覆盖网络即分布式哈希
目前移动终端设备的发展速度越来越快,带来了移动网络服务使用的普及,移动网络服务已经被广泛应用于人们的日常生活中,但是移动网络服务的高速发展必然会使用户收到大量来不
目前,传统的构造油气藏越来越少,利用储层预测和裂缝预测技术发现新油田已成为油气勘探的主题。为了发挥储层和裂缝预测技术作用,在OpenPetro储层裂缝预测软件系统中,针对井
随着信息技术飞速发展,互联网越来越多的渗透到人们的生活中。而在这种现象的背后是数以亿计的数据每天在不断的被生成、存储、计算、挖掘和研究,传统数据库在面临如此大规模的
医学影像技术作为一种医疗辅助手段在心血管疾病的诊疗过程中发挥着不可替代的作用。其中经食管超声心动图(Transesophageal Echocardiography,TEE)凭借其可靠性和较高的成像质
在软件复用过程中,软件资源的质量是开发者选择复用资源的重要参考依据。随着Intemet技术的发展,越来越多的开发人员会在使用了软件资源之后将自己的使用感受以评论的形式发
API使用示例能有效帮助开发人员快速学习API的使用方法。目前,多数开发人员利用通用搜索引擎(例如Google、Bing)来查找API使用示例。但由于通用搜索引擎缺乏对API使用示例的特