基于Web的主题搜索应用技术研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:cderfvbgtyhnmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入新世纪以来,互联网络上的Web空间发展日益迅速,Web信息在很多方面得到了广泛的应用,人们对Web信息的领域本体相关性和领先性的要求越来越高。基于Web的主题搜索技术的发展和演进,已经成为有效开启互联网络知识宝库的关键之匙。Web信息搜索服务主要通过国内外一些成熟的搜索引擎站点提供。但是,目前被搜索引擎广泛采用的Web信息获取爬虫系统存在着明显的缺陷,缺陷是系统只能依据超链在Web空间里遍历公开被索引的Web页面,而对占据大部分Web空间的隐含型Web页面缺乏有效的获取手段。隐含型Web页面通常指那些由用户与站点Web信息数据库通过查询表单Form发生交互而动态产生的,带有明显领域主题色彩的Web页面。针对这一问题,本文展开了对隐含型Web页面信息获取技术的研究。在吸取国内外相关网络爬虫系统理论知识的基础上,新总结出了符合中文Web页面呈现规律的,领域相关数据源接口Form启发式发现与过滤原则,并基于Form领域本体相关性由其所包含表单项的领域相关度决定这一思想,提出了一个新的Form领域相关度自动识别算法。在此基础上,本论文设计并实现了一个具有隐含型Web信息获取能力的网络爬虫系统。其中包括系统的整体架构和功能模块划分,给出了系统分析、处理查询表单Form和优选查询词汇的具体方法和算法。而后基于教育领域本体词汇库,实现了一个实验性的,面向教育领域隐含型Web信息获取的网络爬虫系统。通过对领域内多个站点的实际爬行测试,证明了系统的有效性。
其他文献
背景与目的:脑血管病的发病率、死亡率和致残率很高,它与恶性肿瘤、心脏病是导致全球人口死亡的三大疾病。在所有脑卒中病人中,缺血性卒中约占65%-80%,缺血性脑卒中是指由于供应脑
水稻是我国第一大粮食作物。协调好水稻高产、优质、高效、生态、安全的关系,成为稻作技术发展的方向。氮肥作为调控水稻生长发育最主要的元素,对群体调控、水稻产量与品质形成
半个世纪来,西方对身体自我的研究获得了丰硕的成果,其中主要以身体意象障碍和饮食障碍的影响因素居多。同时,大量研究考察了身体意象障碍者或饮食障碍患者的认知特点,并发现这类
本文中以啤酒酵母F为原始出发菌株,以激光-LiCl复合诱变为改良途径,配合高浓驯养手段,最终得到了一株能够较好适应超高浓发酵的高浓菌株F20,连续八代培养,其各项指标均优于原
当前,在数字信号处理和电子应用技术领域,滤波器作为一种必不可少的组成部分,处于一个非常重要的位置,已广泛应用于通信、语音、图像、自动控制、雷达、军事、航空航天、医疗和家
原发性肝癌为临床常见的恶性肿瘤,经导管肝动脉化疗栓塞术(Transcatheter hepatic arterial chemoembolization,TACE)为不能手术的肝癌患者主要的治疗方案。肝癌栓塞后综合征,是
随着新疆农牧业的快速发展,奶牛养殖业的不断兴起,奶牛疾病出现上升趋势。乳房炎是奶牛场危害最大、投入药费最多、防治最难的疾病,尤其是奶牛隐性乳房炎的发病率在逐年升高
21世纪是经济全球化、知识一体化、高科技信息产业技术迅速发展的新时期。新经济时代的来临,必然要求各国拥有一套能够与之相适应的上层建筑作为其发展的有力保障。这对作为上
目的回顾广州中医药大学第一附属医院及广东省中医院2000-2006年肝性脑病住院患者的相关资料,对其证型及其他资料进行综合统计分析,探讨肝性脑病发病的病因病机、辨证分型以及
随着网络技术的发展,工业控制领域也迎来了深刻技术变革,控制系统结构网络化与控制系统体系开放性将是控制系统技术发展的趋势。近年来,以太网和嵌入式系统有了很大的发展,目前正