【摘 要】
:
随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于智能化、专业化的需求也一直在提高,
论文部分内容阅读
随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于智能化、专业化的需求也一直在提高,如何让搜索引擎更加智能化、专业化是一个挑战。垂直搜索引擎正是在用户对专业化需求的环境下产生的,它通过主题爬虫对Web上特定领域的网页进行抓取,保存成网页库,然后被垂直搜索所使用。针对人们对于智能化的需求,人们发现了哲学的本体论可以被应用于信息检索中。本体技术是语义网中的一种先进的知识表示技术。本体具有良好的概念层次结构和对逻辑推理的支持能力,概念间关系概括语义的能力,能很好地为语义检索提供知识基础的能力。所以研究将本体论技术应用于主题爬虫成为了当今学术界热点。本论文分析了主题爬虫的国内外研究现状,结合了本体论技术,进行主题爬虫的研究与实现。本文的具体工作如下:(1)给出基于领域本体的主题爬虫的框架及相关模块介绍。(2)提出了根据本体层次树进行上下文主题描述,用于指导主题爬虫的爬行;(3)改进了本体层次树各概念的语义相似度及相关度计算方法,并给出了本体层次树各概念的向量表示综合方法;(4)根据本文的上下文主题描述,提出了网页内容与链接相关度的算法;(5)根据领域本体的构建方法及Protege本体构建工具,构建了教育技术领域的本体;(6)基于开源Bot.jar进行了扩展、实现基于领域本体的教育技术领域主题爬虫。实验表明,通过改进了本体层次树的概念相似度、相关度计算方法后,它们的综合方法能更好地区分概念间关系;本文所提出的基于领域本体的上下文主题描述,能有效指导爬虫,体现语义性;提出的基于领域本体的网页内容相关度和链接相关度算法能较大幅度地提高爬行的查准率。
其他文献
无线传感器网络在人们无法接近的恶劣或特殊环境的监测与数据采集中有着重要作用,如水灾、火灾、山体滑坡等灾害的监测预警。在这类恶劣应用环境中,网络节点面临不可预知的故
随着计算机网络的发展,信息量不断增加,信息的安全问题也表现得日益突出。数字签名作为保障信息安全的一种手段,因其能提供认证性、完整性、不可否认性等功能而越来越受到人们的
ZigBee技术是一种近距离、低复杂度、低功耗、低数据速率、低成本的双向无线通信技术,自动寻找路由,组网灵活,适合节点密集型的网络。远程监控网络是在计算机测控技术的基础
随着Internet的迅速发展和快速普及,Web站点已经成为制造、发布、处理和加工信息的主要平台,但在为人们提供大量信息服务的同时,其自身结构也变得日趋复杂,Web上的数据量也飞
随着工业自动化的飞速发展,生产与生活对计算机信息的依赖程度越来越高,二十一世纪的全球已全面步入数字信息化的时代,而如何安全、可靠、高效的对海量数据进行采集,处理,存储,归档
二维卡通动画因为具有其独特的魅力而被广泛应用于娱乐、广告、教育等领域。如何有效地对已有的卡通动画进行重用,是当前倍受关注的研究课题。卡通运动捕捉是卡通动画重用的
随着现代大型医疗成像设备的飞速发展,新的成像方法和图像处理方法不断涌现,医学图像正成为临床医学研究、诊断和治疗的依据。发展医学图像质量评价方法对于监控和调整医学图
Hulft系统由日本世存(Sassion)公司开发的一套软件系统,这个系统可以在不同操作系统平台下异构数据的网络环境中完成文件共享和数据传输的功能,达到存储虚拟化的效果,即操作
随着经济的迅速发展与人类生活水平的提高,废旧产品的数量也不断的增加,为了减少不可再生资源的浪费,闭环供应链已经成为众多学者关注的话题。与传统供应链相比,逆向供应链增加了许多不确定因素,例如回收数量的不确定性,回收质量的不确定性等等,这样会给供应链的管理带来很多难题,但是闭环供应链的实施在某种程度上会给企业带来好处:首先闭环供应链的实施可以减少制造商的生产成本,增加其利润,所以越来越多的制造商都主动
模糊推理是模糊系统和模糊控制的核心内容,受到广泛的关注。在模糊推理系统中,模糊隶属函数的确定和模糊推理规则的建立一直是难点问题,也是模糊推理系统的关键部分。B样条函