Web结构挖掘算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:OsWorkFlow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是传统的数据挖掘理论在Web中的应用,其涉及多学科领域的知识,如计算机网络、数学、人工智能等,是一个交叉性的研究领域。Web结构挖掘(WebStructure Mining)是Web挖掘研究领域的重要分支,它是通过分析各种网页结构间的关系信息,从而寻找潜藏在页面内容之外但有潜在价值的信息的过程。其中,这些网页结构信息主要包含以下三种:页面之间的超链接结构关系,可以用超文本标记语言(HTML)或可扩展标记语言(XML)表示的网页中的树型结构(DOM),页面统一资源定位(URL)中起组织和表现形式作用的文件目录结构。文章首先分析了经典结构挖掘算法PageRank、HITS及其改进算法,对算法中存在的问题进行了系统的阐述。PageRank算法是通过离线状态计算的,因而具有较快的响应速度,但其没有考虑与查询主题之间的关系,导致结果的主题性很差;HITS算法则是根据查询文本进行的运算,需要在线状态完成所有的工作,因此相比前者响应速度比较慢。针对这些问题本文提出了B-PH算法(Algorithm based on PageRankand HITS),该算法充分结合了文档内容和超链接结构,使得结果页面集更具有权威性和相关性。最后通过实验系统对真实数据的检测,通过与经典算法对比验证了该算法的可行性和有效性。本文所做的主要工作:1.对经典结构挖掘算法进行了分析,并对算法中存在的问题进行了系统的阐述。2.提出了Web噪音链接处理的新方法,有效地提高了算法的效率。3.提出了B-PH算法(Algorithm based on PageRank and HITS)。该算法在HITS算法框架基础上结合了PageRank,极大地减少了主题漂移现象,提高了查询效率和质量。4.提出了检验B-PH算法的实验模型,并开发了DotNet环境下基于B/S架构的Web应用实验系统,系统通过对真实数据处理,验证了算法的可行性和有效性;最后对处理结果进行了对比分析。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)是一种新兴的信息获取与处理技术,通常工作在人们无法或难于接近的恶劣及危险的环境里。针对其用途特点,无线传感器网络最大
排课工作是各个高校一项繁重而又复杂的工作,随着学分制在我国高校的不断发展与完善,各个高校为了适应学分制发展的需要,均研发、购买了自己的排课软件,这样就使教务人员从复
云计算作为国内外科研机构的研究重点,它是继分布式计算、并行计算和网格计算之后的一种新兴计算模式。这种基于服务的资源提供模式,将各种资源虚拟化为服务,任务调度技术一
随着人类社会的不断进步,印刷品的需求在不断的增加,同时由于印刷品工艺和印刷技术的提高,人们对印刷品的质量和多样性也有着越来越高的要求。然而,在印刷品生产过程中,由于印刷
软件工程是指导计算机软件开发和维护的一门工程学科,强调采用工程的概念、原理、技术和方法来开发与维护软件。把经过时间考验而证明正确的管理技术和当前能够得到的最好的技
云计算是近期业界研究热点之一,它不仅提高了操作和管理效率,还显著地降低了运营成本,适应网络发展的需求,为不同领域提供了一种新的共享基础架构。世界上许多国家的政府部门、科
CT心脏图像检索是医学CT图像检索的重要组成部分,如何在浩瀚的医学图像数据库中检索出心脏图像是医学影像辅助心脏疾病诊断要解决的重要问题。医学CT图像的特征主要表现为灰
立体视频编码与传输是当前视频信号处理领域一个重要的研究方向。而目前大多数的有线、无线通信网络均不能提供可靠的服务质量保证,立体视频流在传输过程中,不可避免地会有误
视频镜头边界检测是视频检测和索引的首要步骤,本文在总结分析现有的镜头边界检测技术的基础上,深入研究了从视频帧特征提取到阈值选择的边界检测全过程,通过分析镜头的变化
网格工作流是将工作流管理和网格计算相融合,为下一代分布式协作的工作流系统设计提供了一种非常有前景的解决方案,它可以方便地构建、执行调度、管理和监控网格应用,使得网格应