基于分类树的增量Web数据挖掘系统

被引量 : 0次 | 上传用户:bjiyguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和日益普及,互联网上的信息和资源呈几何倍数爆炸式的增长,面对如此庞大的资源,如何有效利用互联网的公共资源确实一个难题。Web信息和资源大多以HTML(Hypertext Markup Language)文档形式存在。HTML文档的性质决定了这些信息和资源无法直接被使用,那么如何有效地、高效的挖掘互联网上资源就是该系统重点要解决的问题。为了高效地将影视资源网站中的影视资源完全挖掘出来,并且保存到结构化数据库中,Web数据挖掘包含三个重要的部分:分类树挖掘,资源列表挖掘,增量挖掘判断。首先是挖掘Web站点的分类结构,然后管理员通过管理系统进行分类映射,对需要挖掘的分类进行管理。分类树挖掘是整个系统的主干,后续的挖掘都按照这个主干进行。资源列表的挖掘,通过挖掘到的分类树获取分类的入口地址,以页为单位获取分类下的资源列表集合。增量挖掘判断,从资源列表中循环解析资源,并从中获取资源的更新时间和ID(IDentity),通过增量判断算法,判断该资源是否有更新,如果为新增或有更新资源,则继续挖掘该资源的详情页面。在系统实现时,结合具体的例子,多次试验,基于分类树从一个影视资源网站,深度、增量挖掘该网站上的所有的影视资源,试验效果良好,效率非常高。
其他文献
目的:探讨临床孤立综合征(CIS)患者临床特征、转归和影像学表现。方法:回顾性分析16例随访5年以上的CIS的临床和影像资料。结果:本组临床特征、转归与传统CIS不符,MRI表现多
枢纽布置是总体上决定水电站工程成败和投资的重要环节,对其中影响枢纽布置的各方案进行分析比选,可为枢纽布置的合理性提供必要的支持和论证。根据小型径流引水式电站的特点,结
油画在中国经过100多年的发展,已成为中国绘画艺术的重要组成部分。中国油画在演变过程中,离不开对西方传统的继承和创新,也离不开对本土绘画传统的借鉴和学习。我们从西方的
本文以海南省上市公司2008~2012年的财务数据为样本数据,分析了海南省上市公司资本结构的现状,得出海南省上市公司存在很强的股权融资偏好、资产负债率偏低,长期负债率偏低等
光动力药物是近年来兴起的一类新型药物,而光敏剂的性质优劣是决定光疗效果好坏的一个重要因素。近年来的研究发现一类羟基多元芳烃化合物苝醌类光敏剂(PQP)具有良好的光致生
本文介绍了我公司研制成功的28GN型履带式抛丸清理机主要部件的结构特点及主要技术参数.
生机电假肢手臂是指外观造型与真实人体手臂相似,运动功能与真实人体手臂相同,并且能够重建人体手臂缺失的运动功能的机械装置。在与一般工业机器人相比,它要求结构紧凑,外观自然
本文论述了翻译电影片名中的四个原则,即信息原则、文化原则、审美原则及获利原则,准确的信息是片名翻译中的首要原则。我们得尽力去理解字里行间的内涵,因此,了解原语的文化
介绍了垃圾渗滤液多级深度生化物化处理(MBP)工艺的组成和特点,该工艺生化段主体为立环氧化沟、富氧曝气池和臭氧氧化池;物化段主体为活性炭过滤池、CMF和两级RO反渗透。以滨
针对冷凝法油气回收装置在运行过程中的高能耗问题,利用理论分析的方法,采用流程模拟软件HYSYS对系统回收流程进行了模拟,分析了各种工况下的能耗和回收率状况。通过对比分析