论文部分内容阅读
随着Internet/Web技术的快速普及和迅猛发展,Web数据已成为当今世界第一大“数据仓库”,怎样从海量的Web数据中发现知识,造福于人类,是Web数据挖掘这项技术被时代赋予的使命。然而,Web数据是异构的、非结构化的、动态变化的,这就要求我们首先将 Web页面分类(聚类),然后对不同的分类设计分装器(Wrapper),进行信息抽取,最后对得到的结构化数据进行分析和知识发现;由此可见Web聚类这项技术在数据挖掘中的重要地位。
目前,基于Web页面聚类的研究领域,已经取得了很多成果;但是,真正将Web聚类应用到Web内容挖掘领域,使得聚类结果服务于信息抽取和知识发现的研究成果并不是很多,主要有基于文本内容的Web页面主题聚类和基于Web页面结构的聚类;前者仅考虑Web页面的内容信息,聚类时间效率低,而后者巧妙的利用了Web页面的组织结构,但是没有利用Web页面提供的内容信息,聚类结果的实用性和准确性被降低;如果能够将两者结合,则一定能够提高聚类质量,这也是本文讨论的重点。
本文的主要工作和意义在于,分析了基于Web页面的聚类算法,并在此基础上阐述了一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(Clustering Web Pages Based on their Links and Tags),它是在总结前人有关Web聚类工作的基础上拓展出来的一种Web页面聚类方法,它在聚类的过程中同时兼顾了Web页面结构和Web标签提供的内容信息,采用了最小描述长度法(MDL)和相似度区间计算法(SRC)对Web页面的初步分组进行二次聚类,提高了聚类的效率和准确性;得到的聚类结果是Web站点的分类模型,从而为设计分装器提供训练样本,保证整个数据挖掘过程顺利进行;同时,该方法采用了Agent思想进行程序设计,使得聚类过程更加智能、更加高效。