基于Web页面特征的聚类算法研究及实现

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:hzm_jjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet/Web技术的快速普及和迅猛发展,Web数据已成为当今世界第一大“数据仓库”,怎样从海量的Web数据中发现知识,造福于人类,是Web数据挖掘这项技术被时代赋予的使命。然而,Web数据是异构的、非结构化的、动态变化的,这就要求我们首先将 Web页面分类(聚类),然后对不同的分类设计分装器(Wrapper),进行信息抽取,最后对得到的结构化数据进行分析和知识发现;由此可见Web聚类这项技术在数据挖掘中的重要地位。   目前,基于Web页面聚类的研究领域,已经取得了很多成果;但是,真正将Web聚类应用到Web内容挖掘领域,使得聚类结果服务于信息抽取和知识发现的研究成果并不是很多,主要有基于文本内容的Web页面主题聚类和基于Web页面结构的聚类;前者仅考虑Web页面的内容信息,聚类时间效率低,而后者巧妙的利用了Web页面的组织结构,但是没有利用Web页面提供的内容信息,聚类结果的实用性和准确性被降低;如果能够将两者结合,则一定能够提高聚类质量,这也是本文讨论的重点。   本文的主要工作和意义在于,分析了基于Web页面的聚类算法,并在此基础上阐述了一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(Clustering Web Pages Based on their Links and Tags),它是在总结前人有关Web聚类工作的基础上拓展出来的一种Web页面聚类方法,它在聚类的过程中同时兼顾了Web页面结构和Web标签提供的内容信息,采用了最小描述长度法(MDL)和相似度区间计算法(SRC)对Web页面的初步分组进行二次聚类,提高了聚类的效率和准确性;得到的聚类结果是Web站点的分类模型,从而为设计分装器提供训练样本,保证整个数据挖掘过程顺利进行;同时,该方法采用了Agent思想进行程序设计,使得聚类过程更加智能、更加高效。
其他文献
中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识
随着互联网应用的不断深入,电子邮件、电子商务、电子投票等电子通信方式已经广泛深入社会生活的各个领域,为保护用户身份信息的安全与隐私,许多匿名电子系统都把匿名作为系
学位
近几年来,随着移动通信网络的发展,数据传输速率的提高以及带宽的增加,人们对无线视频应用的需求日益增长。但是视频数据经过高压缩后,尽量多的去除了象素之间冗余,并且由于无线信
随着Internet技术的发展和广泛应用,人们获取信息的方式也从传统的书本渐渐转移到了网络,造成网络信息飞速增长,网页数量不断增加,人们查找自己真正需要的信息难度也相应增加
CSCW(Computer System Cooperation Work,CSCW)的核心是构建支持不同协同工作目标的应用系统,如工作流运作系统、办公自动化系统、协同设计系统、跨域业务流程集成等。支持企
感兴趣的物体检测和分割(统称为感兴趣物体的提取)一直是计算机视觉、图像理解和模式识别等研究领域的重要关注点之一。它在物体识别、基于内容的检索、基于内容的图像和视频
随着信息技术时代的到来以及互联网的飞速发展,大量数据出现在人们眼前。在当前运行的大多数数据库管理系统(DBMS)中,主要是通过数据库管理员(DBA)手工管理。数据库中负载种类
LBS(Location Based Service)通过数据库技术、地理信息系统(Geographic Information System,简称GIS)、移动定位技术、Internet技术和无线通信技术等多重技术的融合来提供位置服
以P2P技术为核心的流媒体系统,具有很高的系统可扩展性和良好的性价比。现有的P2P方案有树型、网状和分层混合,树型结构不能很好地适应节点的动态性和网络的异构性,网状结构