多标记传播聚类算法及其在Web日志挖掘中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:niubisile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,人们在享受网络带来的丰富信息和极大便利的同时,也遇到了“数据丰富知识贫乏”的问题。有效的解决途径就是将数据挖掘技术应用到WWW的挖掘中,即Web挖掘。Web挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web日志挖掘作为Web使用挖掘中最有研究价值的一部分,得到了研究人员的极大关注。利用Web日志挖掘技术可以发现用户访问网站的浏览模式及网站页面之间的关系,继而进行用户聚类和页面聚类。数据预处理是数据挖掘前期的必要工作,是为数据挖掘算法提供有效输入和获取有价值的挖掘结果的前提条件。本文研究了传统的数据预处理过程,针对网站拓扑结构比较复杂时用户识别算法时间效率低的缺陷,对传统的用户识别算法进行了改进。根据多标记传播聚类算法的需要,构造了一种适用于该算法的数据预处理过程。本文在对聚类算法研究的基础之上,为了更好地体现用户的访问兴趣,以网站访问频度为参数,引入了加权关联矩阵的概念,并提出了一种基于加权关联矩阵聚类的挖掘算法——多标记传播聚类算法(MPCA),该算法是对标记传播思想的扩展,目的在于利用矩阵的稀疏特性来减少算法的执行时间。本文构造的预处理过程省略了复杂的会话识别和事务识别环节,可以更加真实地再现用户的访问情形。算法效率高,能够为挖掘算法提供有效的输入数据。与普通的矩阵聚类算法相比,多标记传播聚类算法克服了基于距离的算法在空间复杂性和时间复杂性方面的局限性,在处理Web日志构成的大稀疏矩阵方面具有一定的优势。经实际检验,表明采用多标记传播聚类算法的挖掘结果对于用户聚类和页面聚类是有效的、可行的。本文提出的多标记传播聚类算法虽然具有良好的可扩展性,但是还需要进一步改进,比如,设计出高效的基于Web日志的数据挖掘系统;将多标记传播聚类算法与遗传算法相结合,以获得更高的挖掘效率。
其他文献
分布式系统由于不同的硬件和软件,不同的平台,使得共享数据,集成系统变得非常麻烦和困难,这样往往会降低开发的效率,增加了开发的成本。Web服务是解决分布式系统的一个理想的解决
CAD(Computer Aided Design)计算机辅助设计,是制造业企业产品设计时非常重要的工具。本文以CAD软件SolidWorks的研究与开发为背景,通过分析SolidWorks系统对权限控制的需求,
移动机器人路径规划是移动机器人技术研究中的关键问题,其主要任务是:机器人在有障碍物的空间中找到一条最短的或最低代价的无碰撞路径。多机器人路径规划以多机器人系统为对
随着三维模型获取技术、三维图形建模方法以及计算机硬件技术的发展,三维模型的应用领域也越来越广泛。三维模型不仅在数量上迅速增长,而且形成了诸多越来越庞大的三维模型数
编译器作为计算机软件中最为基础的软件之一,与操作系统、数据库系统一起被列为构成计算机系统软件的关键性的基础设施。而编译器作为任何软件的产生器,它的安全性、可靠性和
自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值
相机传感器可以在监控区域中采集图像信息来提供更多的信息来分辨入侵者。现实中,随机部署的相机传感器通常会造成大量相机传感器资源的闲置浪费并且很难确保监控区域的全视
随着以Web服务、云服务为代表的互联网服务的蓬勃发展,服务形式及服务数量都在迅速的增加。因此,对于用户来说,如何选择合适的服务成为一个亟待解决的问题。服务推荐技术在这
电子政务基础平台主要是利用Internet技术实现网络行政办公的一体化,以核心spring API作为系统后台管理,对各个窗口的数据接口进行统一管理、分配;以持久化对象JPA(部分是用H
基于构件的软件开发是提高软件生产率以及软件质量的一条现实可行的途径。其中一项重要的基础设施——软件构件库得到了产业界和学术界越来越多的重视。为了帮助开发者对构件