论文部分内容阅读
随着Internet的飞速发展,人们在享受网络带来的丰富信息和极大便利的同时,也遇到了“数据丰富知识贫乏”的问题。有效的解决途径就是将数据挖掘技术应用到WWW的挖掘中,即Web挖掘。Web挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web日志挖掘作为Web使用挖掘中最有研究价值的一部分,得到了研究人员的极大关注。利用Web日志挖掘技术可以发现用户访问网站的浏览模式及网站页面之间的关系,继而进行用户聚类和页面聚类。数据预处理是数据挖掘前期的必要工作,是为数据挖掘算法提供有效输入和获取有价值的挖掘结果的前提条件。本文研究了传统的数据预处理过程,针对网站拓扑结构比较复杂时用户识别算法时间效率低的缺陷,对传统的用户识别算法进行了改进。根据多标记传播聚类算法的需要,构造了一种适用于该算法的数据预处理过程。本文在对聚类算法研究的基础之上,为了更好地体现用户的访问兴趣,以网站访问频度为参数,引入了加权关联矩阵的概念,并提出了一种基于加权关联矩阵聚类的挖掘算法——多标记传播聚类算法(MPCA),该算法是对标记传播思想的扩展,目的在于利用矩阵的稀疏特性来减少算法的执行时间。本文构造的预处理过程省略了复杂的会话识别和事务识别环节,可以更加真实地再现用户的访问情形。算法效率高,能够为挖掘算法提供有效的输入数据。与普通的矩阵聚类算法相比,多标记传播聚类算法克服了基于距离的算法在空间复杂性和时间复杂性方面的局限性,在处理Web日志构成的大稀疏矩阵方面具有一定的优势。经实际检验,表明采用多标记传播聚类算法的挖掘结果对于用户聚类和页面聚类是有效的、可行的。本文提出的多标记传播聚类算法虽然具有良好的可扩展性,但是还需要进一步改进,比如,设计出高效的基于Web日志的数据挖掘系统;将多标记传播聚类算法与遗传算法相结合,以获得更高的挖掘效率。