论文部分内容阅读
互联网上的信息是一个价值难以估量的宝库,如何利用这些丰富的互联网资源是我们需要解决的一个问题。文中通过数据挖掘手段,以服务器日志为例,论述了Web日志挖掘的概念和步骤,重点介绍了Web日志在聚类算法中的处理方法,最后结合实际对K-means算法的初始点的选取做了改进,同时引入权重降低了噪声和孤立点对聚类结果的影响。