论文部分内容阅读
                            
                            
                                随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web上拥有大量的信息资源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同的数据格式,所以构建一个Web信息集成系统是很有必要的。聚类算法改进的研究是Web信息集成系统实现过程中的热点问题,可以更方便用户对分布在不同网站上的信息查询,为了实现这一目标,我们首先要把来自不同网站的数据进行聚类,通过聚类可以把海量的数据聚集成几个分类,在各个分类中选择出各个聚类的中心点,以各个中心点来代表各个聚类,新的数据只需与聚类的中心点作比较,不用再与聚类的每个数据点一一作对比,这样可以有效的降低数据集成的复杂程度。这就是聚类方法,具有重大的现实意义。本文通过对近几年国内外研究成果的分析和研究,针对现有的聚类方法准确度低,效率低等缺点。对传统的聚类方法进行改进,使其达到在准确度相对较高的情况下,效率有所提升。论文主要的研究内容有以下几个方面:(1)对传统的K-medoids聚类算法进行改进。在改进的过程中,主要是针对初始的聚类中心点的选择方法进行优化,在实行新的选择方法的过程中有效的降低了相邻数据对象同时作为初始的聚类中心点的可能性,缩减了在寻找最终的聚类结果过程中的迭代计算的次数,在一定程度上降低了聚类过程的复杂度,从而有效地提高了聚类的效率,同时在聚类的过程中设定聚类的半径,这样做的目的是可以将一些与聚类本身不相关的数据剔除掉。(2)将改进后的K-medoids聚类算法与Web集成技术相结合。并且按照Web信息集成的基本步骤,实现对Web页面的解析器、数据抽取器和数据集成模块的设计,有效的将聚类算法运用到Web信息集成技术中。(3)根据以上的两个研究结论,并且结合信息集成技术,HTML的相关知识、JAVA程序设计方法、XML技术和相似性计算等相关技术对传统的Web数据集成的方法进行相关的改进,为用户提供了一个快速的、便捷的、准确的、高效的数据集成方法,并使其具有良好的实用性。