论文部分内容阅读
随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。