论文部分内容阅读
近十几年来,因特网上的各种信息以呈指数级的速度增长,使得因特网用户想要快速找到其真正所需要的资料信息变得越来越困难。在海量因特网信息带来信息过载和信息迷失问题而人们对信息数据的需求却越来越专业化的时候,Web个性化服务技术应运而生,它的出现正好可以在一定程度上解决因特网中信息的多样化与用户需求的专一化之间的矛盾。用户兴趣建模技术作为个性化服务的核心问题,主要是研究如何根据所提供的用户兴趣网页或其他数据,较准确地挖掘用户的兴趣点,分析用户的兴趣主题,构建用户的兴趣模型。本论文主要是从以下几个方面作了研究,并通过实验,验证了其有效性。①自动准确地挖掘用户兴趣点在用户兴趣建模过程中,自动且准确地挖掘用户兴趣点非常重要。为了实现此目标,本文在对混合聚类算法进行改进的基础上提出了一种改进的混合聚类算法。对混合聚类算法的改进主要是以下两个方面:一方面,改进自动聚类簇数目计算算法,提高算法稳定性和准确性,并为改进的混合聚类算法指定初始聚类簇数目;另一方面,改进混合聚类算法的聚类部分,不仅提高聚类簇划分的准确性,而且实现在进化过程中调整初始聚类簇数目,最后得到更准确的聚类簇数目和聚类簇划分。②评价用户兴趣点的准确性与合理性利用改进的混合聚类算法挖掘用户兴趣点即是寻找合理的聚类簇数目与聚类簇划分。因此本文结合聚类有效性指标的概念提出一种新的适应值函数作为改进的混合聚类算法的适应值函数,该适应值函数对聚类簇数目和聚类簇划分进行较准确地评价,实现评价用户兴趣点的功能。③构建用户兴趣模型用户建模系统的最后步骤是利用挖掘得到的信息构建用户兴趣模型。本文利用两级向量模型描述用户兴趣,并详细描述了基于用户词典和两级向量模型的用户兴趣模型建立过程。这种模型将在后期的个性化搜索服务过程中更直接地提供用户的兴趣信息。④实验验证最后,本文通过实验对上述方法进行了验证。实验初步证明:第一,改进的混合聚类算法能够较准确的找到合理的聚类簇数目。第二,改进的混合聚类算法能够较准确地划分各个聚类簇。第三,改进的混合聚类算法的适应值函数能够较准确地评价聚类簇数目和聚类簇划分的优劣。第四,用户兴趣模型能够辅助个性化搜索系统提供较好的个性化服务。本论文提出的用户兴趣建模技术,主要应用于快速智能的个性化搜索服务。不过其主体技术的扩展性较好,如果适当改变适应值函数和用户兴趣模型,本用户兴趣建模技术还可应用于个性化推荐以及各种专业领域的智能用户信息建模系统中,辅助设计人员和管理人员分析用户信息,具有一定的理论价值和实用价值。