论文部分内容阅读
多年来,呈指数级增长的各种信息,使得Internet用户快速获取准确必需的信息显得越发急迫。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,用户兴趣挖掘技术正悄然兴起,倍受关注。它的出现恰好在一定程度上能解决Internet的信息多样化与用户需求的专一化之间的矛盾。用户兴趣挖掘技术的主要研究内容是如何根据所提供的用户浏览信息或行为或Web日志等数据,较为准确地挖掘出用户的个体兴趣,构建用户个体兴趣模型,分析用户个体兴趣,更进一步的根据个体兴趣对用户进行聚类挖掘出用户群体兴趣,并从个体兴趣和群体兴趣两方面刻画用户的兴趣需求,完善兴趣模型。本课题主要通过介绍一个基于Web、WAP的用户兴趣挖掘项目对以下提出的技术和算法进行具体分析和详细介绍并以真实的数据进行了实验验证其有效性。(1)用户兴趣建模技术根据用户浏览记录中的URL爬取并解析出所浏览网页的正文,基于内容的文本分析是本课题挖掘用户兴趣的基础。因此,在文本获取和预处理阶段,本课题提出基于规则和DOM树的网页正文提取技术以及基于卡方与关键词权重的文本分类方法。在用户兴趣建模阶段,提出多元化的建模思路,不仅从长期兴趣,短期兴趣方面建模,还综合了从个体兴趣和群体兴趣分别统计用户自己的历史行为和若干用户相似的历史行为的建模思路,更全面地刻画了用户的兴趣偏好。(2)用户个体兴趣挖掘技术主要通过挖掘用户的历史访问页面,了解用户在信息需求方面的兴趣倾向。本研究提出了适合本课题应用场景的两个算法:①挖掘用户的长期兴趣的算法;②挖掘用户的短期兴趣的算法;用户兴趣反映用户在主题需求、内容形式上的偏好,在维护和修改用户兴趣的过程中,采用兴趣类访问密度加时间属性的方法挖掘长(短)期兴趣。对用户模型的更新方面,引入遗忘因子,采用生物遗忘规律的方法对不活跃的用户或兴趣进行遗忘,对活跃的用户或兴趣进行记忆上的增强,最终达到对用户兴趣模型进行更新的目的。(3)用户群体兴趣挖掘用户是海量的,因此会有某些用户的历史行为存在相似性,这种群体性兴趣可以视作单一用户的潜在兴趣而具有协同推荐的作用。用户群体兴趣挖掘的难点在于对海量用户进行有效聚类。