隐式用户兴趣挖掘的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zi198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘作为一种知识发现的手段,得到了广泛的应用,是数据库最活跃的领域之一。Web挖掘就是将传统的数据挖掘技术应用到Web环境中,从Web中抽取信息或知识的过程。在Web挖掘中,基于Web用户的使用信息挖掘的应用最为广泛,应用领域涉及电子商务、网络广告、智能推荐系统、网络营销、智能决策领域。一个好的挖掘模型是Web使用信息挖掘成功的关键。本文主要关注隐式用户兴趣的挖掘。通过对用户访问文档使用数据挖掘技术,我们可以为用户建立一个兴趣模型。进一步的,用户的兴趣模型可以为用户提供个性化的服务。Web使用信息挖掘是Web挖掘的一种,本文首先对Web使用信息挖掘的发展和主要技术进行介绍,尤其关注用户兴趣模型的建立。通过对比文本分类技术和文本聚类技术在用户兴趣建模的应用,我们将提出一个基于文本聚类的用户兴趣模型。数据预处理是为Web挖掘进行数据预处理的阶段。本文将介绍本阶段的一些主要技术,包括日志的过滤和网页正文提取。接下来我们展示了一种基于流水线技术的新的系统集成方法。研究适用于用户兴趣挖掘的文本聚类技术是本文的核心内容。本文首先调研一些主要的聚类算法并展示了它们的各自特点。通过分析用户兴趣挖掘对文本聚类算法的要求,我们最终选择了BIRCH算法对用户访问文档进行聚类,最终建立用户兴趣模型。最后,我们展示了一个基于Myspace中国的用户日志而开发的用户兴趣挖掘系统,并对我们采用的文本聚类算法进行了一些实验。
其他文献
目的观察依托咪酯联合丙泊酚麻醉对耳鼻喉科手术患者血流动力学的影响。方法选择60例20~60岁、ASAⅠ~Ⅱ级耳鼻喉科手术患者,随机分为三组:依托咪酯组(E组)采用依托咪酯诱导和
新冠肺炎疫情防控过程折射出目前高校教育管理在数字化建设进程中存在诸多薄弱和滞后环节,主要包括数据平台不完善、"数据孤岛"现象严重、教育管理队伍数据理念落后等。这些
国际人居环境协会(International Association for Humane Habitat,简称IAHH)宣布:第八届国际学生设计竞赛拉开帷幕,本次竞赛的主题为“廉价住房与可持续人居环境”。竞赛将面向
采用福州地区2013—2018年315个自动站的逐时降水资料,对福州地区1小时≥50mm和3小时≥100mm短时暴雨时空分布和影响天气类型特征进行统计分析。结果表明,福州地区1小时≥50m
随着社会的发展和生活水平的不断提高,人口老龄化已成为世界各国所面临的一个重要公共卫生问题,给医疗卫生事业的发展带来极大的挑战。增龄是发生心血管疾病的一个重要危险因
目的探讨肝脏弹性蛋白(ELN)免疫荧光染色方法的优化,改善肝脏ELN染色效果。方法小鼠肝脏冰冻切片,分别进行常规和优化的免疫荧光染色。优化方法分别是ELN抗体结合蛋白前孵育透
随着公共危机的多发趋势和建设服务型政府要求的日益紧迫,政府公共危机信息公开正成为学界研究热点和公众关注焦点。面对公共危机,政府作为危机治理主体和最大的危机信息源,
目的 观察腹腔镜下非网片治疗盆腔脏器脱垂的疗效和安全性.方法 87例Ⅲ~Ⅳ度盆腔脏器脱垂患者分别采用腹腔镜全子宫切除术联合阴道修补术及不吸收线骶骨固定术(研究组,42例)
随着中国加入WTO脚步的日益临近,中国金融业面临着前所未有的机遇和挑战,是选择走现行的分业经营,还是走国际化的混业经营,一时间成了经济界特别是业内专家争论的焦点.笔者认
以福建省援助林芝地区建设西藏"福建园"园林工程为主线,分析探讨一种比较特殊的园林工程之创作的文化内涵、思想感情、构思、方法和意义.为藏族同胞提供一个全新的、丰富多彩