基于用户访问行为与内容的用户聚类算法的研究与实现

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:skyaixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,面向互联网的应用产品不断丰富。面对众多产品,用户往往更加偏好那些功能明晰且符合用户使用习惯的产品。用户的访问特点具有非常重要的应用前景,如用户行为预测、个性化推荐等。因此,对用户行为数据进行挖掘找出用户的访问特点已经成为了学术界与工业界一个共同的研究热点。目前,已经出现了很多研究网络用户行为的方法。但是,大多研究文献的作者只是单独对用户的访问行为进行研究,少量涉及到访问内容的文献却只是针对某些特殊的领域,如电子邮件。因此,本研究将把用户访问行为和用户访问内容结合起来研究,以获得更为准确的用户访问特点。这里的访问内容是指用户访问的网页中的文本内容。在本文中,我们针对真实的网络用户,采集了大量的用户行为数据和网页内容。针对这些繁杂数据,本文提出了网络用户基于访问行为和内容的用户聚类算法。该算法中,首先利用向量空间模型的思想,得到基于访问内容的用户特征向量。然后,在提出用户访问兴趣度的前提下,把用户访问兴趣度和基于访问内容的特征向量结合起来获得基于访问行为和访问内容的综合特征向量。最后,在此基础上设计并实现了非正则谱聚类算法。由于特征向量具有较高的维度且存在大量数值为0的特征,本文还设计了一种高效的用户特征向量的存储和计算方法,降低了特征向量存储的空间复杂度。通过大量的实验,我们发现我们的基于用户访问行为和访问内容的方法比单独基于用户访问行为和单独基于用户访问内容的方法在发现用户的访问行为特点上有更好的效果。
其他文献
我国高等教育在规模上已经跃居为世界第一,但高等教育质量却较低。导致我国高等教育质量低下的原因有多方面,但高校特别是公立高校的行政化是我国整体高等教育质量低下的重要
实验通过人—机界面 ,对中学生解决几何问题策略的基本特征进行探讨。对学习成绩优、差学生 ,在解决问题的程序上和解决问题结果的正确与错误上的差异比较后显示 :学习成绩优
人文关怀是一个古老而又长青的话题,就人文关怀而言,其本身就具有丰富的内涵,但终究离不开一个人字。思想政治教育作为培养人、完善人的教育活动,它的出发点和归宿点都是人,
本文通过对平度宗家庄木版年画现状调查与研究,探寻平度宗家庄木版年画的发展过程和它在当今的现状,以及平度年画今后的发展趋势,在认识和了解民间艺术精彩与非凡的同时,呼吁保护
以问卷调查为主要形式,辅以人物访谈,对扬州不同地区进行调研,根据当前农村公共信息服务的现状,分析存在的问题及其原因,并提出农村公共信息发展策略,构建扬州市农村公共信息
作为一名人民教师,热爱和关心学生是教师的天职,是进行教育工作、教书育人的基础与前提。假如教师没有真诚的爱,就等于没有成功的教育。后进生是教学中的特殊群体,新课改倡导
本文介绍了高中地理概念性知识的内涵及其特征,重点分析了高中地理必修课程的概念性知识体系,并提出了相应的教学策略。
本文立足于现代信息技术,结合酒店业务流程的特点,提出了建立以流程为核心的酒店协同工作平台和以客户为中心的外部商务平台的再造方案,为酒店业务流程再造提出了新的思维模
本文从商品使文化得以广泛传播的角度,透视了商品文化在价值传播中的作用。提出文化需求作为消费者需求的有机组成部分,影响着消费者对物品与劳务选择的方向;商业文化作为商
中国与巴基斯坦是传统的友好国家,进入21世纪,在国际格局深刻变革、大国南亚战略不断调整的大背景下,中巴两国友好关系取得了怎样的新进展,如何定位中巴两国关系?中巴两国友