基于互联网访问日志的用户特征分析研究

来源 :东华大学 | 被引量 : 7次 | 上传用户:BlueHeart2010XP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网已经成为人们不可或缺的信息来源。网络信息资源的爆炸性增长导致信息过载问题日益严重,互联网上的信息量大大超出互联网用户的需要,大量无关的信息严重干扰了用户对有户用信息的准确选择。海量的信息资源供给和有限的用户需求之间的矛盾,使得我们必须寻求一种能够快速、准确地从浩瀚的信息资源中找到所需信息的方法。正是在这样的需求驱动下,个性化服务技术应运而生,个性化服务是一种有针对性的服务方式,依据各种渠道对资源进行收集、整理和分类,向用户提供和推荐兴趣信息,以满足用户的需求。作为个性化服务技术的核心内容之一,用户特征分析的目标是分析用户的兴趣爱好、行为等特征信息,用户特征分析是否准确在很大程度上影响和决定个性化服务系统所提供的服务质量。运营商在为用户提供互联网访问服务时,往往会存储用户的访问日志数据。这些访问日志蕴藏着丰富的用户特征信息。本文以某运营商的互联网访问日志数据为基础,通过对其进行分析挖掘,从中得到用户的兴趣特征。本文的工作成果主要有如下四个方面:(1)提出了基于MapReduce的用户特征项提取并行化算法。该算法以用户的访问页面内容为基础,依据词条在文档中权重提取出用户特征关键词。本文详细介绍了该算法的并行化设计,并且在Hadoop上进行了实现。(2)给出了具有相似特征的用户的挖掘算法。该算法首先对用户的访问页面进行聚类,然后根据聚类的结果计算用户兴趣特征相似度。本文用MapReduce、Mahout以及Hive提出了算法的并行化实现策略,在Hadoop平台上实现了该算法。(3)提出了基于互联网访问日志的独立用户识别算法。该算法综合利用访问日志中IP、UserAgent、Cookie等字段分析用户访问规律,采用先细分再合并的思路对访问口志进行分析。依据该思路,本文首先识别出独立浏览器的日志,然后通过帐号关联将浏览器日志合并成独立用户的日志,实现了对用户的识别。(4)给出了基于互联网访问日志的用户特征分析系统设计方案和实现。在本文的设计方案中,用户特征分析系统由日志预处理、文本预处理、用户特征分析等三大模块组成。本文详细设计了其中各个模块及其子模块的功能及其实现。
其他文献
随着人与自然矛盾的突出和演变,构建社会主义和谐社会的战略目标、生态环境问题的妥善解决逐渐提上日程。发展经济高效、生态平衡的产业,建立社会和谐、生态健康的环境,从而
财会是一科实践性很强的学科,对于学生的发展有很大的作用,而会计实训就是一种实践,提高学生的实践能力,是财会学科的灵魂。因此,在中职财会教学中,需要开展相应的会计实训练
项羽和刘邦两个人都是历史上有名的英雄人物,但是在楚汉相争中一个乌江自刎,另一个却成了一代帝王,究其原因可以说有很多,这里从用人的智慧、政治手段和性格因素三方面来分析
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
影响铁路工务线路养护与维修工作实施的因素有许多,这些因素都可能对铁路工务线路养护维修工作带来很大的影响。对铁路工务线路养护问题进行初步的研究,并提出一些有效的实施
结合创新全过程工程咨询理念,以高校人才培养视角为主,对相关专业高校毕业生与企业进行调研,旨在进一步分析新形势下企业专业人才需求变化,紧贴行业发展,以及时向行业输送时
建立和完善社会保障制度是国家促进经济与社会可持续发展的重要手段。针对我国目前社会保障基金缺乏稳定性的现状,应加快法律制度的完善,加快财务制度和审计制度的改革,健全
加强东、中、西部的经济交流与合作,实现优势互补和共同发展,形成具有若干特色经济区域和经济带是我国区域经济协调发展的核心。在如何推动区域经济整体协调发展问题上,许多地方
陕西是煤炭资源开发大省,有着非常富饶的煤炭资源。近年来,煤炭资源的大规模开发在促进陕西经济快速发展的同时,也使原本脆弱的生态环境受到日益严峻的考验。陕西省已探明煤炭资
片上系统(SoC)功能的不断增强,设计复杂度和难度的不断增加以及产品上市周期的日益缩短,使得处理器仿真技术得到了越来越多的重视。处理器仿真不仅在硬件设计阶段可作为处理器功