论文部分内容阅读
随着数据呈现海量式的增长方式,数据规模和数据维度都在不断增加,数据的冗余问题越来越严重,而且用户对于数据的需求也逐渐出现差异化,不同部门或者研究者对于数据的采集及处理需求都存在较大的差异,而目前的数据处理方式往往只能定义一种数据存储模式和特定的数据处理方案,很难提供一种可扩展的数据处理模式,不能良好的应对多变的用户需求。随着数据量的增加,挖掘数据背后真正的价值也变得迫在眉睫,然而人类行为并非纯随机的起源,具有多种关联性和动机性,一般的用户兴趣挖掘技术并不能充分的将用户行为的特性展现出来,更不能映射行为之间的关联性,兴趣挖掘也存在着很大的不足。因此如何高效的、可扩展的进行海量数据预处理,并准确地挖掘用户兴趣成为亟待解决的问题。本文构建一种可扩展的数据处理策略,并将其融合到MapReduce计算框架中,建立了基于Hadoop平台可扩展的海量数据处理模式。其中可扩展的数据处理策略包括可扩展的数据存储结构、插件式的数据处理策略的设计以及与MapReduce框架融合的设计,并通过用户使用PC的行为数据进行了实例验证。数据存储结构按照数据架构层次进行分类存储,减少数据冗余。数据处理结构独立于数据解析程序内容,可针对用户的需求随时进行扩展及删除操作,不需要更改程序内容即可应对用户多变的需求。另外,该处理模式还对异常数据采用了自定义的处理方式,确保数据处理的完整性。经过验证,可扩展的数据处理策略不会降低分布式数据处理的效率,而且还能够实现随时扩展、删除用户对于硬件数据的处理需求,满足用户多变的数据处理需求。从经过本文数据处理模式预处理的结构化数据中抽取用户使用PC软件的数据,并利用复杂网络和行为动力学结合的思想,挖掘用户行为的特性以及行为之间的关联性,以此构建有向加权的复杂网络模型,利用网络模型的拓扑结构映射用户行为的特征。同时还设计了网络模型中的重要节点和网络社区的挖掘的算法,最大程度的依据网络模型特性,挖掘用户兴趣集。实验对比结果表明,所提出的基于复杂网络模型挖掘用户兴趣的算法能够准确地表示用户兴趣,同时在查准率和查全率上较其他算法有一定的提高。