基于Hadoop平台可扩展的数据处理及复杂网络兴趣挖掘

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:coolsun070279
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据呈现海量式的增长方式,数据规模和数据维度都在不断增加,数据的冗余问题越来越严重,而且用户对于数据的需求也逐渐出现差异化,不同部门或者研究者对于数据的采集及处理需求都存在较大的差异,而目前的数据处理方式往往只能定义一种数据存储模式和特定的数据处理方案,很难提供一种可扩展的数据处理模式,不能良好的应对多变的用户需求。随着数据量的增加,挖掘数据背后真正的价值也变得迫在眉睫,然而人类行为并非纯随机的起源,具有多种关联性和动机性,一般的用户兴趣挖掘技术并不能充分的将用户行为的特性展现出来,更不能映射行为之间的关联性,兴趣挖掘也存在着很大的不足。因此如何高效的、可扩展的进行海量数据预处理,并准确地挖掘用户兴趣成为亟待解决的问题。本文构建一种可扩展的数据处理策略,并将其融合到MapReduce计算框架中,建立了基于Hadoop平台可扩展的海量数据处理模式。其中可扩展的数据处理策略包括可扩展的数据存储结构、插件式的数据处理策略的设计以及与MapReduce框架融合的设计,并通过用户使用PC的行为数据进行了实例验证。数据存储结构按照数据架构层次进行分类存储,减少数据冗余。数据处理结构独立于数据解析程序内容,可针对用户的需求随时进行扩展及删除操作,不需要更改程序内容即可应对用户多变的需求。另外,该处理模式还对异常数据采用了自定义的处理方式,确保数据处理的完整性。经过验证,可扩展的数据处理策略不会降低分布式数据处理的效率,而且还能够实现随时扩展、删除用户对于硬件数据的处理需求,满足用户多变的数据处理需求。从经过本文数据处理模式预处理的结构化数据中抽取用户使用PC软件的数据,并利用复杂网络和行为动力学结合的思想,挖掘用户行为的特性以及行为之间的关联性,以此构建有向加权的复杂网络模型,利用网络模型的拓扑结构映射用户行为的特征。同时还设计了网络模型中的重要节点和网络社区的挖掘的算法,最大程度的依据网络模型特性,挖掘用户兴趣集。实验对比结果表明,所提出的基于复杂网络模型挖掘用户兴趣的算法能够准确地表示用户兴趣,同时在查准率和查全率上较其他算法有一定的提高。
其他文献
随着计算机技术以及人工智能技术的不断发展,智能决策技术在许多领域得到研究和应用,并发挥着越来越重要的作用。本文就是基于人工智能和决策支持系统领域的相关知识和技术,针对
近年以来,大数据处理一直是计算机界研究的热点,特别是云计算、物联网和社交网络等新兴服务的出现,使得各类型的数据呈现爆炸式增长。由于海量数据具有数据量巨大、数据结构复杂
运动跟踪是计算机视觉领域的一个重要研究课题。它是对图像序列中的运动目标进行检测、分类和跟踪,获得运动目标空间位置、速度、加速度以及运动轨迹等参数,并对其行为进行理解
2007年以来云计算成为了IT界的新热点。互联网迅速发展的同时也伴随着处理数据的激增。如何高效的存储和计算海量数据成为计算机科学亟待处理的新问题,而这类问题恰恰是云计算
语音端点检测是语音分析、语音合成和语音识别中的一个重要环节。在实际运用中,通常要求首先对系统的输入信号进行判断,准确的找出语音信号的起始点和终止点。这样才能采集到真
云计算是一种用户可按需分配及自主配置的新型资源池,这种技术可以为用户提供计算、网络、存储等虚拟资源。作为一种为用户提供商业服务的技术,如何合理调度系统资源是云计算
目前社交网络媒体已逐渐取代传统新闻媒体,成为人们获取信息、交流观点、发表意见的主要平台。但是随着微博参与者数量的爆发式增长,用户面临“信息过载,知识缺乏”的窘境。
几乎所有的恶意程序样本都被一个可执行的保护包裹,为了静态分析恶意程序样本,必须先移除可执行保护(称之为软件反保护)。而与此正好相反,为了保护软件的核心技术不被逆向工程和未
联机分析处理(Online Analytical Processing,OLAP)是数据仓库系统中的一种多维数据分析技术,操作的对象是多维数据集。联机分析处理服务器与多维数据展示工具是联机分析处理系
随着信息化进程的不断扩大,人们将面对越来越多需要处理的数据。如何在这样海量的数据信息中便捷快速而又准确地获取所需是其中一个人们所关心的话题,搜索引擎也因此应运而生。