【摘 要】
:
由于互联网行业的不断发展,随之而来的是大量的数据,因此如何在这些大量数据中获得有价值的知识成为了人们关注的焦点。在所有的数据挖掘算法中,可以利用kNN算法进行数据分类
论文部分内容阅读
由于互联网行业的不断发展,随之而来的是大量的数据,因此如何在这些大量数据中获得有价值的知识成为了人们关注的焦点。在所有的数据挖掘算法中,可以利用kNN算法进行数据分类,随着kNN算法的广泛应用,kNN-join算法随之被提出,算法被广泛的应用在数据挖掘的各个阶段:数据预处理阶段和数据挖掘阶段。然而随着数据量的不断增大,以及人们对操作效率的要求,传统方法已经无法满足,因此产生了基于MapReduce的kNN-join操作。本文对基于MapReduce的kNN-join操作的的各个阶段进行研究,首先,对数据进行预处理,对数据划分算法进行优化,对现有的数据划分算法进行改进,以保证数据均匀划分;其次,为了节约join过程中的开销,使得每个数据划分中的所有元素的最近k个邻居在一个集合内,为每个数据划分寻找种集;最后,为了均衡资源利用率与算法准确率,我们对数据划分进行群组划分。本文使用真实数据与合成数据相结合,对算法进行实验,以证实算法的有效性,实验结果显示,我们提出的算法优于已有算法。
其他文献
中国是肝脏疾病的重灾区,肝硬化的死亡率占癌症死亡率的第二位。B超是肝脏检查的重要手段,B超检查的缺点是诊断结果受医生的主观因素影响较大。基于肝脏B超图像的计算机辅助
随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸”式增长。大量的医学数据以文本的形式被记载在各种医学文献中并存储于数据库,如中医药文献库和MEDLINE数
乐器识别是音频检索的一个重要领域,它既涉及声源的声学属性,也涉及到人耳对音频的感知心理,是深入研究音频检索的基础。乐器识别在科学研究和实际应用中有着重要意义。本文
Web服务(Web Services)实现了跨平台、操作系统和编程环境的互操作,成了当前流行的应用开发平台,进而导致国际互联网络上出现了大量功能相同或相似的Web服务,如何从可能的服
作为一种新型的群体智能算法,微粒群算法源于群居生物行为的启发,具有收敛速度快、搜索效率高的特点,已成功应用于多种优化问题的研究。群机器人是典型的群体智能系统,用于目
在现代社会中,图像检索系统的发展越来越快,系统中所包含的图像越来越多。当今的图像检索特征提取算法主要包括颜色直方图、基于图像的纹理和形状等特征进行提取。颜色和形状
目前已经进入大数据的时代,每天都在产生巨量的数据。对于大数据的处理,滤过分析是对数据的通常处理办法,同时为了得到结果需要进行相应的操作,其中相应的最基本操作即为代数操作
确定事件发生的位置或获取信息的节点的位置是传感器网络最基本的功能之一。随着无线传感器网络研究的深入,其应用愈加广泛,固定的网络结构已无法满足新增应用的需要,移动节
在对社会网的研究中,影响传播问题的研究占有重要地位,一直是人们研究的重点问题。然而现有的大部分研究忽略了一个重要的事实,即地理位置信息对于社会网的影响传播问题是至
随着嵌入式技术、网络技术和通信技术的发展,安防监控系统正在向小型化、移动化、主动化的方向发展,于是主动式的远程家居视频监控将会慢慢流行起来,成为一种趋势。本文采用