【摘 要】
:
随着网络应用日益深化,数据正以前所未有的速度不断增长积累。但在原始数据收集过程中,由于采集节点故障和网络传输不稳定等原因,都将产生数据不完整性。数据的不完整性使得
论文部分内容阅读
随着网络应用日益深化,数据正以前所未有的速度不断增长积累。但在原始数据收集过程中,由于采集节点故障和网络传输不稳定等原因,都将产生数据不完整性。数据的不完整性使得数据难以被建模和学习,尤其在大数据集下,不能解决缺失数据值的填充问题就难以有效挖掘大数据潜在价值。因此,对不完整数据进行分析填充具有重大研究意义。传统数据填充方法大多利用整个数据集对缺失数据值进行填充,没有充分考虑数据对象的类别特征,使得填充值容易受到不相关数据干扰。而且现有的数据填充方法时间复杂度高,不具有分布式特性,不适合大数据集的数据填充处理。针对这些问题,本文首先提出一种基于MapReduce的不完整数据减法聚类算法,算法改进减法聚类数据点间距离度量方式,对不完整数据集直接聚类。为提高聚类算法执行效率,利用矩阵相乘思想改进减法聚类过程中求解数据点间距离过程,并实现多级MapReduce并行化。然后提出一种基于分布式减法聚类的不完整数据填充算法,算法利用基于属性重要性的属性权重得到含有缺失值数据点与其他数据点间距离加权系数,并利用加权系数和减法聚类结果对缺失数据属性值填充,避免其他类中数据对象对填充值的干扰。最后利用物联网相关技术搭建桥梁监测系统仿真实验环境,并对桥梁监测数据采集与汇总传输过程进行优化,得到桥梁监测大数据,进而利用本文提出算法对桥梁监测不完整大数据填充处理。实验结果表明,本文算法能够对不完整大数据进行快速聚类,同时能够对缺失数据值有效填充,满足大数据处理的要求,具有一定的理论研究意义与实际应用价值。
其他文献
究竟何为“意义”的意义,语言哲学家们对于这个问题的回答并未做出过明确统一的界定,原因是意义概念本身就既有主观性又有客观性,所以迄今为止语言哲学家未能就意义的意义真
称谓语包含了繁多的种类和广泛的内容,例如亲属称谓、职业称谓、人名称谓等等,这些称谓语在社会交往行为中起着重要作用。本文着重对其中的人名称谓词汇以及人名称谓词汇的演
在人类生活世界,人权价值是最能体现人的本质的价值尺度。人权价值作为一种正当性价值,是始源性价值、低限价值、构成性价值和多样性价值的统一。在人类发展的历史进程中,理
任何一门外语(或二语)的学习都必然涉及到成百上千单词的学习和记忆。这些单词显然很难全部通过直接教学介绍给外语学习者。一般认为,单词习得的主要途径是透过外语资料的阅
<正>大连市第五中学始建于1957年,是西岗区的一所完全中学。现有40个教学班,22个初中班,18个高中班,学生总数近1500人。多年来,学校秉承"以人为本,以德树人,以质立校,以特色
选取中国1995—2015年间125份海洋可再生能源产业政策文本,按照政策数量、发布形式、政策主体、政策内容4个维度进行量化分析,基于政策工具-产业链视角对政策内容进行分析。
目的探究消毒供应中心应用质量追溯系统的效果。方法为了探究质量追溯系统对于消毒供应中心的应用价值,进行了对比研究,将消毒中心的20名工作人员作为对照组,未使用质量追溯
今年6月,冒着酷暑,中国·丝绸之路集团董事长、国家丝绸协会常务理事、浙江省丝绸协会副会长凌兰芳又一次踏上去宁南的路程,他去了解宁南春茧生产情况,已延续三年。$$ 三
水资源是人类社会不可替代的自然和环境资源,是可持续发展的基础条件。经济社会的快速发展和人口的增长,以及水污染问题的日益加重,使水资源短缺成为制约我国经济持续健康快速发
在灾难新闻报道中,我国主流媒体习惯将民族文化中的原型意象融入到新闻的叙述话语以唤醒受众的集体无意识,发挥群体在场的精神凝聚作用。但是,随着我国社会价值观念的日益多