基于Mahout的相似重复数据清洗策略研究

来源 :科技与创新 | 被引量 : 0次 | 上传用户：melaniezhao

【摘要】

：

针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类

【作者】

：

李碧秋王佳斌

【机构】

：

华侨大学工学院

【出处】

：

科技与创新

【发表日期】

：

2020年20期

【关键词】

：

数据清洗 K-MEANS 相似重复记录文本聚类

【基金项目】

：

华侨大学研究生科研创新基金资助项目(编号:18014084003)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类检测相似重复记录,有效提升重复数据清洗速率。实验结果表明,该方法在保证较高查全率与查准率的同时,比传统相似重复数据清洗算法更具有扩展性,这对大数据的处理有较强的实用意义。

其他文献

啤酒灌装增氧量的控制

本文不灌装机在啤酒灌装时氧含量的增加，通过抽气速度的计算合理选择真空泵，保持较高的灌装真空度和减少灌装后至压盖前的瓶颈空气，从而减少啤酒中的氧含量来达到最小灌装增氧量

期刊

啤酒灌装增氧量控制

叶面喷施硒肥对不同品种小麦产量及籽粒硒含量的影响

为研究叶面喷施硒肥对小麦产量和小麦籽粒硒含量的影响,本研究以130份小麦品种(系)为材料,于2012~2013和2013~2014小麦生长季,分别在小麦孕穗后期叶面喷施亚硒酸钠肥料,分析

期刊

小麦叶面喷施硒肥品种硒含量Wheatspray the leaf with selenium fertilizercultivated varietie

蜜饯生产中影响渗糖主要因素的研究

本文对渗糖过程及其影响因素进行了比较全面的研究。首先，探讨了新法糖子姜生产工艺及其条件。其次，对不同浓度、不同温度的糖液在子姜中的分子自然扩散过程以及经不同压力糖煮

期刊

生姜调味品扩散渗透蜜饯渗糖

输变电工程水土保持在线监测系统关键技术研究

水土环境监测是提高输变电工程质量的重要手段,通过采集工程实施中水土保持相关信息,以此监督工程实施期间水土结构遭受冲击情况,从而避免工程水土环境遭受影响,埋下安全隐患

期刊

输变电工程水土环境监测在线监测系统水土保持

基于非劣排序遗传算法的轨道电路维修策略优化分析

针对ZPW-2000A的运行稳定性与投入的维修成本,并构建以ZPW-2000A系统维护费及平均可靠性作为综合优化目标的优化模型。研究结果表明:当系统平均可靠性提高后,维修费也随着上

期刊

ZPW-2000A维修策略NSGA可靠性ZPW-2000Amaintenance strategyNSGAreliability

船舶电磁干扰问题研究初探

针对船舶电磁兼容性问题的介绍,对于船舶无人机舱中涉及DC-C20、k-chief500系列的监视报警系统的控制、报警点开关量和模拟量以及脉冲数字信号等的传输中存在的电磁干扰现象,

期刊

船舶电磁干扰无人机舱电力电站

拉床构件的有限元分析及拓扑优化设计

利用有限元分析和拓扑优化技术,对拉床墙板结构进行了优化设计。建立墙板结构的有限元模型并进行前处理,结合墙板的实际工况,分析其应力应变分布和前四阶模态情况。利用LMS振

期刊

拉床有限元拓扑优化Broaching toolFEMmodal validating

丙二醇脂中羟基值检测方法的探讨

期刊

丙二醇脂羟基值检测

健康中国背景下平顶山市全民健身活动发展现状与完善策略研究

“十三五”时期,体育工作机遇与挑战同在,一方面,十八大以来党中央、国务院高度重视体育事业发展,并对全民健身与全民健康做出了战略部署;另一方面,随着人民群众健身意识的加强,通过参与体育活动强身健体的愿望空前强烈、热情日益高涨。上述两个方面的因素,为全民健身事业的快速发展提供了新的机遇。在全民健身上升为国家战略的大背景下,响应中央《“健康中国2030”规划纲要》,落实十九大报告中提出“广泛开展全民健身

学位

平顶山市全民健身现状对策

疫情防控期间高职学生日常应急处置管理工作探析——以苏州市职业大学机电工程学院为例

随着高校陆续复课复学,疫情防控期间高职学生的日常管理呈现出一些新特点。在封闭式管理模式下,高校学生的日常管理工作成为了高校学生工作中的重点和难点。了解疫情防控期间

期刊

疫情防控高职学生应急处置特殊化管理

基于Mahout的相似重复数据清洗策略研究

与本文相关的学术论文