面向海量文档集的分布式索引构建方法

来源 :网络新媒体技术 | 被引量 : 0次 | 上传用户：whf19

【摘要】

：

Kmeans聚类算法是分布式索引构建中比较有效的文档分割方法。然而，基于单节点Kmeans算法的索引构建方法在应用于海量数据时存在两个问题：初始中心点的选取对于聚类结果的影响较

【作者】

：

王万牙石冰陈驰

【机构】

：

山东大学计算机科学与技术学院,中国科学院信息工程研究所信息安全国家重点实验室

【出处】

：

网络新媒体技术

【发表日期】

：

2016年5期

【关键词】

：

聚类 Kmeans算法 MapReduce计算模型分布式索引 Clustering Kmeans algorithm MapReduce framewor

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Kmeans聚类算法是分布式索引构建中比较有效的文档分割方法。然而，基于单节点Kmeans算法的索引构建方法在应用于海量数据时存在两个问题：初始中心点的选取对于聚类结果的影响较大，聚类结果不稳定；聚类节点容易成为系统运行的瓶颈、文档集合的可扩展性差。针对上述问题，提出一种基于可并行的优化Kmeans算法的索引构建方法，基于样本聚类优化算法初始点的选择，保证聚类结果的稳定性，优化索引分布；同时将聚类的过程并行化，消除系统瓶颈，提升系统效率。实验表明，该方法在索引构建效率和查询结果的准确性方面均较传统方法有显

其他文献

《胜利油田职工大学学报》2006年总目次(第20卷第1～6期/总第76～81期)

<正>~~

期刊

油田职工石油安全石油石化企业孤东井下作业内部审计风险卷第思想政治工作企业员工培训电

名师铸名校教海竞风流——胜利油田职工大学优秀教师集萃(二)

期刊

油田职工钻井泵活塞石油矿场机械石油机械汽车发动机保护开关汽车构造定量加液器华东石油学

利用PDS设计系统进行过程管理与控制

三维工厂设计系统(PDS)是当前世界上最先进的全面工厂设计系统。我公司通过对软件的二次开发,使它能适应国内石化的工程设计,结合旅大油田群开发项目绥中36-1油田终端项目,通

期刊

工厂设计系统PDS三维模型

大型火电机组RB控制功能分析

在分析RB控制系统组成特点及控制过程的基础上,对大型火电机组RB控制功能的实现作了较为详尽的阐述。

期刊

火电机组RB(KUNBACK)系统组成动态过程安全运行

配合多功能土槽试验台用履带模型设计

为了配合自主设计的多功能土槽试验台使用,设计一种适合土槽试验台用的履带模型。该履带模型是模拟实车上的履带轮设计的,具有传动总成、主动轮总成、张紧总成和负重轮总成,

期刊

履带模型设计试验crawler model design test

加强发展呼伦贝尔特殊教育

呼盟地处祖国的北部边陲,是多民族的聚居区,全盟共有32个民族,3个少数民族自治旗,14个民族乡(苏木),残疾儿童7千多人,这些孩子中能接受义务教育的还不足10%,远远低于全国三类

期刊

特殊教育职业技术教育相结合三类残疾儿童呼盟教育中心义务教育残疾学生师资队伍少数民族

特高含水期油田合理注采系统技术政策研究——以胜坨油田坨28断块9-103层系为例

针对胜坨油田坨28断块9-103层系的油藏特点,应用数值模拟技术进行了压力恢复过程中月注采比、采液速度等相关问题的研究,得出了有关的技术政策界限,该研究结果可为油田进行合

期刊

特高含水期注采压力系统合理注采比

新疆乌什6.4级地震形变（应变）异常特征

根据乌什6.4级地震后一年多的前兆观测资料,对这次地震前作者据以预报的前兆异常进行了震后检验。结合一些新获得的资料,重点分析了这次地震的形变-应变异常特征。结果表明,其异常具有多样性、同步性、瞬态性、转折性、波动性以及单方向等特点。作者认为,在震中附近有可能观测到6级以上强震的1×10~(-4)量级的最大应变异常。并对最大异常置级的可靠性以及异常持续时间与震级的关系进行了讨论。

期刊

地震前兆形变异常预报

关于我国当代超常教育的思考

超常教育是针埘智力超常的儿童的旨在培养高索质人才、增强国家的竞争力的特殊教育。无论从教育自身的规律、结构的要求上，还是从国家利益的立场以及从人本主义的立场上来讲，都

期刊

超常教育特殊教育中国人本主义关心培养要求当代自身立场

素质教育的推进与课程改革

<正> 长期以来,受制度、文化、社会传统、发展现状等多方面因素的影响,基础教育以至整个社会出现了'片面追求升学率'的普遍现象。'升学率'和'考分'

期刊

素质教育课程改革中小学教育观念个性发展课程建设教学评价

面向海量文档集的分布式索引构建方法

与本文相关的学术论文