面向海量文档集的分布式索引构建方法

来源 :网络新媒体技术 | 被引量 : 0次 | 上传用户:whf19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Kmeans聚类算法是分布式索引构建中比较有效的文档分割方法。然而,基于单节点Kmeans算法的索引构建方法在应用于海量数据时存在两个问题:初始中心点的选取对于聚类结果的影响较大,聚类结果不稳定;聚类节点容易成为系统运行的瓶颈、文档集合的可扩展性差。针对上述问题,提出一种基于可并行的优化Kmeans算法的索引构建方法,基于样本聚类优化算法初始点的选择,保证聚类结果的稳定性,优化索引分布;同时将聚类的过程并行化,消除系统瓶颈,提升系统效率。实验表明,该方法在索引构建效率和查询结果的准确性方面均较传统方法有显
其他文献
<正>~~
三维工厂设计系统(PDS)是当前世界上最先进的全面工厂设计系统。我公司通过对软件的二次开发,使它能适应国内石化的工程设计,结合旅大油田群开发项目绥中36-1油田终端项目,通
在分析RB控制系统组成特点及控制过程的基础上,对大型火电机组RB控制功能的实现作了较为详尽的阐述。
为了配合自主设计的多功能土槽试验台使用,设计一种适合土槽试验台用的履带模型。该履带模型是模拟实车上的履带轮设计的,具有传动总成、主动轮总成、张紧总成和负重轮总成,
呼盟地处祖国的北部边陲,是多民族的聚居区,全盟共有32个民族,3个少数民族自治旗,14个民族乡(苏木),残疾儿童7千多人,这些孩子中能接受义务教育的还不足10%,远远低于全国三类
针对胜坨油田坨28断块9-103层系的油藏特点,应用数值模拟技术进行了压力恢复过程中月注采比、采液速度等相关问题的研究,得出了有关的技术政策界限,该研究结果可为油田进行合
根据乌什6.4级地震后一年多的前兆观测资料,对这次地震前作者据以预报的前兆异常进行了震后检验。结合一些新获得的资料,重点分析了这次地震的形变-应变异常特征。结果表明,其异常具有多样性、同步性、瞬态性、转折性、波动性以及单方向等特点。 作者认为,在震中附近有可能观测到6级以上强震的1×10~(-4)量级的最大应变异常。并对最大异常置级的可靠性以及异常持续时间与震级的关系进行了讨论。
超常教育是针埘智力超常的儿童的旨在培养高索质人才、增强国家的竞争力的特殊教育。无论从教育自身的规律、结构的要求上,还是从国家利益的立场以及从人本主义的立场上来讲,都
<正> 长期以来,受制度、文化、社会传统、发展现状等多方面因素的影响,基础教育以至整个社会出现了&#39;片面追求升学率&#39;的普遍现象。&#39;升学率&#39;和&#39;考分&#39;