大规模字符串连接的并行化研究与应用

被引量 : 1次 | 上传用户:zhusanhuiit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,信息的传递日益频繁,海量的信息使得个人的接受能力严重超载。如何能够从这些海量信息中准确、快速获取所需内容成为一个急需解决的问题。字符串相似性连接技术是最为有效的解决办法。字符串相似性连接在现实应用中具有深远的意义。它在文本检索、生物信息学、信号处理、入侵检测等领域有着广泛的应用。本文重点研究如何高效地处理大规模字符串相似性连接的问题,并针对该问题提出了两种并行化的解决方案。本文首先深入研究了字符串相似度连接技术,将衡量字符串相似度多种方法,根据处理对象的不同分成了两类,并结合实际的例子展示了算法的计算的过程、结果,以及相似度的计算公式及应用领域。介绍了已有的相似度连接方法,根据算法的处理策略将它们分为两类,接着探讨了这些算法在处理大规模字符串相似性连接问题时的优缺点,进而提出了更加高效的字符串的并行化连接方法。本文的主要贡献有:(1)深入研究了字符串相似性连接过程中所涉及的相关概念及技术,分析发现,现有方法在处理大规模字符串相似性连接问题时效率较低,且容易出现内存不足等问题。(2)提出了一种新的基于内存的并行化连接算法——Para-Join。首先根据每个字符串的区间向量将数据集划分成若干个不相交的子集。为了实现单个子集的连接和两个不同子集间的连接,本文还提出了两种基于划分框架的算法Para-RR和Para-RS。Para-Join算法不仅能保证结果的完整性而且也不会带来冗余计算。它通过多线程编程来实现并行化的字符串连接,提高了字符串相似性连接的效率。(3)针对Para-Join算法无法解决内存不足的问题。本文在Para-Join的基础上提出了一种基于Spark框架的并行化连接算法——Spss-Join,该算法弥补的Para-Join的不足:Spss-Join算法能够自动获取token集而且不需要明确指出线程数量,交由Spark框架自行处理,使得Spss-Join算法更加灵活,能够适应更多的应用和环境;Spss-Join算法解决了内存容量对数据集大小的限制,能有效的处理大规模的数据。(4)结合Para-Join与Spss-Join算法设计并给出了一个基于Spark框架的用于并行化字符串相似性连接的系统原型。理论分析和实验结果表明相比已存在的方法Para-Join是一种更加高效的算法,Spss-Join不仅继承了Para-Join的高效性,同时也使得对于大规模字符串的处理成为了可能。
其他文献
<正> 我们对呈示问题的考察说明情节的叙事方面以特殊的手段操纵着故事的时间。更概括地说,经典的叙事运用有特征的策略去操纵故事的顺序和故事的持续时间。这些策略调动了观
随着治理理论成为公共管理理论的新发展,"治理"成为政治学、经济学、管理学等学科领域的热门词汇;比较分析人类社会三大组织体系治理方式的异同,有利于加深对治理理论的认识
随着液晶显示智能化、自动化的迅猛发展,液晶显示器现已广泛应用于电子表、数码相机、工业控制计算机等领域。以AT89C51单片机为核心,构建了一个液晶数字显示系统,可实现图像
制定法律、实施法治的目的,是为了更好保护公民的自由和权利,法律的人文关怀品质是人们认同和希望法治的重要因素。对社会中个体权利的尊重和保障,尊重个体的人格尊严,体现人
根据我国动漫文化创意产业发展的现实状况,从动漫文化创意产业投入、产出、发展环境三个方面,构建动漫文化创意产业发展指数指标体系,运用PLS方法对回归方程进行估算,验证动
黑龙江大豆收获基本结束,新大豆收购价格达到4.00~4.10元/kg,目前,农民惜售、观望心理较重,市场依然持续有价无市。在种植成本增加、国内外大豆供给减少、豆类市场需求旺盛的
对农村地籍的测绘模式进行研究 ,内容主要有农村地籍的内涵和农村地区分类 ;农村土地权属单元的划分与所需的精度指标 ;农村地籍的测绘方式 .最后提供若干结论
中国数字音乐市场目前呈现出明显的长尾市场的特征,网络平台为数字音乐提供了无限大的存储空间、无限低的存储成本和极为迅速的流通渠道。通过在正版音乐网站中开辟专区,由音
两个"历史决议"在实现马克思主义中国化的同时,成功实现了从革命话语体系到建设话语体系的转变,"革命"、"路线"等政治话语被赋予不同内涵,"俄式"语境也实现了时代化转换。
手足口病传染性强,近年来发病率在我国有上升趋势,了解手足口病的症状、预防措施及治疗有助于控制本病的流行,降低病死率。本文综述了近年来本病的预防及治疗进展。