基于Spark的海量少数民族文化资源数据挖掘研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:lanhan777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,少数民族文化越来越受到国家和社会的重视,尤其随着信息技术的快速发展,少数民族文化数字化建设的力度也越来越大,各类民族文化信息资源不断涌现。然而,面对数量庞大、内容丰富、结构复杂的少数民族文化资源数据,如何快速、准确地发现、获取和利用有价值的信息,成为当前少数民族信息化发展亟待解决的问题之一。本文将大数据处理技术与数据挖掘技术相结合,对海量的少数民族文化资源数据挖掘方法进行了研究,为促进少数民族文化的保护和传承提供有效途径。主要研究内容包括:(1)少数民族文化资源预处理。少数民族文化资源主要以文本的方式分布在各民族地方网站,本文利用网络爬虫技术爬取各民族网站数据,再对获取的文本资源进行预处理,去除数据中的HTML格式,最后对纯文本资源进行分词、去除停用词、生成文本向量特征,构建一个文本向量特征模型。(2)基于Spark的粒子群算法(Particle Swarm Optimization,PSO)和k-means算法并行化。针对单机环境下数据处理效率的不足,通过引入Spark分布式计算法框架,对PSO和k-means算法进行并行化实现。并在PSO算法的并行化过程中,通过线性参数的方式降低固定权重参数的影响,进一步提升并行化的运行效率。(3)基于Spark的PSO-kmeans算法并行化研究。为了克服k-means算法聚类中心不确定的局限性,通过引入粒子群算法,快速确定k-means算法的聚类中心,提出一种基于Spark的PSO-kmeans算法。该算法针对粒子群算法容易陷入局部最优的缺陷,引入线性参数的方式加快搜索速度,从而快速获得聚类中心。实验表明,PSO-kmeans算法在降低运行时间的同时,保证了算法的稳定性,并且在少数民族文化资源聚类任务中,准确率提高了3.4%。(4)海量少数民族文化资源数据挖掘原型系统实现。在对少数民族数据资源挖掘原型系统各功能分析的基础上,设计少数民族数据挖掘平台,采用B/S结构的方式设计并实现了数据采集,数据处理和数据分析等功能。
其他文献
目的探讨外源性甘氨酸对金黄色葡萄球菌苯唑西林耐药水平及femA表达的影响。方法用琼脂平皿对倍稀释法检测不同浓度甘氨酸下苯唑西林对30株金黄色葡萄球菌的MIC值,用实时荧光
如今,随着科技的不断发展,人们对大规模甚至超大规模的多处理机系统的需求越来越大。这些大规模多处理机系统都是通过一定的组织结构将系统内的结点互连起来的,所以互连网络是系统内部的协同机制和主要的通信途径,是多处理器计算机的重要组成部分。多处理机系统中结点的不断增加,会导致系统的稳定性下降,系统中结点数目越多,出现故障的概率就越高。快速有效的诊断出故障结点机显得尤为重要。传统的故障诊断方法是使用专门的故
车辆电气系统是由硅整流发电机和蓄电池并联组成,是一个非线性、不对称系统,因而它的动态性能与通常的电力系统有很大不同,本文试图给出车辆电气系统的动态性能仿真法.文中分
以某市卫星遥感图像分析系统后台的海量空间数据库为背景,以实用性和高可用性为目标,阐述系统存储架构的设计和功能实现,介绍该系统数据库优化方案的设计以及数据库备份、恢复策略的制定,并采用跨地域的Data Guard松散连接的技术实现了数据库容灾方案,同时对该系统未来的发展趋势进行了分析。
由于根据目前方法调用之间的“线索”或方法调用的相互关系恢复出的用例模型存在一定的局限性,该文提出了一种基于动态信息并结合静态信息的用例模型恢复方法。该方法以动态