论文部分内容阅读
近年来,少数民族文化越来越受到国家和社会的重视,尤其随着信息技术的快速发展,少数民族文化数字化建设的力度也越来越大,各类民族文化信息资源不断涌现。然而,面对数量庞大、内容丰富、结构复杂的少数民族文化资源数据,如何快速、准确地发现、获取和利用有价值的信息,成为当前少数民族信息化发展亟待解决的问题之一。本文将大数据处理技术与数据挖掘技术相结合,对海量的少数民族文化资源数据挖掘方法进行了研究,为促进少数民族文化的保护和传承提供有效途径。主要研究内容包括:(1)少数民族文化资源预处理。少数民族文化资源主要以文本的方式分布在各民族地方网站,本文利用网络爬虫技术爬取各民族网站数据,再对获取的文本资源进行预处理,去除数据中的HTML格式,最后对纯文本资源进行分词、去除停用词、生成文本向量特征,构建一个文本向量特征模型。(2)基于Spark的粒子群算法(Particle Swarm Optimization,PSO)和k-means算法并行化。针对单机环境下数据处理效率的不足,通过引入Spark分布式计算法框架,对PSO和k-means算法进行并行化实现。并在PSO算法的并行化过程中,通过线性参数的方式降低固定权重参数的影响,进一步提升并行化的运行效率。(3)基于Spark的PSO-kmeans算法并行化研究。为了克服k-means算法聚类中心不确定的局限性,通过引入粒子群算法,快速确定k-means算法的聚类中心,提出一种基于Spark的PSO-kmeans算法。该算法针对粒子群算法容易陷入局部最优的缺陷,引入线性参数的方式加快搜索速度,从而快速获得聚类中心。实验表明,PSO-kmeans算法在降低运行时间的同时,保证了算法的稳定性,并且在少数民族文化资源聚类任务中,准确率提高了3.4%。(4)海量少数民族文化资源数据挖掘原型系统实现。在对少数民族数据资源挖掘原型系统各功能分析的基础上,设计少数民族数据挖掘平台,采用B/S结构的方式设计并实现了数据采集,数据处理和数据分析等功能。