论文部分内容阅读
Hadoop提供分布式文件系统HDFS以及完善的MapReduce框架,以其开源、易用、低成本的特点得到了广泛的研究和使用.在线问卷调查是一项热门的Web应用,其特点是短时间内产生大量体积近似且结构相近的小文件.基于此种应用场景,文中试图利用Hadoop的分布式处理能力,针对问卷调查的结果处理提出更有效率的SSFM算法,并用实验验证SSFM算法在处理海量小文本时相对Hadoop默认处理策略更有优势.