论文部分内容阅读
随着互联网用户数量的快速增长以及电商和微博等社交平台的流行,互联网中的文本数量呈现爆炸性增长。挖掘海量文本信息,具有很大的舆论价值、商业价值和社会价值。例如:分析微博数据有助于政府对热点事件和突发事件进行舆情控制,同时有助于对政策和政治选举进行预测。分析商品评论数据,挖掘消费者意见有助于客户进行商品决策,同时为商家提供产品反馈意见,促进商品质量的提高。目前基于文本情感分析预测算法中,仍然有很多难题待解决。如情感词典存在资源少、时效性弱问题,单分类模型的泛化能力差问题,大规模集成学习在文本分类实验中存在的时间瓶颈问题。针对上述问题,本文展开研究,主要工作及创新点如下:(1)为了提高情感词典的质量,针对已有基准词选取方法的不足和词汇语义倾向计算未考虑正负基准类别个数差异的问题,本文提出了一种剔除异常点的中心向量法来选取基准词并改进了词汇语义倾向计算公式。首先在基准词选取方法上,本文基于邻近度技术查出基准词中的异常点,并将其删除,然后通过中心向量法计算每个情感类别的基准向量来稀释基准词误差,最后根据新词向量和中心向量的相似度计算来标定新词情感极性并添加到情感词典。在词汇的语义倾向性计算中,本文引入了正、负基准向量个数两个参数来改进语义倾向计算公式。实验验证该基准词选取方法配合改进型的语义倾向计算公式能够降低正负基准类别个数差异造成的准确率下滑影响,显著的提高情感词典分类准确率。(2)针对情感分类模型对情感特征的高敏感性和单分类模型的泛化能力差问题,本文提出了基于情感特征优化的集成学习方法。该方法首先以改进型词典为基础,融合中文句法规则、表达习惯等特点,对多个分类器的情感特征进行了优化,然后使用集成学习方法对多个模型进行最优化集成。在NLPCC等多个标准数据集上的实验验证,采用优化特征的多模型集成学习方法在分类效果上得到了很大的提升。(3)针对大规模集成学习在文本分类实验中存在的时间瓶颈问题,本文利用Spark分布式计算框架设计实现了集成学习模型并行化算法,该算法能够充分利用集群的计算性能,在保证文本情感分类指标基本不变的情况下,大幅度的缩短了集成学习文本分类时间,实验验证算法的可拓展性良好,为海量文本集成学习分析提供了新的解决思路。