论文部分内容阅读
近些年来,随着web2.0技术的产生和飞速发展,尤其是诸如电子商务、博客、论坛、微博等许多新兴互联网平台的出现,越来越多的用户习惯于在这些网络平台上发表自己的观点,表达自己的感受。而随着网络用户量的不断增加,产生的用户评论数量也呈爆炸式增长,仅凭用户来翻看这些评论以获取有价值的信息,变得不切实际。因此,一个新的用来帮助用户对海量评论进行分析甄选,从中抽取出有价值的信息的研究方向应运而生,即“情感分类”。在情感分类研究中,用的最多的也最有效的方法是基于机器学习的方法。在基于机器学习方法的情感分类研究中,最重要的环节是有效特征的提取。在前人的研究中,往往只考虑了浅显的词汇特征和句法特征,而忽略了对于隐含的语义特征的提取。针对此问题,本文主要进行了以下三个方面的研究:1)本文利用word2vec可以获取语义联系的特性,首先对文本语料库进行了相似特征聚类的实验,将语料库中描述同一个产品特征的词语进行了聚类,方便后续的情感分类研究工作可以获得良好的分析总结。实验结果表明,利用word2vec可以很好地将语料库中的相似特征提取出来,并聚合为同一产品特征簇。2)本文提出了基于word2vec和SVMperf的中文文本情感分类研究方法。方法利用word2vec的特性,将文本中的词汇表示为向量空间中的高维向量,通过对这些词向量进行余弦相似度的计算,从而获得词汇之间在语义上的相似度,然后将这些向量作为语义特征,用SVMperf分类模型进行训练,得到最终的分类结果。实验结果表明,此方法可以获得较好的分类结果。3)为了进一步提升分类的正确率,本文又在上述情感分类方法的基础上,在提取特征时,考虑了否定词、程度词和转折词等上下文结构特征,再结合语义特征,一起作为有效特征用SVMperf训练和测试。实验结果表明,结合了上下文结构特征的情感分类方法可以获得更佳的分类效果。最后,本文将情感分类算法与具体应用相结合,开发了一套股票分析系统。系统主要通过对股民评论的情感指数与股票价格走势的分析对比,判断两者有无相关性。