论文部分内容阅读
随着互联网的发展,人们越来越多的在网络上表达自己的观点与情感。面对如此大量数据的主观性文本,通过人工阅读的方法来分析这些文本中的情感信息需要耗费大量的时间。情感分析在这种情况下应运而生,并在自然语言处理研究领域得到了广泛的关注。文本情感分类是情感分析研究中最基本的一个研究任务,旨在自动区分主观文本对于某个主题的情感色彩。情感色彩类别一般分为正类和负类两种。研究发现,机器学习的方法在情感分类中可以取得很好的效果。机器学习方法通过标注大量文本的情感类别,把这些标注好的文本作为训练集,最后训练得到一个分类模型。但是,标注大量的情感文本是一件费时费力的事情。因此,如何在保证理想的分类性能的情况下尽量减少标注样本是一件很有意义的工作。本文主要针对情感文本分类中主动学习方法的研究,开展了以下几方面的研究内容:首先,本文分析不同因素在情感分类中对于主动学习方法的影响,这些因素包括不确定性、代表性、差异性和特征信息量。具体来讲,通过分类器对测试样本的分类结果的确信程度作为不确定性的衡量标准;将预先聚类作为代表性因素的加入;通过计算未标注样本与已标注样本的距离衡量差异性;通过样本包含的特征数目衡量特征信息量的大小。实验详细分析了各种因素的优劣。其次,观察语料发现,语料中正负样本数量往往是不平衡的,不平衡的标注文本会严重降低分类器的性能。传统的主动学习方法在不平衡语料中挑选到的语料还是不平衡的,并不能很好的解决这种情况。因此,在语料不平衡时,主动学习方法的研究具有重要的应用价值和充分的挑战性。本文结合传统的主动学习方法的优势,即考虑文本的信息量,同时兼顾样本的平衡性,提出了基于特征子空间分类器的协同选择策略,较好解决了不平衡情感分类中的主动学习问题;在此基础上,我们发现多类样本的自动标签的正确率很高,无需过多的人工干预,进而提出多类自动标注的协同选择策略,进一步降低了样本的标注量。最后,本文研究了词与文档同时标注的主动学习方法。相对于文章,词的标注代价较小。而且,由于许多词包含了强烈的情感色彩,所以标注情感词会对分类模型有帮助。本文统计了标注文本和词的标注开销代价比,提出了衡量词的信息量与文本的信息量的方法,综合考虑信息量和标注开销,词与文本共同排序,最后挑选排序最前的文档或者词进行标注。此外,半监督学习也是一种减少标注样本的方法,挑选优质种子样本可以很好的提高半监督方法性能。词与文档同时标注的方法是解决这一问题的一种途径。实验证明,词与文档同时标注的主动学习方法相对于传统的主动学习方法具有更好的效果。同时,词与文档同时标注也很好解决了半监督学习中的种子词选择问题。