论文部分内容阅读
随着互联网的发展和普及,网络逐渐成为人们交流观点和表达情感的平台。如今,互联网上存在大量带有主观色彩的文本,我们称之为主观文本。分析其中的主观性信息对于政府了解民众意向、商家掌握客户意见、用户跟踪热点话题等等都极具意义。在此背景之下,本文着重关注中文文本的情感分类问题,围绕数学模型和情感相关知识展开探索。近十年来,学者们对于中文文本情感分类问题的研究热情不断高涨,出现了一系列成果,也面临诸多问题:首先,相比切分、词性标注,文本情感信息的标注更加困难,其费时、一致性差的问题使得大规模情感标注语料的获取难以实行。标注语料的缺乏成为制约文本情感分析的一个重要因素。其次,表层文本特征己无法对情感类别进行有效区分,高质量情感分类需要利用更为丰富和深入的语言信息及情感相关知识。最后,情感具有高度的主观性、个体差异性,加深了文本的情感歧义,为计算机的自动分析带来巨大挑战。针对第一个问题,本文提出采用结合未标样本信息的半监督学习方法来进行文本情感分类;针对第二个问题,本文提出构建情感分析所需的语言知识并运用于文本情感分类。基于此,本文展开一系列研究,取得了如下成果:1.构建了基于流形正则化的半监督概率判别模型的一般框架,并在该框架下实现了基于流形正则化的半监督多元Logistic回归算法(MRMLR算法)。从理论和实验两个角度,分析了MRMLR算法学习性能上的特点和对模型超参数的鲁棒性表现,证实了该算法的有效性和稳定性。2.提出了基于流形正则化的直推算法(MRTRU算法)。该算法通过采用期望最大化算法的变体解决上述一般框架的参数估计问题得出,避免了对数据分布的具体形式做任何假设,并打破了只能在特征向量空间中表示样本的限制。其有效性和稳定性在真实数据集上得到了验证。3.提出了一个与文本情感分类相关的情感要素集合(包括诱因、体验、行为后果、外在表现四种类型),构建了一个标注有词条要素类型及类型下情感分布的知识库,并采用规则的方法对情感知识的应用做出尝试。实验证明了本文情感知识体系的合理性,以及情感知识库的有效性。4.提出了结合情感知识的半监督文本情感分类方法。将规则方法得到的结果作为先验融入到统计模型当中,以弥补知识不足和未登录词带来的影响。实验表明,结合后,情感知识对于情感类别的高效区分性和统计方法的优势得以同时保持,两者互相促进,使文本情感分类的性能得到大幅提升。