论文部分内容阅读
随着信息技术的蓬勃发展,网络中的文档成为主要的信息载体,是人们生活中主要信息来源。随着互联网Web2.0时代的到来,人们从被动接受门户网站的信息,转为主动在社交媒体上发布、共享、传播信息。由于用户参与信息产生过程中,网络信息的内容形式也变得多种多样。这些关于观点性的内容对社会舆情分析、电子商务等方面都有着重要的意义和实用价值。针对这种观点性文本的情感分类逐渐演变为一个热点问题。在网络文本中经常出现反语,他们利用反语来表达主观的以及深层次的观点,反语的使用将大大增加情感分析的难度。为了提高情感分类的准确度,需要探讨反语识别,因此本文研究的是反语识别。本文主要从两个方面研究反语的识别:一是基于规则的反语识别方法;二是基于机器学习反语识别方法。对于基于规则的反语识别方法,本文中提出了两种反语识别的规则——歇后语规则、违反常识规则,这也是本文的创新之处。对违反常识规则部分引入了矛盾关系检测,通过矛盾关系中的反义词规则和否定词规则,来判断文本是否是违反了常识规则。满足上述两种规则中的其中一种的文本则判定为反语,对于不满足规则的文本,使用机器学习方法训练分类器,识别出反语。训练分类器过程中,构建特征体系——英文词、特定的语气词、文本中特定的词汇、网络词汇、谐音字、连续的标点符号,将分词后并删除停用词后的所有不重复词也纳入特征体系。计算只使用机器学习方法进行反语识别的性能,同时也计算规则结合机器学习方法进行反语识别的性能,并比较这两种方法的性能。本文发现本文中提出的规则结合机器学习方法对反语识别相对只使用机器学习方法是更有效的。