论文部分内容阅读
文本倾向是指文本中所表达的对所描述主题的态度,从语言学上来看属于语用信息的范畴,涉及作者的主观意图,如何让计算机能进行自动识别是计算语言学的一个重要课题,高性能的自动识别系统对于网络舆情监控等重要现实应用具有重要价值。本文主要进行了两个方面的研究工作。其一,设计了一个基于全信息的自动文本倾向识别系统。该系统从语法,语义,语用三个层次出发,去进行文本中的信息标注与抽取。最后将这些标注信息作为文本特征逐一添加到一个SVM文本分类器中去,进行文本分类计算,实验证明,当我们将语法、语义和语用三层信息综合利用之时,系统性能是最好的。其二,作者在上述实验过程中发现,通常作为语用信息使用的词汇语义倾向度量值缺乏合适的解释性与验证方法。为此,本文引入聚类算法,对词汇语义倾向度量值进行聚类,并将聚类结果重新作用于原始的文本倾向识别系统中去,实验表明,系统文本倾向识别率得到了提高。这一方面为词汇语义倾向度量提供了一个有效解释的途径,同时也为系统的改进提出了一种新思路。论文最后是结论和对未来进一步工作的展望。