论文部分内容阅读
近年来情感倾向分析在自然语言处理领域引起了广泛的关注.它可以帮助分析文本中与情感相关的信息,从而提供直接的应用结果或者为其他的自然语言处理任务服务.结构化方法是自然语言处理的各个任务中广泛使用的一类机器学习方法,它通过利用结构化的信息提高分类器的性能.本文中主要研究倾向性信息抽取任务中的结构化方法.首先,对于倾向性信息抽取中的评价词,评价对象的关系抽取任务,过去的关系抽取方式要么为简单的将相邻评价词,评价对象的关联在一起,要么依靠手工制定的模板,都没有充分利用句法树上的信息.同时,也忽略了评价词.评价对象的短语结构.本文提出了短语依存句法树,将短语结构引入了依存句法树中,较好的处理了短语间的依存关系.在短语依存句法树上,首次提出了依赖于短语结构的树核函数.它能够区别对待不同类型的依存关系,很大的提高了树核函数在关系抽取中的辨识能力.在5个不同领域的在线评论语料上的实验证明了短语依存句法树能够很好的处理短语类型的评价词,评价对象;同时,新的树核函数能够有效的提高关系抽取的各方面性能.其次、传统的文本倾向性信息表示忽略了文本中许多与倾向性相关的信息.这使得最终的抽取结果可能是不准确,不完整的.针对这样的问题,本文提出了基于图的倾向性表示.其中除了传统的评价词,评价对象等要素外,还包括了对评价词的限制隐含的评价对象,以及评价词之间的关系.它极大的丰富了倾向性信息抽取的结果,也扩充了倾向性任务处理的对象能够提供更加精确,更加完备的抽取结果.本文使用了一种新的结构化方法将一个句子的倾向性信息转化成对应的图表示.它通过整数线性规划,有力的整合了图上的各类结构化约束,同时有较强的扩展能力和稳定性.在中文在线评论语料库上的实验证明,基于图的倾向性表示有较强的表示能力,同时结构化方法能构明显的提高倾向信信息抽取系统的各方面性能.