论文部分内容阅读
情感分析主要研究如何识别和分析文本中包含的主观性情感信息在粗粒度的句子文档级文本倾向性判断问题上,相关的技术日趋成熟在此基础上,主观情感表达的细粒度分析,即情感的发出者和评价对象识别问题也逐渐成为了新的研究热点基于机器学习的细粒度情感分析,特别是基于序列标注模型的分析方法需要大量包含细粒度标注信息的训练语料而这些语料由于建设困难,往往规模不大因此,本课题研究跨语言细粒度情感分析方法,将在其他语言建立的细粒度情感标注语料跨语言映射到目标语言,丰富目标语言训练集,进而提高目标语言上细粒度情感分析的性能通过对相关技术的回顾,课题进一步分析了细粒度情感分析在使用跨语言标注资源面临的主要困难,包括机器翻译错误,翻译乱序和跨领域差异等针对上述问题,课题系统地提出一个基于子结构传递的跨语言细粒度情感分析方法本文主要的工作有:1.提出一种基于子结构的跨语言标注映射方法,利用机器翻译系统的短语对齐信息以及统计对齐工具实现标注语料的翻译和细粒度标注信息的映射2.提出和实现一种基于多核支持向量机的细粒度情感分析方法通过结合基于句法特征的树核,基于语义信息的多项式核以及本课题新提出的基于词义近似度的轴函数建立多核支持向量机提高细粒度情感分析的性能3.提出了一种改进的迁移自训练方法,通过对跨语言训练语料进行优选使用,进一步提高多核分类器的性能本课题工作的主要贡献包括:1.提出了一种新的基于子结构的跨语言标注信息映射方法,较好解决了机器翻译结果乱序问题的影响,首次实现了细粒度情感标注语料的跨语言复用2.提出了一种新的基于多核支持向量机的细粒度情感分析方法其中树核克服了传统序列标注模型对翻译结果乱序敏感的缺陷,基于词义近似度的轴函数则通过词语扩展提高了对候选子结构的覆盖精度3.提出了一种异于传统迁移学习的方法,对于句法信息和语义信息使用不同的核函数表达,在迁移的过程中有选择的使用不同的核函数,从而达到整体分类结果最优,有效降低了机器翻译错误和跨领域差异的影响在相关数据集上的实验结果显示,本课题提出的方法明显优于传统的基于序列标注模型的方法,接近了基于人工建立模板方法的性能