论文部分内容阅读
统计学习方法由于可以从语料库中自动的获取语言统计知识以用于构建统计模型,且在鲁棒性、准确性上均有一定的优势,因而在自然语言处理领域中得到了广泛的应用。然而,很多自然语言处理问题中不同类别的样本在数量上具有很大的差别,比如在文献关键词自动识别问题中,一篇文献中的词语数量(正负类样本总量)可能会达到数千、数万,但其关键词(正类样本)数量往往不超过十个。大量研究表明不平衡的数据分布会对统计学习的效果造成严重的负面影响,因而有必要设计有针对性的不平衡数据分类算法,提升其在这些自然语言处理现实问题中的应用效果。以此为出发点,本文对自然语言处理领域中的多个具有不平衡数据分布的具体问题开展研究,完成的主要工作如下: 1.提出了面向非平衡数据的英文缩略词/解释识别方法。深入探析了英文缩略词/解释识别问题中的不平衡数据产生的根源、分布的特征、给传统序列学习方法带来的困难;回顾了目前已有的各类序列学习算法,分析了它们在处理英文缩略词/解释识别这类具有不平衡数据的序列学习问题时可能存在的不足;以此为出发点提出了适用于不平衡序列数据的双层条件随机场算法,系统给出了图模型表达、形式化定义、以及训练算法和预测算法。 2.提出了面向非平衡数据的文献关键词自动抽取方法。针对文档关键词自动抽取等多视图学习问题中的类别分布不平衡现象,提出了协同欠抽样学习方法,该方法能够充分利用数据的多个视图中蕴藏的信息,在学习过程中通过迭代抽样的形式不断降低数据集的类别不平衡程度,提升关键词自动抽取的效果。 3.提出了面向非平衡数据的自动文摘方法。针对文献中的摘要句子相比于普通句子要较为稀疏,在评估文摘分类模型时采用ROUGE等特殊的评估指标的特点,提出了一种高效的基于叠加式学习的ROUGE指标直接优化算法,以解决自动文摘中的非平衡数据分类问题。在叠加式学习框架下对已有的自动文摘模型进行集成,在集成过程中以ROUGE指标为优化目标,避免了不平衡数据分布对传统的以准确率为优化目标的统计学习方法的负面影响,提升了自动文摘的效果。