面向非平衡数据的若干自然语言处理问题研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:xtgdscf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计学习方法由于可以从语料库中自动的获取语言统计知识以用于构建统计模型,且在鲁棒性、准确性上均有一定的优势,因而在自然语言处理领域中得到了广泛的应用。然而,很多自然语言处理问题中不同类别的样本在数量上具有很大的差别,比如在文献关键词自动识别问题中,一篇文献中的词语数量(正负类样本总量)可能会达到数千、数万,但其关键词(正类样本)数量往往不超过十个。大量研究表明不平衡的数据分布会对统计学习的效果造成严重的负面影响,因而有必要设计有针对性的不平衡数据分类算法,提升其在这些自然语言处理现实问题中的应用效果。以此为出发点,本文对自然语言处理领域中的多个具有不平衡数据分布的具体问题开展研究,完成的主要工作如下:  1.提出了面向非平衡数据的英文缩略词/解释识别方法。深入探析了英文缩略词/解释识别问题中的不平衡数据产生的根源、分布的特征、给传统序列学习方法带来的困难;回顾了目前已有的各类序列学习算法,分析了它们在处理英文缩略词/解释识别这类具有不平衡数据的序列学习问题时可能存在的不足;以此为出发点提出了适用于不平衡序列数据的双层条件随机场算法,系统给出了图模型表达、形式化定义、以及训练算法和预测算法。  2.提出了面向非平衡数据的文献关键词自动抽取方法。针对文档关键词自动抽取等多视图学习问题中的类别分布不平衡现象,提出了协同欠抽样学习方法,该方法能够充分利用数据的多个视图中蕴藏的信息,在学习过程中通过迭代抽样的形式不断降低数据集的类别不平衡程度,提升关键词自动抽取的效果。  3.提出了面向非平衡数据的自动文摘方法。针对文献中的摘要句子相比于普通句子要较为稀疏,在评估文摘分类模型时采用ROUGE等特殊的评估指标的特点,提出了一种高效的基于叠加式学习的ROUGE指标直接优化算法,以解决自动文摘中的非平衡数据分类问题。在叠加式学习框架下对已有的自动文摘模型进行集成,在集成过程中以ROUGE指标为优化目标,避免了不平衡数据分布对传统的以准确率为优化目标的统计学习方法的负面影响,提升了自动文摘的效果。
其他文献
随着IT产业正激情步入“一切皆服务”的云计算时代,人们需要更快捷、更可靠和功能更丰富的网络服务,这使得服务硬件资源的有限性与人们对web数字内容依赖的无限性之间的矛盾日
汽车电子技术的迅猛发展带来了汽车总线系统的不断变革与改进。新生的FlexRay总线协议由于其高速率、高容错率的特性被各大汽车厂商用于高端车型的防抱死、变速箱等关键设备
随着互联网和计算机网络技术的快速发展,人类进入了后PC时代。人们开始注重计算设备的便携性、个性化和智能化,要求计算设备具有某些专用功能并且易于使用。为了满足人们对计算
近年来,随着移动通信技术的飞速发展,基于位置的服务已经成为一个非常热门的领域。用户可通过基于位置的服务,了解某个地理位置点的名称,并能从互联网搜索得到大量知识。然而
作为下一代互联网的重要组成部分,物联网是实现云计算和普适计算蓝图的关键网络保障,旨在为用户提供任何时间、任何位置、任何事物、任何人之间的信息交流和智能控制。无线传感
光突发交换是光通信交换中最具发展前景的技术,其兼顾了光电路交换和光分组交换网络的优势,充分运用波分复用WDM(Wave length Division Multiplexing)光网络中庞大的带宽资源,有
近年来,基于手势识别的人机交互以其自然、丰富和直接的交互方式受到大家的青睐。针对传统手势识别准确率不高、鲁棒性不强的问题,本文从空间序列角度出发提出了基于递归图压
无线Mesh网络(Wireless Mesh Network,简称WMN),作为一种新型的无线接入技术,由于其易部署、非视距传输、良好的健壮性、结构灵活和高带宽等优势,近年来被广泛应用于各个领域。路由
量子神经网络是基于量子计算的基本原理与传统的人工神经网络而发展起来的一种研究神经网络的新方法。由于其独特的功能在某些问题上表现出来的巨大优势,越来越多的科研人员开