论文部分内容阅读
句边界检测(Sentence Boundary Detection)是从语音或文本数据中自动地找到完整语义单元(句子)的边界,是众多下游任务的前提和基础。本文基于韵律和词汇等多模态信息,研究了句边界检测任务的有效特征和方法。本文首先对句边界检测任务中涉及的韵律和词汇特征进行了研究,韵律特征包括停顿时长、基频、能量、词和音素时长以及说话人转换特征,词汇特征包括N-grams、POS、Chunk以及词向量特征。我们研究了基于条件随机场(Conditional Random Field)的句边界检测建模方法,条件随机场对上下文信息和边界类别的序列信息有较强的建模能力。文中我们把句边界检测任务转化为序列标注的问题,通过调节类别序列的阶数和上下文特征的窗口,我们得到了最优的条件随机场模型。我们对比了其他常用分类器在句边界检测任务中的效果,包括决策树、朴素贝叶斯、多层感知机、最大熵模型和支持向量机,结果表明条件随机场模型的检测效果超越了其他分类器。由于韵律特征存在冗余信息,我们利用基于相关性的特征选择方法对韵律特征进行了特征选择。深度神经网络(Deep Neural Network)具有很强的特征学习能力,通过多层非线性函数把输入特征转化为较好的特征表示。文中我们提出了一个基于深度神经网络和条件随机场(DNN-CRF)混合模型的句边界检测系统,该系统以深度神经网络在韵律特征上的后验概率和词汇特征为输入,并用条件随机场对该后验概率与词汇特征进行建模,标注出句子的边界信息。结果表明,我们提出的DNN-CRF混合模型的检测效果超越了先前最好的基于决策树的DT-CRF方法,其NIST错误率在手工抄本和识别抄本条件下分别比DT-CRF降低了16.7%和4.1%。深度递归神经网络(Deep Recurrent Neural Network)具有深度神经网络的特征学习能力以及条件随机场模型的序列和上下文建模能力,因此我们提出了基于深度递归神经网络的句边界检测方法,把韵律和词汇特征统一到同一个框架中。传统的深度递归神经网络对上下文和序列信息建模能力有限,也存在着梯度消失的问题,基于长短时记忆(Long Short Term Memory)结构的深度递归神经网络能够解决上述问题。本文中我们主要研究了深度双向长短时记忆的递归神经网络(DBLSTM-RNN)和特征融合的策略,并使用了词向量特征来表示词语信息。实验结果表明,在手工抄本和识别抄本条件下,结合韵律和词汇特征的DBLSTM-RNN模型都超越了前文提出的DNN-CRF方法,其NIST错误率分别降低了15.9%和4.5%。