基于韵律和词汇信息的中英文句边界检测研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:blogbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句边界检测(Sentence Boundary Detection)是从语音或文本数据中自动地找到完整语义单元(句子)的边界,是众多下游任务的前提和基础。本文基于韵律和词汇等多模态信息,研究了句边界检测任务的有效特征和方法。本文首先对句边界检测任务中涉及的韵律和词汇特征进行了研究,韵律特征包括停顿时长、基频、能量、词和音素时长以及说话人转换特征,词汇特征包括N-grams、POS、Chunk以及词向量特征。我们研究了基于条件随机场(Conditional Random Field)的句边界检测建模方法,条件随机场对上下文信息和边界类别的序列信息有较强的建模能力。文中我们把句边界检测任务转化为序列标注的问题,通过调节类别序列的阶数和上下文特征的窗口,我们得到了最优的条件随机场模型。我们对比了其他常用分类器在句边界检测任务中的效果,包括决策树、朴素贝叶斯、多层感知机、最大熵模型和支持向量机,结果表明条件随机场模型的检测效果超越了其他分类器。由于韵律特征存在冗余信息,我们利用基于相关性的特征选择方法对韵律特征进行了特征选择。深度神经网络(Deep Neural Network)具有很强的特征学习能力,通过多层非线性函数把输入特征转化为较好的特征表示。文中我们提出了一个基于深度神经网络和条件随机场(DNN-CRF)混合模型的句边界检测系统,该系统以深度神经网络在韵律特征上的后验概率和词汇特征为输入,并用条件随机场对该后验概率与词汇特征进行建模,标注出句子的边界信息。结果表明,我们提出的DNN-CRF混合模型的检测效果超越了先前最好的基于决策树的DT-CRF方法,其NIST错误率在手工抄本和识别抄本条件下分别比DT-CRF降低了16.7%和4.1%。深度递归神经网络(Deep Recurrent Neural Network)具有深度神经网络的特征学习能力以及条件随机场模型的序列和上下文建模能力,因此我们提出了基于深度递归神经网络的句边界检测方法,把韵律和词汇特征统一到同一个框架中。传统的深度递归神经网络对上下文和序列信息建模能力有限,也存在着梯度消失的问题,基于长短时记忆(Long Short Term Memory)结构的深度递归神经网络能够解决上述问题。本文中我们主要研究了深度双向长短时记忆的递归神经网络(DBLSTM-RNN)和特征融合的策略,并使用了词向量特征来表示词语信息。实验结果表明,在手工抄本和识别抄本条件下,结合韵律和词汇特征的DBLSTM-RNN模型都超越了前文提出的DNN-CRF方法,其NIST错误率分别降低了15.9%和4.5%。
其他文献
特征造型技术是面向制造全过程的,是CAD发展的一个重要里程碑,它使CAD/CAPP/CAM的真正集成化成为可能,为解决产品从设计到制造的一系列问题奠定了理论和技术基础。近年来,CAD
随着高速互联网接入技术如非对称数字用户线路ADSL、光纤到户FTTH的推广,各种基于网际协议IP的新型网络应用应运而生。高速网络使得互联网逐渐具备了提供实时业务的能力,如视频
随着我国金融行业的迅速发展,银行业信息化建设正在由以大规模建设为主的阶段转入以运营、维护为主的IT服务阶段;IT管理模式则由传统的“以产品为中心”向“以客户和服务为中心
增强现实是当前计算机领域的一个热门研究方向,已在社会生产生活的各个方面显示出越来越重要的地位和作用,在工业、农业、军事、医学、反恐等各个领域,具有广泛的应用价值。
CAN总线是目前流行的现场总线技术之一,依靠可靠性高、价格低廉的优势,已得到了广泛的应用。本文以CAN总线通信网络为基础,研究设计了一种新型的数字式粮情监控系统,用以实现对粮
无线传感器网络(Wireless Sensor Networks, WSN)是当前国际上备受关注的由多学科交叉的前沿研究热点领域。由于无线传感器网络通常由大量密集的传感器节点构成,节点的能源、
在现实生活中,常常遇到关于目标优化的问题,而绝大多数的目标优化问题往往是多目标优化问题。在多目标优化问题中,由于各个目标之间相互影响,相互矛盾,一个目标的优化,可能会引起其
安全疏散分析与设计是建筑物防火分析设计的重要内容。建筑物发生火灾后,其中的人员安全疏散主要取决于两个特征时间:一是火灾发生到对人构成危险所需的时间;另一个是人员疏
随着全民运动高潮的兴起,各种规模的运动会如雨后春笋般纷纷举行。信息数字化,管理信息化是一种发展趋势。操作简单、数据处理及时准确、运行效率高、投入成本低的运动会信息管
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代进入了信息过载的时代。在这个时代,无论是信息的生产者还是信息的消费者都遇到很大的挑战:对于信息生产者,使自己生产出的