论文部分内容阅读
故事分割(Story Segmentation)任务旨在将视频、音频或文本等多媒体流自动切分成若干个具有独立主题的片段,每一个片段表达特定主题的故事。它是多媒体信息检索、文挡摘要、主题提取和分类等任务的基础。
语音文档(Spoken Documents)是一种常见的多媒体数据,包括广播新闻、演讲与报告、对话等丰富的内容。对语音文档进行故事分割可以从声学(Acoustics)和文本抄本(Transcripts)两个方面开展。与声学特征相比,从语音识别的抄本中更容易获取与故事主题相关的语义信息。因此本文研究针对语音识别抄本的故事分割技术。故事分割任务包含特征提取和分割方法两个步骤,蕴含丰富主题信息的特征和良好设计的分割方法都能够有效地提高故事分割结果的准确性。鉴于神经网络(Neural Networks,NN)强大的特征学习能力,本文基于NN提出学习与故事分割任务紧密相关的主题域特征表示,并以此为基础研究故事分割方法。主要贡献包含以下四点:
(1)面向故事分割任务提出一种基于神经网络的文本主题域分布式表示。本文采用深度神经网络(Deep Neural Network,DNN)和具有长短时记忆单元的循环神经网络(Long Short-Term Memory-Recurrent Neural Network,LSTM-RNN)预测给定训练文本主题的后验概率,以此作为文本的主题域分布式表示。为进一步提高模型效果,本文采用多时间分辨率(Multiple Time Resolution, MTR)、构造网络瓶颈层(Bottleneck)和多任务学习(Multi-Task Learning, MTL)等策略训练网络。在TDT2广播新闻抄本故事分割任务上的实验表明,本文所提出的基于神经网络的文本主题域分布式表示,取得了优于词袋向量(Bag of Words, BOW)和神经网络词向量/句向量的分割结果,其中LSTM-RNN效果最优。
(2)提出一种基于神经网络–隐马尔科夫模型(Neural Network-Hidden Markov Model,NN-HMM)的故事分割方法。本文将词序列作为观测,以HMM的隐状态表示文本主题,以NN建模各隐状态的发射分布,提出了NN与HMM级联的故事分割模型,直接对观测文本序列进行维特比解码,即可得到观测文本对应的主题序列。在TDT2数据库上,本文的NN-HMM故事分割模型较传统基于ngram的HMM故事分割模型取得了更优的分割效果。
(3)提出一种基于粘滞层次狄利克雷过程–隐马尔科夫模型(Sticky Hierarchi-cal Dirichlet Process–Hidden Markov Model, SHDP–HMM)的故事分割方法。鉴于HMM故事分割方法中状态数目需要人工设定的问题,本文提出基于SHDP–HMM的故事分割方法,无需预设状态数目,同时有效降低无效主题跳转。在TDT2数据集上的故事分割实验中取得了比一般HMM主题分割方法更优的分割准确度。
(4)提出一种基于LSTM-RNN的端到端故事分割方法。传统的故事分割方法是由特征提取和边界预测两个相对独立的步骤构成,其中各步骤具有不同的优化准则,因而最终的故事分割目标无法直接驱动全局优化。本文首先采用一层LSTM–RNN提取句级文本特征,在该LSTM–RNN层之上级联另一层LSTM–RNN预测故事边界,从而将特征提取和边界预测步骤联合在统一的神经网络模型中。以故事边界预测的准确度构造损失函数,利用误差回传算法,高效联合优化模型参数。在TDT2数据库上的实验结果表明,本文的端到端故事分割方法取得了与传统各步骤独立的故事分割方法相当的分割结果。
语音文档(Spoken Documents)是一种常见的多媒体数据,包括广播新闻、演讲与报告、对话等丰富的内容。对语音文档进行故事分割可以从声学(Acoustics)和文本抄本(Transcripts)两个方面开展。与声学特征相比,从语音识别的抄本中更容易获取与故事主题相关的语义信息。因此本文研究针对语音识别抄本的故事分割技术。故事分割任务包含特征提取和分割方法两个步骤,蕴含丰富主题信息的特征和良好设计的分割方法都能够有效地提高故事分割结果的准确性。鉴于神经网络(Neural Networks,NN)强大的特征学习能力,本文基于NN提出学习与故事分割任务紧密相关的主题域特征表示,并以此为基础研究故事分割方法。主要贡献包含以下四点:
(1)面向故事分割任务提出一种基于神经网络的文本主题域分布式表示。本文采用深度神经网络(Deep Neural Network,DNN)和具有长短时记忆单元的循环神经网络(Long Short-Term Memory-Recurrent Neural Network,LSTM-RNN)预测给定训练文本主题的后验概率,以此作为文本的主题域分布式表示。为进一步提高模型效果,本文采用多时间分辨率(Multiple Time Resolution, MTR)、构造网络瓶颈层(Bottleneck)和多任务学习(Multi-Task Learning, MTL)等策略训练网络。在TDT2广播新闻抄本故事分割任务上的实验表明,本文所提出的基于神经网络的文本主题域分布式表示,取得了优于词袋向量(Bag of Words, BOW)和神经网络词向量/句向量的分割结果,其中LSTM-RNN效果最优。
(2)提出一种基于神经网络–隐马尔科夫模型(Neural Network-Hidden Markov Model,NN-HMM)的故事分割方法。本文将词序列作为观测,以HMM的隐状态表示文本主题,以NN建模各隐状态的发射分布,提出了NN与HMM级联的故事分割模型,直接对观测文本序列进行维特比解码,即可得到观测文本对应的主题序列。在TDT2数据库上,本文的NN-HMM故事分割模型较传统基于ngram的HMM故事分割模型取得了更优的分割效果。
(3)提出一种基于粘滞层次狄利克雷过程–隐马尔科夫模型(Sticky Hierarchi-cal Dirichlet Process–Hidden Markov Model, SHDP–HMM)的故事分割方法。鉴于HMM故事分割方法中状态数目需要人工设定的问题,本文提出基于SHDP–HMM的故事分割方法,无需预设状态数目,同时有效降低无效主题跳转。在TDT2数据集上的故事分割实验中取得了比一般HMM主题分割方法更优的分割准确度。
(4)提出一种基于LSTM-RNN的端到端故事分割方法。传统的故事分割方法是由特征提取和边界预测两个相对独立的步骤构成,其中各步骤具有不同的优化准则,因而最终的故事分割目标无法直接驱动全局优化。本文首先采用一层LSTM–RNN提取句级文本特征,在该LSTM–RNN层之上级联另一层LSTM–RNN预测故事边界,从而将特征提取和边界预测步骤联合在统一的神经网络模型中。以故事边界预测的准确度构造损失函数,利用误差回传算法,高效联合优化模型参数。在TDT2数据库上的实验结果表明,本文的端到端故事分割方法取得了与传统各步骤独立的故事分割方法相当的分割结果。