论文部分内容阅读
在自然语言处理中,汉语零形回指是现代汉语指代消解工作中的一个难点。
指代消解能尽可能地消除人们为了简化语言而造成对指代词所指的歧义理解,为计算机信息处理提供正确完整的信息,避免错误地理解上下文。但在现代汉语零形回指中,零形式是一种没有语音形式、无形有义的回指词,是语言减缩现象的主要特征。解决零形式位置的自动判定,是实现计算机对零形回指的自动消解工作的首要前提。
本文以小句间的零形式作为处理对象。根据语料库语言学的方法,利用现代汉语小说文本,制定相关标注项和标注原则,在人工标注和精校对的基础上,建立了一个小型的现代汉语零形式语料库。并在构建了零形式语料库的基础上,通过计算零形式位置相关统计量和通过机器学习相关概率权值的最优值,本文提出一种自动判定零形式位置的统计算法模型。同时,本文也引入了常见的统计模型crf来实现零形式位置自动判定的工作。通过对比实验,两种零形式定位算法的定位精度都达到了85%左右,定位召回率都达到了90%左右。在分析两种基于统计的零形式定位算法在定位原理和定位效果上的差异的基础上,本文展望了下一步的工作方向。