论文部分内容阅读
自然语言生成是当前以计算语言学和人工智能为基础的自然语言处理中相当活跃的一个分支,主要研究如何用计算机来生成自然语言文本,有着极其重要的应用价值。自然语言生成的研究可以作为检验特定语言理论的一种技术手段,不断为理论语言学提供反馈,推动语言学朝纵深方向发展。动态助词“了”一直是传统语言学界研究的热点和难点,而其特点和使用规则是难点之一,传统的研究方法多为语义和语法描写法,多是定性分析,且缺乏对动态助词“了”的全面考察,并仍存在不少分歧,因而缺乏整体的说服力,有的还需要重新考虑。而且,仍有许多问题没有解决,如现代汉语里动词带动态助词“了”的实际情况如何?有无规律性?如有规律,有何规律?本文主要探讨如何用自然语言生成方法自动在汉语的动词之后生成动态助词“了”。在传统语言学界已有研究成果的基础上,通过学习和借鉴前人的理论、方法、经验和教训,结合大规模真实语料,利用以规则为主,统计为辅,两者相结合的技术,从自然语言生成角度来考虑动态助词“了”的使用。语料的观察和统计是进行动态助词“了”生成研究的出发点。结合大规模语料库,对相当数量的动词带动态助词“了”的情况进行大量的考察,以此来统计现代汉语里动词带动态助词“了”的实际情况,来归纳总结动词带动态助词“了”的规律性等等。基于规则的生成策略是生成试验采用的的主要技术。在总结传统语言学的已有研究成果的基础上,通过对语料库的统计和观察来增进知识,完善生成规则库,形成两个主要的生成规则库:“不可加‘了/u’的规则”库和“可加‘了/u’的规则”库。在基于规则的生成系统中,通过对规则库中的规则进行有序组织来有效地解决规则间的冲突问题。按照不同的层次存放规则和尽可能细分每一类型的规则是主要策略。文中分别以标注为V的动词和句子为单位来衡量生成结果,数据更加有层次性,更加客观可信。同时,还考虑到汉语动词中复杂的可加可不加动态助词“了”的情形,采用两个底本来衡量生成结果。一是完全忠实于原文的硬性底本;二是加入了人工干预的弹性底本,有效提高了正确率。就精确率而言,封闭和开放测试都取得了较好的效果。