论文部分内容阅读
随着互联网的发展,微博成为人们生活中不可或缺的部分。对微博文本的研究已然成为自然语言处理领域的热点。但同时,微博文本中也存在很多不规范的词语和表达,这些不规范的存在使得传统自然语言处理技术对微博的处理效果不理想,影响着对微博的后续研究处理任务。因此对微博文本进行规范化很有必要。通过研究,我们发现已有的文本规范化技术虽取得了一定的成果,但也不完善:第一,对中文文本规范化的研究较少。中文的分词给非规范词的发现带来了挑战。第二,缺乏关于文本规范化的标注语料,有监督的方法受到限制。第三,中文文本规范化不全面,缺乏对“旧词新用”现象的关注。第四,已有的规范化工作缺乏对语义信息的充分利用。针对以上研究分析,本文对微博文本规范化开展了以下研究:(1)本文提出了一种统计和规则结合的方法发现语料中的非规范词中的未登录词一类。这是一种基于大规模语料的、无监督的发现方法。本文将非规范词分为不在分词词典内的未登录词(新词)和词典内的“旧词新用”词。本文将新词出现的范围缩小到散串中,再将散串切分成二元组作为候选,利用多种统计量和规则对候选二元组进行扩展、过滤和新词发现。本文方法不需要使用任何语法规则和语义信息,只利用新词本身的统计量就能够高效地发现新词,并取得较高的准确率。(2)本文采用词向量的方法对三个问题进行研究,即“旧词新用”类非规范词的发现、非规范词集合的扩展以及规范化词典的构建。本文通过词向量分别求得候选词在两个语义空间的近义词集,并通过计算这两个集合的距离来判断候选词是否符合“旧词新用”;本文在微博语义空间,通过对已发现的非规范词计算其词向量的相似度来扩展非规范词集合,本方法能够方便高效的扩展非规范词集合,尤其对字母词、数字词有效;本文将两种语料合并,在一个语义空间,利用词向量对我们发现的非规范词自动发现对应的规范词,构建规范化词典,本方法充分利用语义信息,得到一对多形式的规范化词典,使规范化更加灵活,更加符合语境。本文发现的“旧词新用”词,很好地补充了传统的规范化词典。(3)本文提出一种利用神经网络语言模型的文本规范化方法。我们首先在规范语料上训练了基于双层GRU的循环神经网络语言模型,然后结合语音和语义相似度特征形成基于对数线性框架的文本规范化模型。本方法充分利用了上下文信息、语音信息、语义信息,使规范结果更加准确,更符合常规表达。综上所述,本文主要采用基于分布式语义表示的方法,有效利用语义信息,将规范化词典和统计模型结合,不同于传统的基于规范化词典的一对一的替换法,同时也克服了传统的统计模型需要标注语料的不足,并得到更加符合语境的规范化结果。