论文部分内容阅读
社会在不断地发展,人类的语言也在不断的变更。语言的内涵、形式都在不断地扩充。新词的不断涌现,可以说是语言不断发展的最好证明。而QQ输入法作为文字的输入工具,也应该保证与时俱进。新词的扩充是QQ输入法的基本功能之一。词语是人们打字的最小单位,只有保证候选词的丰富,才能帮助用户提高打字速度。如何有效地发现新词是学术界关注的焦点,因为新词发现是许多技术研究的基本要求,如信息抽取、语音识别、主题发现、机器翻译等。中文信息处理与英文信息处理的方法与难点存在很大的差异,中文自身有其独特的特征,英文的词与词之间有空格间隔,而中文的词语是紧密连着的,没有词与词之间的标识;另外,英文字母也有字母大小写的区分,而中文没有。因此在自然语言处理领域,中文的新词发现是个非常棘手的问题。互联网不断地向生活的方方面面渗透,信息也在呈爆炸式增长,现有词典已经不能满足人类交流的需要,新词在源源不断的产生。如何让人类的知识储备跟上社会的发展,是一个需要认真研究探讨的问题。本文的主要研究内容是面向互联网数据的新词发现平台的设计与实现,为输入法开发一套能源源不断提供新词的新词发现平台。在方案的选取上,本文首先分析并比较了几种流行的新词发现方法,最终设计了一套基于统计和规则相结合的方法来构建新词发现平台。其中基于统计的方法为快速地处理大批量的数据提供了有效的手段,而基于规则的方法则对大规模数据的处理结果提供精确的修正算法。新词发现平台分为四大组件:隐马尔科夫模型组件、实际语料切分组件、新词候选词修正组件、新词列表维护组件。隐马尔科夫模型是需要一个长期优化和积累的部分,它对汉字的各种属性概率进行统计和计算。隐马尔科夫的“学习”内容采用的是经过语言学家处理过的语料数据。对这些语料数据进行分析和处理后就能形成一个与中国汉字相关的模型。该模型是新词提取部分切分实际语料的一个理论依据。实际语料切分就是对互联网上的数据进行初步地切分,依据的是隐马尔可夫模型原理。新词候选词修正组件是对实际语料切分组件的切分结果进行修正,以获取真正的新词。新词列表维护组件就是对新词列表信息进行维护,保证新词的正确性。新词提取的过程具体为可以概括为以下步骤:依据隐马尔科夫模型对实际数据集的初步切分;对上一步的切分结果做出初步的垃圾过滤,形成新词候选词集合;对新词候选词集合里的每一个词组进行分析,得到相关的数据集。然后对候选词进行修正算法,得到更加精确的新词结果;输出新词集合。新词词表维护的主要工作是在时间线上对已有的新词列表进行更新。更新操作包括:删除、新增、更新新词数据等。主要目的是使新词列表能跟上社会的不断发展,能准确的反映出当下最常用和最热门的词语。最终,该课题构建了一套完成以上工作的新词发现平台。经过性能测试,新词发现平台满足QQ输入法产品对发现新词的需求。