论文部分内容阅读
自从计算机进入我国,面临的首要问题是中文输入问题。经过20多年的研究,中文的键盘输入从最初的单字输入、词语输入,发展到整句输入,使得输入法越来越具有智能性,能够借助语言的特性提高输入法的性能。中文整句智能输入,实际上是将输入码转换成候选的中文字词,然后根据中文的习惯,选出最大可能的候选语句作为最终的结果。它具有连续输入、不打断用户思路等优点,但是整句转换正确率不高,修改起来比较麻烦,且占用系统资源,使用中不尽人意。本文以拼音输入为例,研究输入法的整句实现,根本目的在于给S&R中文笔画智能输入法增加整句功能,使其在竞争激烈的输入法领域占有一席之地。中文整句智能输入问题可以使用信息论中的信源-信道模型进行描述。假设信源以概率p(S)生成语句S,噪声信道根据p(A|S)把文本的句子转换为拼音序列A。中文整句智能输入问题是根据给定噪声信道输出的拼音序列A,还原原始文本句子S,即选择具有最大后验概率p(S|A)作为输出结果。因此可以采用统计的方法实现中文整句智能输入。在N-gram模型中,把自然语言看成一个离散的马尔可夫模型,假设当前词的出现概率仅与前n-1个词有关,而与其他任何词都不相关。考虑到中文整句智能输入的系统实时性要求,采用二元模型。本文使用SRILM统计语言工具包进行了语料库一元组和二元组的统计,按照首字区位码进行排序,二分查找,有效的建立了便于搜索的统计语言模型。中文整句拼音智能输入系统包括拼音预处理模块、状态空间生成模块和机器学习模块。拼音预处理模块采用最少分词算法将输入的连续拼音流进行切分,输出一个离散的拼音音节序列,送入状态空间生成模块。状态空间生成模块根据输入的音节构造状态空间,插入对应的候选字词节点,在插入的同时,利用Viterbi动态规划算法,将通用语言模型和用户语言模型通过加权结合起来,计算累积概率,最后由状态空间模型回溯算法得到最优语句候选。状态空间生成模块输出的句子经过用户的联机修正成为正确的句子。该模块修改用户学习的二元统计库的概率值,进行记忆学习,从而使系统的自适应能力越用越好。在状态空间模型中,对于插入操作,即用户在原来输入的基础上接着又输入一个拼音,这时只需对新增的拼音节点与前面的拼音节点可能产生的所有字词候选节点进行累积概率计算,插入到状态空间模型中,对于前面已插入的节点无需任何处理。对于删除操作,则更加方便,只需直接删除与拼音节点相关的候选字词节点即可。而当到达用户输入边界,可以依赖右指针域指向尾节点的候选字词节点累积概率最大者的父指针方便的回溯找到最优语句。基于以上的框架本文实现了一个基本的拼音整句输入法,利用网络上公布的有限资源,即切分好的1998年1月份《人民日报》作为统计语言模型的训练文本,采用线性插值平滑方法,测试数据取自自然语言处理平台上的文本分类语料库,领域涉及艺术、文学、教育、哲学、通讯、航空、能源、电子、医药、农业等,其整句的平均字转换正确率达到83.81%。为进一步提高转换的正确率,在统计中融入了语言知识,例如长词优先原则、部分语法规则等,平均字转换正确率提高到85.42%。利用状态空间模型解决了拼音串切分歧义问题。拼音串如果不含分隔符号,则有可能存在歧义,采用一般的切分算法只能保留一种切分结果,而利用状态空间模型,可以将所有歧义组合均保留下来,参与整句拼音转换的竞争,得到全局最优解,而不会因为切分错误较早的将正确答案排除在外。为避免多次构造状态空间模型,进一步提出基于音素的整句实现方法,将音节切分融入整句转换之中,仍然使用状态空间模型,只不过每次插入的是一个音素,而不是切分好的音节,对插入的音素节点,往前搜索,直接将该音素与前面已经输入的音素能组合形成的所有拼音串对应的候选字词插入状态空间,参与整句转换,通过构造一次状态空间模型得到全局最优解。最后还设计了本输入法和微软拼音输入法的测试程序,对二者的整句功能进行测试对比,不断查找转换错误的原因,对本输入法进行改进。本文的主要工作:(1)在没有任何原始积累的条件下,利用有限的资源构造了统计语言模型;(2)在实现拼音字词输入法基础上,利用状态空间模型实现了整句输入功能,其转换正确率已基本接近微软拼音输入法;(3)提出了基于状态空间模型的拼音串歧义切分算法,可以得到所有可能的切分组合;(4)提出基于音素的整句实现方法,可大幅提高存在音节切分歧义的整句转换的正确率;(5)实现了本输入法和微软拼音输入法的测试对比程序,便于对本输入法进行改进。