论文部分内容阅读
在计算机全面普及的今天,使用计算机进行中文信息处理已经成为当今人们工作、生活中必不可少的一部分。现代社会需要计算机具有准确的中文输入、中文显示、文本编辑和输出等文本处理等功能,同时,也需要计算机可以智能地进行文本识错。中文识错方法研究是中文信息处理领域是一个重要的研究方向,做好中文识错的处理首先要解决的基础难题是对文本进行准确的识别——这就需要对文本进行准确的分词,再对分词后的文本进行识错处理。本课题是在实验室已取得的基于特殊标志符的分词基础上进行中文识错方法研究,其主要研究内容是对待处理的文本进行分词,然后核查语句或句子是否正确,如果不正确,能将不正确的词语提取出来并提出修正建议。本文主要进行了以下三方面的工作:(1)对实验室已取得的研究成果——特殊标志符分词算法进行改进。即:在中文文本句子中,选择具有特殊意义和作用的字词或者是符号作为标志符,运用改进的特殊标志符算法对中文文本进行更加精准的分词。(2)引入N-gram模型对已分词的文本进行语段一级的识错。即:假设中文文本中的第N个词只与它前面出现的N-1个词相关,与文本中的其他词语都不相关,这样对于句子出现的概率而言,等于其每个词语出现的概率的乘积。运用N-gram模型可以进行语段识错。(3)运用博弈论中沙普利值的概念,对语段组建博弈模型,查找文本中词汇级错误。即:在数据库的支持下,运用到博弈论的沙普利值来得出随后的最大的可能性词语,这样可以提高遍历比较的准确度。中文的识错与修正是一个非常有意义的工作,虽然我们对基于沙普利值的中文文本识错策略进行了一些研究,但由于此领域涉及的知识领域广,实现起来复杂繁琐,需要用到的数据量大,而短短的研究生学习期间能够做的工作非常有限,所以还有很多不足的地方仍需进一步改进和完善。