论文部分内容阅读
拼写校正是自然语言处理领域研究的一个热点。随着信息检索和文本处理系统的大规模应用,人工输入的文档中不可避免地包含拼写错误。对用户输入到搜索引擎中的查询或包含错误拼写的文档的处理会带来计算机资源和用户时间的极大浪费。在针对拼写校正技术的广泛和深入调查的基础上,我们比较了拼写校正技术在辅助信息检索和文本处理应用更正拼写错误的异同,分别为这两个领域设计并实现了系统。在信息检索领域,在对海量网页查询日志分析的基础上,我们发现错误拼写词与其正确拼写建议往往在相同或者类似的上下文中出现,而与其他拼写相近的候选建议极少出现甚至不出现。我们使用分布式相似度指标对这种上下文相似性进行度量。基于这个发现,我们首先采用了噪音信道模型,用分布式相似度对其错误模型进行了改进;我们还将分布式相似度作为一个特征用于最大熵判别模型中,结合编辑距离、发音相似度、语言模型等基本特征。在实验中我们比较了噪音信道和最大熵模型的性能。为更正文本处理应用中的拼写错误,我们提出了一种新的基于判别式重排序拼写校正方法,第一次将拼写校正问题归结为一个排序问题,比较了传统上归结为分类问题的优劣。该方法针对已有拼写校正系统(GNU Aspell)的输出进行重排序,使用判别式模型Ranking SVM来改进它的性能。它将现今较为成熟的拼写校正技术以特征的形式整合到这个模型中来,显著地提高了基准系统Aspell的初始排序质量,同时也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块。此外,针对模型学习标注训练对往往需要耗费大量人力物力的情况,我们还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的新方法。采用这种训练对的模型获得了基于人工标注数据模型所得结果相近的性能。最后本文给出了拼写校正评测中的一些建议,对今后的研究工作进行了展望,提出了若干值得研究的问题。