论文部分内容阅读
自然语言处理是实现计算机与人之间使用自然语言进行有效通信的科学领域,可以提高计算机的易用性和人机交互的友好性。自然语言处理包含机器翻译、语音识别、拼写检查和语音合成等众多领域,作为其中的一个重要分支,拼写错误检查是提高计算机系统友好性和使用效率的重要工具,其准确性、计算效率、系统规模与灵活性是研究的重点。 基于语法规则的拼写错误检查存在误判率高、规则爆炸的问题,因此基于统计方法的拼写错误检查是目前研究的趋势。然而,文本的拼写错误检查工作量与文本的数量成正比,随着文本规模的不断扩大、文本内容专业性和繁杂程度的提高,以及大型语料库内容日趋庞杂,其效率与质量问题逐渐凸显。建立高效的语料库以及相应的更新与维护机制可以为拼写错误检查系统的计算性能提供保障,而设计良好的拼写错误检查模型及算法可以提高拼写错误检查结果的准确率。本论文围绕焦点科技股份有限公司旗下英文电子商务网站“中国制造网”(www.made-in-china.com)的拼写错误检查的需求展开系统研发工作,如何有针对性地提高行业词汇分辨能力、充分利用用户反馈、降低资源占用率以及增加系统处理并发度等问题也是论文需要解决的重要问题。 针对上述问题,本论文使用N-gram统计模型作为主要技术手段,在此之上进行优化和改进,解决拼写错误检查准确性、计算效率和系统灵活性的问题,实现了一个英文拼写错误检查原型系统MICSpellChecker。它能够为在线和离线文档提供英文检查和纠错功能,对涉外电子商务网站或其他系统的文档正确性检查提供支持。论文首先研究和设计了拼写错误检查系统的总体结构,包括数据服务、支撑服务和应用服务及其中各个模块的划分与接口的设计;然后对系统的数据基础——语料库的数据来源、结构划分和维护机制进行了研究与设计;接着分析并设计了系统关键模块的解决方案和算法,包括错误检查和正确单词推荐中的统计语言算法、用户文本统计信息的收集机制以及语料库的更新算法等,并对检查结果和推荐结果的准确性与合理性进行了分析和检验;最后实现了系统的各个模块并进行了集成与测试,根据对系统测试结果的分析,验证了本论文的拼写错误检查系统在功能与性能上达到了实际使用中的需求。 论文基于对现有统计语言模型与语料库的改进,为焦点科技电子商务网站“中国制造网”提供英文拼写错误检查系统。本文研究中使用的分类语料库具有查询速度快与扩展性良好的特点,系统中的语料库加权计算方案是对N-gram模型的一个改进,可以有效提高拼写错误检查中结果的准确率和系统运行中对语料库调用的灵活性,为将来的拼写错误检查以及相关的自然语言处理的改进提供了可行的思路。