基于统计语言模型的拼写错误检查系统的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:MAGICDHJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是实现计算机与人之间使用自然语言进行有效通信的科学领域,可以提高计算机的易用性和人机交互的友好性。自然语言处理包含机器翻译、语音识别、拼写检查和语音合成等众多领域,作为其中的一个重要分支,拼写错误检查是提高计算机系统友好性和使用效率的重要工具,其准确性、计算效率、系统规模与灵活性是研究的重点。  基于语法规则的拼写错误检查存在误判率高、规则爆炸的问题,因此基于统计方法的拼写错误检查是目前研究的趋势。然而,文本的拼写错误检查工作量与文本的数量成正比,随着文本规模的不断扩大、文本内容专业性和繁杂程度的提高,以及大型语料库内容日趋庞杂,其效率与质量问题逐渐凸显。建立高效的语料库以及相应的更新与维护机制可以为拼写错误检查系统的计算性能提供保障,而设计良好的拼写错误检查模型及算法可以提高拼写错误检查结果的准确率。本论文围绕焦点科技股份有限公司旗下英文电子商务网站“中国制造网”(www.made-in-china.com)的拼写错误检查的需求展开系统研发工作,如何有针对性地提高行业词汇分辨能力、充分利用用户反馈、降低资源占用率以及增加系统处理并发度等问题也是论文需要解决的重要问题。  针对上述问题,本论文使用N-gram统计模型作为主要技术手段,在此之上进行优化和改进,解决拼写错误检查准确性、计算效率和系统灵活性的问题,实现了一个英文拼写错误检查原型系统MICSpellChecker。它能够为在线和离线文档提供英文检查和纠错功能,对涉外电子商务网站或其他系统的文档正确性检查提供支持。论文首先研究和设计了拼写错误检查系统的总体结构,包括数据服务、支撑服务和应用服务及其中各个模块的划分与接口的设计;然后对系统的数据基础——语料库的数据来源、结构划分和维护机制进行了研究与设计;接着分析并设计了系统关键模块的解决方案和算法,包括错误检查和正确单词推荐中的统计语言算法、用户文本统计信息的收集机制以及语料库的更新算法等,并对检查结果和推荐结果的准确性与合理性进行了分析和检验;最后实现了系统的各个模块并进行了集成与测试,根据对系统测试结果的分析,验证了本论文的拼写错误检查系统在功能与性能上达到了实际使用中的需求。  论文基于对现有统计语言模型与语料库的改进,为焦点科技电子商务网站“中国制造网”提供英文拼写错误检查系统。本文研究中使用的分类语料库具有查询速度快与扩展性良好的特点,系统中的语料库加权计算方案是对N-gram模型的一个改进,可以有效提高拼写错误检查中结果的准确率和系统运行中对语料库调用的灵活性,为将来的拼写错误检查以及相关的自然语言处理的改进提供了可行的思路。
其他文献
随着无线通信网络的快速发展和新型高效的视频压缩技术的出现,视频传输在移动通信网络和终端上得到了越来越广泛的应用。目前已有若干视频压缩标准在无线网络视频传输中得到
随着数字信息技术和网络技术的高速发展,计算机的发展走入了“后PC”时代,嵌入式系统越来越成为这个时代的主流。同时嵌入式Internet技术也开始广泛得到应用。但当它带来高效,快
主体(Agent)理论是计算机科学和人工智能中发展很快的前沿领域,目前,Agent已经成为许多领域中通用的概念。它代表着一种新的研究方法的诞生,并推动着人工智能的发展。移动Age
嵌入式数据库大多用在诸如掌上电脑、PDA、车载设备、移动电话等存储容量非常有限的嵌入式系统中。由于嵌入式数据库存储容量的限制,如何充分利用这些有限的存储空间,提高嵌
近年来,随着我国经济发展水平的不断提升,城市轨道交通事业也进入了迅猛的发展阶段,在未来几年中,我国将会有更多的地铁线路和地铁列车投入运营。便利的城市轨道交通为市民的出行带来了极大便利,同时也带来了电能消耗的迅速增加,我国又是一个能源相对比较匮乏的国家,因此,在分析城市轨道交通能源消耗情况的基础上研究城市轨道车辆节能途径,是一件迫在眉睫的紧要工作。本文针对超级电容储能系统展开研究。首先在介绍再生制动
本文提出使用前馈型人工神经网络对连续音频流中纯语音、纯音乐、语音+音乐3类音频进行分类的方法。主要针对两个方面:1、哪些特征向量可作为分类的依据以及哪种特征向量会取
随着互联网的快速发展和计算机应用范围的不断扩展,越来越多的图像数据需要被分析和处理,但是,传统的检索方式已经不能满足实际的需求。为了便于图像检索和识别,出现了一种称
Internet为人们提供了极其丰富的信息资源,在这些海量、异构的Web信息资源中蕴含着具有巨大潜在价值的知识。但是,面对信息的汪洋大海,人们往往感到无所适从,出现了所谓的“信息
入侵检测是一种能检测任何企图破坏资源完整性、保密性和可用性等入侵行为,并能采取对抗措施的技术。目前,入侵检测技术研究的重点集中在无需指导的异常检测上。聚类分析是无
人像照片背景替换技术是在人像照片中,运用彩色图像分割技术对照片进行处理,提取人像并分离背景,将分离的背景替换成其他颜色或者其他背景,它广泛应用于人事、公安、海关等部门的