拼写校正技术在信息检索和文本处理领域的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:super56x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拼写校正是自然语言处理领域研究的一个热点。随着信息检索和文本处理系统的大规模应用,人工输入的文档中不可避免地包含拼写错误。对用户输入到搜索引擎中的查询或包含错误拼写的文档的处理会带来计算机资源和用户时间的极大浪费。在针对拼写校正技术的广泛和深入调查的基础上,我们比较了拼写校正技术在辅助信息检索和文本处理应用更正拼写错误的异同,分别为这两个领域设计并实现了系统。在信息检索领域,在对海量网页查询日志分析的基础上,我们发现错误拼写词与其正确拼写建议往往在相同或者类似的上下文中出现,而与其他拼写相近的候选建议极少出现甚至不出现。我们使用分布式相似度指标对这种上下文相似性进行度量。基于这个发现,我们首先采用了噪音信道模型,用分布式相似度对其错误模型进行了改进;我们还将分布式相似度作为一个特征用于最大熵判别模型中,结合编辑距离、发音相似度、语言模型等基本特征。在实验中我们比较了噪音信道和最大熵模型的性能。为更正文本处理应用中的拼写错误,我们提出了一种新的基于判别式重排序拼写校正方法,第一次将拼写校正问题归结为一个排序问题,比较了传统上归结为分类问题的优劣。该方法针对已有拼写校正系统(GNU Aspell)的输出进行重排序,使用判别式模型Ranking SVM来改进它的性能。它将现今较为成熟的拼写校正技术以特征的形式整合到这个模型中来,显著地提高了基准系统Aspell的初始排序质量,同时也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块。此外,针对模型学习标注训练对往往需要耗费大量人力物力的情况,我们还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的新方法。采用这种训练对的模型获得了基于人工标注数据模型所得结果相近的性能。最后本文给出了拼写校正评测中的一些建议,对今后的研究工作进行了展望,提出了若干值得研究的问题。
其他文献
学位
挖掘关联规则及规则的更新是数据挖掘领域的一个重要研究热点之一。目前已经提出了许多用于高效地发现大规模数据库中关联规则的算法,这些算法都有各自的特点。基于不同的关联
可重构计算系统利用可编程逻辑器件可重配置的特点,在通用微处理器和专用集成电路之间提供一个结合功能灵活性和高运算速度的平台,被认为是能满足未来嵌入式应用市场需求的一
互联网的发展和信息技术的进步,带来了信息量的猛增,人们很难在浩瀚的信息中找到真正需要的信息,虽然各种搜索引擎的出现在一定程度上解决了这一问题,但是各种搜索引擎都是简
我国的电子政务经过20多年的发展,得到了前所未有的发展。但仍然存在很多问题,如不同政府部门之间共享信息资源面临重复采集,数据命名、格式差异,部门间的数据不一致,技术多
电力行业在国民经济中占有重要的地位,随着电力系统的发展,越来越密织的电网,复杂的电力设备,使得电力行业的数据变得日益庞大且难于管理。如何将这些数据直观的显示在地图上,如何
目前,无线局域网大部分是基于IEEE802.11标准的,但是许多研究表明IEEE802.11标准存在诸如缺乏双向认证、存在弱密钥等安全问题。IEEE802.1x针对当前无线局域网出现的安全问题
随着Internet/Intranet快速发展,网络安全技术日益受到人们的重视。PKI(Public Key Infrastructure)是目前较为成熟的网络安全解决方案,它能够保障网络上各种应用的机密性、
微博作为Web2.0时代新生的网络应用形式,自诞生不久就以其惊人的影响力和急速攀升的用户数量在互联网业界引发了一场前所未有的“微革命”。与其他社交网络不同的是,微博不仅
嵌入式系统作为计算机应用的一个崭新领域,以其简洁、高效等优点越来越多地受到人们的关注,而要开发一个嵌入式应用系统,则需要嵌入式硬件、嵌入式操作系统及相应的开发工具