面向中文校对的语料库并行处理技术研究

被引量 : 0次 | 上传用户:yush2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和自然语言处理技术的飞速发展,采用计算机处理大规模的语料已成为不可逆转的趋势。一方面,随着互联网的发展,新语料的出现速度越来越快,规模越来越大,语料库处理过程需要提高效率;另一方面,计算机并行计算模型以及多核计算机、集群等并行硬件架构日益成熟为大规模的语料库处理提供了技术支持,因此语料库并行处理成为自然语言处理领域的一种发展趋势。本文面向中文自动校对,采用MapReduce并行模型,围绕语料库并行处理技术进行了以下研究。首先,分析了中文文本错误产生原因,研究了基于错词库的校对方法,提出了一种基于混淆集的错词库的构建方法,设计了基于MapReduce的错词库并行构建算法,提高了构建错词库效率,实验表明该方法能够较好地解决“非词错误”问题,提高了中文校对中出现字错误的校对准确率。其次,分析了基于错词库的校对方法在考虑上下文语境时的局限性,研究了中文组块识别技术,提出了一种基于互信息的中文组块识别方法,通过组块形成上下文语境,扩展了基于错词库的校对方法。设计了基于MapReduce的中文组块识别并行处理算法,该算法提高了中文组块识别效率,采用中文组块可以较好地解决“真词错误”问题。第三,中文词性对校对语义分析具有很重要的作用,研究了基于条件随机场的词性标注方法,构建了中文词性标注的条件随机场模型,设计了基于MapReduce的条件随机场并行算法。实验表明该算法提高了词性标注效率。最后,集成了上述错词库构建方法、中文组块识别方法和中文词性标注方法,实现了中文校对原型系统,与商业校对软件对比,该系统能较好的实现中文的自动校对,提高字词校对的召回率和准确率。
其他文献
海拉尔油田压裂液种类多,成分复杂,黏度高。针对压裂返排液处理难度大,成本高,效果差的问题,提出以下处理工艺:返排液在废液池内自然降解→在废液池内加药预处理→电絮凝机处
刑法修正案(九)增设了从事校车业务、旅客运输,严重超过额定成员载客(以下简称超员),或者严重超过规定时速行驶(以下简称超速)的危险驾驶犯罪行为。该修正案实施近三年以来,
《画梦录》是现代散文创作的重要收获,其语言精致优美,富于诗意,状物、绘景、写人、述事富于个性特征,对现代散文创作有重要影响。
对一种采用占空比移相PWM控制方式的改进型半桥DC/DC变换器进行了研究。针对对称半桥在占空比很小时无法实现软开关和不对称半桥变压器必然存在直流磁化电流以及器件电压应力
目的:通过对卵巢型子宫内膜异位症(OEM)患者腹腔镜术后给予不同治疗方法,比较患者出现的症状、血清CA125和骨密度的变化以及药物的副反应,探讨OEM术后有效的治疗方法。方法:选取2
结合大庆油田采油一厂实际情况,在对腰轮流量计、防沙腰轮流量计、金属刮板流量计的现场使用情况进行调查分析的基础上,总结出了适合全厂各区域环境的原油流量计类型。在低含
古村落是一种独特的旅游资源。该文分析安徽黟县宏村古村落的地理文脉、村落特性、聚落景观、市场感应等 ,提出了宏村古村落旅游形象定位理念 ,并就主题口号、视觉形象、行为
现对调速要求较高的领域比如军工、机器人控制等还广泛的使用直流调速。随着计算机的发展,数字控制器已逐步替代模拟控制器用于直流调速系统,用FPGA做为数字控制器的直流调速系
针对长庆油田压裂作业用水量大与废水产生量大产生的环保压力与水量消耗量大的问题,通过对废水特征的分析以及对油田生产现状的调研,以回收再利用为目标,提出废水处理后作为
部分线性单指标模型是由线性模型和单指标模型组合成的一类半参数统计模型。该模型能够在参数统计推断与非参统计推断之间取得某种平衡,具有良好的统计性质并且在经济、生物、