汉语统计语言模型的N值分析

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:linyi870821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。更多还原
其他文献
<正> 酱油菌种经过多次移植和长期冷藏,往往会逐渐退化甚至变异,导致曲种难培养、质量下降、酱曲酶活力下降和出油率低。我厂对己明显退化的菌种,采取连续纯粹培养的方法进行
目的了解崇左市江州区中小学生HBsAg和HBsAb阳性率,为防制工作提供参考。方法对江州区31124名7~16岁中小学生采用ELISA法进行血清中HBsAg和HBsAb检测后统计分析。结果HBsAg阳
高中阶段的学习对于学生来说非常重要,尤其是数学的学习,更是重中之重。针对高中数学的教学现状,教师应该积极进行教学创新,首先,要明确高中数学创新教学的重要性;其次,要从课堂教学方法,内容上寻找创新突破点;紧接着教师还要注重学生创新思维的培养,帮助学生养成活学活用不断探索的学习习惯。创新是一种意识,也是一种能力,要不断地去探索,才能找到最合适高中数学的创新教学方法,在探索高中数学创新教学的路上,教师还
本文讨论建立从GB2312-80汉字到整型数据的映射在中文信息处理中的意义,提出了一个连续可逆映射,并论证了该映射,并论证了该映射所具的优良性。
小学数学作为一门基础学科,是素质教育教学的核心部分。随着近几年来数学教育改革的开展,数学教学的方式和思想方法都引起了广大师生的重视,数学思想方法及其导学模式作为重
目的了解甲硝唑、替硝唑和阿奇霉素对人芽囊原虫的作用效果。方法从门诊病人阳性粪便中分离出人芽囊原虫,接种到96孔无菌培养板中,实验组加入不同药物浓度的甲硝唑、替硝唑和阿
“兴趣是最好老师”。任何学科的学习要想获得好的教学效果,首先需要学生对这门学科产生较强的学习兴趣。兴趣能够提升学生对这门学科的学习热情,学生只有在数学的学习感兴趣
随着我国计算机应用水平的提高,Internet的迅速普及,GB2312-80 中的6763个汉字已不能满足应用的需要.ISO 10646标准的制定,使得为开发支持大汉字字符集的中文平台提供了宽阔
毕业以来,通过四年多的物理教学,我发现这样一个问题:作为一名新教师,我每节课都认真准备,力求达到最好的教学效果!课堂上也充分准备一些与所学知识点有关的小实验以及实例,想时刻振奋学生的精神,让他们在课堂上时刻保持兴趣。经过精心的设计,课堂气氛确实很轻松活跃,通过课堂上的提问,感觉课堂效果也达到了预期目标。可作业反映的情况和考试的成绩却总是不理想。为了找到原因,我找不同的学生交流过,发现大多数学生都是
随着人民生活消费水平的不断提高,人们对各种调味食品有了许多新的要求。为了发展我国传统调味食品,满足广大消费者不同需要和要求,各地调味食品、食品科研工作者研制和开发