【摘 要】
:
本文在分析了有关基本名词短语和最长名词短语结构的基础上,针对两者在机器翻译方面存在的局限性,提出一种新型结构的汉语名词短语,即汉语简单名词短语(简称SNP),旨在减少在
论文部分内容阅读
本文在分析了有关基本名词短语和最长名词短语结构的基础上,针对两者在机器翻译方面存在的局限性,提出一种新型结构的汉语名词短语,即汉语简单名词短语(简称SNP),旨在减少在机器翻译过程中因短语识别歧义而产生的翻译错误,以提高机器翻译的精度。在SNP识别方法方面,本文提出一种融合统计机器学习与后处理规则的混合识别策略,即在统计识别的基础上,使用后处理规则进行错误修正。在统计机器学习阶段,采用条件随机场(CRFs)序列标注工具进行模型训练。训练过程中,为了获得具有较强预测能力的特征模型,在基本特征模板的基础上,引入了通过多组测试实验得到的效果最优的三元特征模板,形成了统计模型的完全特征模板集。基于CRFs的统计实验结果显示:使用完全特征模板集构建的模型进行短语识别得到的精确率、召回率和F-值分别为88.45%、90.33%和89.40%,较之于基本特征模板,分别提高了0.04、0.05和0.07个百分点。为了进一步提高SNP识别的精度,本文在对统计结果中的存在的错误样本进行归类分析的基础上,结合单字动词功能词典、同义词词林、单词搭配频率等辅助数据资源,针对性地制定了相应的后处理规则,主要包括基于语义相似度的并列型处理规则、基于单字动词功能词典的单字动宾型处理规则、基于程度副词词典的程度副词型处理规则和专名型处理规则,对统计方法中不同类别的SNP存在的错误进行修正。实验结果显示,在融合了后处理规则后,简单名词短语识别的精确率、召回率和F-值分别为90.07%,90.62%,90.34%。与单纯使用统计方法相比,精确率提升1.62%。
其他文献
由于近年来浅水海域水环境日渐恶化,将浅水网箱养殖推向深海,寻找更好的养殖环境和更高质量的养殖产品成为我国乃至世界各国的发展趋势,深水网箱所在的外海养殖区域天然屏障
季节性河流径流量分布差异较大,年内集中于汛期的几个月内,年际丰枯变化剧烈,在传统防洪思想下,洪水被视作猛兽避之不及。随着经济社会的发展,近些年来我国对水资源的需求量
近年来,我国道路交通事故迅速增加。由于缺乏相应约束系统的保护,儿童乘员在交通事故中往往承受比成人更严重的伤害。研究表明,正确使用儿童安全座椅能有效地保护儿童乘员在
2008年7月23日,国务院第十八次常务会议审议通过了《公共机构节能条例》,并已于2008年10月1日起实施。条例的制定实施标志着政府节能工作纳入了法制化轨道。公共机构节能,是
我国经济实力的不断上升的同时也伴随着愈来愈严重的环境污染问题,在这些产生环境污染的“三废”中,人们向来较为重视对废水和废气的整治,而忽视了对固体废弃物的整治。在固
出口产品检验监管在我国已经有近一百年的历史,在每一个特定的历史阶段,都起到了适应当时社会经济发展需求的作用。改革开放三十多年来,我国外贸经济发展迅速,这既是出口产品
叔亮氨酸是一种非蛋白原的手性氨基酸,具有占位空间大的叔丁基链,它能够很好地控制分子构象,增加多肽的疏水性和受酶降解的稳定性,因此在临床上可用于抗癌、抗艾滋病等药物的
在当前全球能源和环境危机的背景下,太阳能作为可再生能源中最重要的基本能源,将在我国能源发展战略中起到举足轻重的作用。我国严寒和寒冷地区占国土面积的2/3以上,以燃煤为
探究宁夏贺兰山自然保护区森林生态系统净化大气功能的空间分布格局,可为保护区森林生态系统经营管理提供指导。本研究从提供负离子、吸收二氧化硫、吸收氟化物、吸收氮氧化
为从蒸散耗水角度对黄土区刺槐林地土壤水分剖面进行垂直分层,在山西吉县蔡家川流域刺槐林地布设频域反射仪对0~150 cm土层分层连续测定土壤水分,综合利用灰关联分析法和有序