中文词法分析的研究及其应用

被引量 : 7次 | 上传用户:JK0803tanchanghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任务中,除了中文分词,还包括词性标注,未登录词(或新词)的识别和词性标注等基础性步骤,这些也是影响中文词法分析性能和精度提高的难点所在。首先,针对中文词法分析存在的问题,提出了一种新的融合单词和单字信息的基于词格的中文词法分析方法。该方法利用系统词表,构建包含所有分词和词性标注候选路径的词格,同时对候选未登录词及其词性进行同步识别并加入到词格中,降低了未登录词识别的运算复杂度,然后利用基于词的条件随机域模型,结合定义在整条输入路径上的全局特征模板,在词格中选择最终的分词以及词性标注结果。基于词的条件随机域的解码速度要高于基于单字的条件随机域,并降低了标注偏置问题和长度偏置的影响,在SIGHAN-6等开式和闭式语料上进行测试,获得了令人满意的结果。另外,为了进行对比,对基于单字的中文分词模型也进行了进一步的研究,在其中引入多个外部词典,并增加了相应的特征,进一步提高了基于单字的中文分词模型的分词精度;同时,为了满足高效率的中文词法分析需求,提出了基于最长次长匹配算法的一体化的中文词法分析方法,因为是基于隐马尔可夫进行编码和解码,因此具有较高的训练和词法分析速度。其次,针对中文词法分析中的未登录词识别和标注问题,提出了隐藏状态的半马尔可夫条件随机域模型(Hidden semi-CRF), Hidden semi-CRF模型可以同步识别未登录词及其词性。Hidden semi-CRF模型结合了隐藏变量动态条件随机域模型(LDCRF)和半马尔可夫条件随机域模型(semi-CRF)的优势,相对semi-CRF模型具有更低的运算代价和更高的识别精度。通过Hidden semi-CRF模型同步识别未登录词及其词性,并加入到词格中参与整体路径选择,提高了词法分析的整体精度。最后,将中文词法分析的结果直接应用到基于超函数的中日机器翻译系统中,对原有超函数进行了扩展:首先是将超函数扩展为面向句子的超函数和面向短语的超函数,其次是扩展了超函数中变量的范围,最后提出了高效率的搜索相似超函数的匹配算法。扩展后的超函数降低了超函数库的数量,提高了匹配超函数的检索速度,并且翻译的精度和质量也得到提高。
其他文献
近年来随着地震勘探技术的不断发展和对资源需求的日益增加,使得对地震资料的信号处理要求向着高效率、高精度、高分辨率的方向发展。本文结合国家自然基金课题“可控震源匹
随着全球人口趋于老龄化,肺癌的发病率和病死率明显上升。肺癌多发于老年群体,发现时多为中晚期,且存活时间短。病人年龄大、伴随疾病多,加之特殊的生理功能变化,增加了治疗
介绍了利用新型离心式粉碎机和人字形槽动静压混合式气体轴承透平膨胀机,采用普冷与压缩空气膨胀制冷相结合来生产精细胶粉的工艺路线及关键设备。这种技术具有操作方便、车间
中国古代成语中蕴藏着大量纺织信息,里面既包涵着丰富的纺织工艺信息,也包涵着灿烂的纺织文化信息,它们很多表征着纺织工艺和纺织文化的来源,此外还有些信息存在着一些对纺织
荷兰素来有围海造陆的传统,在恶劣的自然条件下持之以恒地开展筑堤、筑坝、开垦、排水等水利活动,不仅显示了荷兰人民与大自然顽强抗争的精神,还彰显出荷兰人利用水利工程进
<正>西南民族大学民族博物馆是新中国最早建立的民族博物馆之一。其中的羌族馆有释比文化和羌族文化综合两个展厅。释比文化展厅通过实物、模型和图片介绍了勒色——祭坛、神
运用现代经济学原理,从医疗卫生费用产生的整个链条来全面、系统地分析了我国医疗卫生费用增长的深层次原因,提出政府是导致医疗卫生费用不合理增长的主体因素。
随着公众环境意识的不断增强,环保法规的日益完善,人们开始更加关注废旧物品的回收问题,相应地如何更有效率地开展回收逆向物流活动也备受关注,逆向物流网络设计正好可以解决
本论文采用Al作为粘结剂,在国产六面顶高压设备上,利用熔渗法开展了聚晶立方氮化硼(PCBN)复合材料的合成和性质研究工作,成功烧结出系列高品质PCBN复合材料。研究表明:合成压
祥瑞是预兆或印证吉祥的、罕见而奇异的事物,它源自人们对美好生活的祈求。汉代是祥瑞思想最盛行的时期,绘画和装饰中祥瑞题材丰富多彩。汉代织绣纹样中所见的祥瑞题材亦十分