论文部分内容阅读
[摘 要]本文通过紧缩词在现代藏文中的使用,得出了紧缩词的两种使用形式,根据它的使用形式总结了两种的校对方法,并设计算法对校对方法进行实验,以此来完善藏文的校对方法。
[关键词]词性,信息处理,校对
中图分类号:H214 文献标识码:A 文章编号:1009-914X(2015)45-0269-01
引言
随着藏文信息处理的发展,藏文的自动校对也取得了很多成果,2009年才让卓玛等人研究了基于词库、语法、语义分析的校对系统[1],后来安见才让教授提出了一种规则和藏字语法分析相结合的藏字校对算法[2], 珠杰等人又提出藏文文本自动校对框架和接续关系检查算法[3]。但是藏文文本的校对文献仍然不多并且校对结果也不是完美,所以在此提出了紧缩词的校对方法。
1 的使用方法
格桑居冕提出:“及物动词指的就是能带涉事宾语的及物动词,带涉事宾语的及物动词做谓语时,表示施事的主语毫无例外地要用作格助词”[4]。
是作格助词五个变体形式“”之一,其添接规则是后加字“”和无后加字后面不直接加“”,先把后加字“”去掉,再加“”。
本文的使用方法是根据在句子中和其它词性的搭配使用形式总结而得到的,常见的有一下两种:
1.1 词性++词性
(1)名词++及物动词
例1:(拉姆在写)
例2:(学生在看)
(2)代词++及物动词
例1:(他给了)
例2:(我们在唱)
(3)数词++及物动词
例1:(二十个在做)
例2:(十个在吃)
(4)数词++形容词
例1:(重十斤)
1.2 动词/形容词++
例1
([本宪法]是国家的根本法、[因此]具有最高的法律效力。)[4]
例2:(由于轻所以浮在上面)
例3:(因美而看)
例4:(因妙而听)
2 使格的校对方法
根据的使用方法可以得出以下的校对方法:
2.1 词性++词性的校对方法
(1)设定S={si|si∈{名词,代词}},F={fi|fi∈{及物动词,形容词}},Q为预处理的完整句子的字符串;
(2)从Q中查找紧缩词;
(3)如果存在紧缩词,再从Q中紧缩词的前面查找si;
(4)如果存在si,紧缩词的后面查找及物动词;
(5)如果存在及物动词可以判定是紧缩词的正确用法,否则标记为错误用法。
(6)如果步骤(4)的条件不成立,紧缩词的前面查找数词;
(7)如果存在数词,紧缩词的后面查找fi;
(8)如果存在fi,可以判定是紧缩词的正确用法,否则标记为错误用法。
2.2 动词/形容词++的校对方法
(1)设定F={fi|fi∈{动词,形容词}},S={si|si∈{?,?}},Q为预处理的完整句子的字符串;
(2)从Q中查找紧缩词;
(3)如果存在紧缩词,判断紧缩词前面紧邻的是否为si;
(4)如果是si,再判断si前的前一个词是否属于fi;
(5)如果是属于fi,可以判定,后面的是紧缩词且用法正确,否则标记为错误用法。
3 实验
根据上述的算法对现代藏文短句进行了实验,对实验结果的分析,在词性标记完全正确的情况下,本文提出的校对方法正确率能达到百分之百。
注释: 在本文中所使用的词性标记参考了安见才让老师的“ 青海民族大学藏语语料库基本加工规范” 。
4 结束语
藏文文本校对作为藏文自然语言处理的重要研究内容,有助于藏文自然语言处理理论的提升,有助于藏文文本检查上有广泛的应用。本文通过紧缩词的使用形式研究了校对紧缩词的方法,并且得到了两种校对方法。
参考文献
[1]才让卓玛,才智杰.藏文文本自动校对系统开发研究[J].西北民族大学学报(自然科学版),2009,30(73):P25-28
[2]安见才让.基于分段的藏字校对算法研究[J].中文信息学报,2013年3月,第27卷:P58-64
[3]珠杰,李天瑞,刘胜久. 藏文文本自动校对方法及系统设计[J]. 北京大学学报(自然科学版),2014,50(1):142-148
[4]格桑居冕.藏文文法教程[M].四川民族出版社:P18-43,419-427
[5]毛尔盖·桑木旦.藏文文法概论[M].四川民族出版社:P42-43
作者简介:扎西本 男 藏族 硕士 研究方向:藏文信息处理与工程
[关键词]词性,信息处理,校对
中图分类号:H214 文献标识码:A 文章编号:1009-914X(2015)45-0269-01
引言
随着藏文信息处理的发展,藏文的自动校对也取得了很多成果,2009年才让卓玛等人研究了基于词库、语法、语义分析的校对系统[1],后来安见才让教授提出了一种规则和藏字语法分析相结合的藏字校对算法[2], 珠杰等人又提出藏文文本自动校对框架和接续关系检查算法[3]。但是藏文文本的校对文献仍然不多并且校对结果也不是完美,所以在此提出了紧缩词的校对方法。
1 的使用方法
格桑居冕提出:“及物动词指的就是能带涉事宾语的及物动词,带涉事宾语的及物动词做谓语时,表示施事的主语毫无例外地要用作格助词”[4]。
是作格助词五个变体形式“”之一,其添接规则是后加字“”和无后加字后面不直接加“”,先把后加字“”去掉,再加“”。
本文的使用方法是根据在句子中和其它词性的搭配使用形式总结而得到的,常见的有一下两种:
1.1 词性++词性
(1)名词++及物动词
例1:(拉姆在写)
例2:(学生在看)
(2)代词++及物动词
例1:(他给了)
例2:(我们在唱)
(3)数词++及物动词
例1:(二十个在做)
例2:(十个在吃)
(4)数词++形容词
例1:(重十斤)
1.2 动词/形容词++
例1
([本宪法]是国家的根本法、[因此]具有最高的法律效力。)[4]
例2:(由于轻所以浮在上面)
例3:(因美而看)
例4:(因妙而听)
2 使格的校对方法
根据的使用方法可以得出以下的校对方法:
2.1 词性++词性的校对方法
(1)设定S={si|si∈{名词,代词}},F={fi|fi∈{及物动词,形容词}},Q为预处理的完整句子的字符串;
(2)从Q中查找紧缩词;
(3)如果存在紧缩词,再从Q中紧缩词的前面查找si;
(4)如果存在si,紧缩词的后面查找及物动词;
(5)如果存在及物动词可以判定是紧缩词的正确用法,否则标记为错误用法。
(6)如果步骤(4)的条件不成立,紧缩词的前面查找数词;
(7)如果存在数词,紧缩词的后面查找fi;
(8)如果存在fi,可以判定是紧缩词的正确用法,否则标记为错误用法。
2.2 动词/形容词++的校对方法
(1)设定F={fi|fi∈{动词,形容词}},S={si|si∈{?,?}},Q为预处理的完整句子的字符串;
(2)从Q中查找紧缩词;
(3)如果存在紧缩词,判断紧缩词前面紧邻的是否为si;
(4)如果是si,再判断si前的前一个词是否属于fi;
(5)如果是属于fi,可以判定,后面的是紧缩词且用法正确,否则标记为错误用法。
3 实验
根据上述的算法对现代藏文短句进行了实验,对实验结果的分析,在词性标记完全正确的情况下,本文提出的校对方法正确率能达到百分之百。
注释: 在本文中所使用的词性标记参考了安见才让老师的“ 青海民族大学藏语语料库基本加工规范” 。
4 结束语
藏文文本校对作为藏文自然语言处理的重要研究内容,有助于藏文自然语言处理理论的提升,有助于藏文文本检查上有广泛的应用。本文通过紧缩词的使用形式研究了校对紧缩词的方法,并且得到了两种校对方法。
参考文献
[1]才让卓玛,才智杰.藏文文本自动校对系统开发研究[J].西北民族大学学报(自然科学版),2009,30(73):P25-28
[2]安见才让.基于分段的藏字校对算法研究[J].中文信息学报,2013年3月,第27卷:P58-64
[3]珠杰,李天瑞,刘胜久. 藏文文本自动校对方法及系统设计[J]. 北京大学学报(自然科学版),2014,50(1):142-148
[4]格桑居冕.藏文文法教程[M].四川民族出版社:P18-43,419-427
[5]毛尔盖·桑木旦.藏文文法概论[M].四川民族出版社:P42-43
作者简介:扎西本 男 藏族 硕士 研究方向:藏文信息处理与工程