论文部分内容阅读
摘要:本文通过对藏文文本中不规范文本进行分类后,针对不同类型的文本特征制定规范化处理方法,最终实现了对藏文文本的规范化处理。但因藏文文本来源的不确定性,文本中可能会存在一些未收集到的不规范文本类型,需在后期的研究工作中继续收集整理。
关键词:信息处理; 藏文文本; 规范化
中图分类号: TP391
文献标志码:A
文章编号: 2095-2163(2016)06-0029-03
0引言
[JP2]藏文文本规范化处理主要是对藏文文本做版面分析,识别并规范藏文文本中可能出现的非正常藏文字符的过程。藏文文字属于符号文字,藏文文本中除包含正常的藏文字符外,还可能会出现借形词、特殊符号、黏着语等一些特殊字符形式\[1\]。这些藏文特殊字符的存在会直接影响到文本信息处理的正确性。在规范化处理时,需在正确理解其产生原因的基础上确定相应处理方式,依据其所处语境设定相应规则将这些符号转换成规范的藏文文本形式。在藏语字音转换系统中,对非规范形式的藏文文本进行规范化处理能保证后续字音转换顺利完成,因此对藏文文本规范化处理是一个必不可少的基础工作。
[JP3]本文通过对藏文文本进行分析,确定藏文文本规范化主要有2个任务:第一个任务是特殊符号归一化;第二个任务是外借词藏文化。在此,拟将针对每一部分研究给出如下分析论述。[JP]
[BT4]1特殊符号归一化
藏文文本规范化主要是指在藏文文本中出现的一些非常用藏文标记符号以及其它有特殊含义的符号,这些特殊符号的存在会对后期文本理解造成歧义。
[BT5]1.1标记符号归一化处理
在藏文文本中可能会存在这样一些符号,这类符号有些能够表达语言功能,有些只是文本中存在的装饰性图案,这些标记符号对语音并没有任何作用,因此在获取规范化设计时即需要进行归一化处理。
根据目前从各类文献中收集藏文符号和图形的分析,藏文文本中的字符与图形可以划分为文字符号与非文字符号两大类。其中,文字符号除了包括能够书写语言声音的藏文字符外,还包括描写声音连接、停顿和结束的符号;非文字符号可以表示某种事物或观念意义,但与语言声音无关,主要包括篇章符、敬重符、历算符等\[3\]。
藏文文本中出现的藏文标记符号,一般没有实际语义,所以对这些符号推行规范化处理时,只需要获取其出现的特征标记以及对应的编码形式,通过建立标记符号替换规则表,然后在待处理的文本中识别出这些符号,利用标记符号替换规则表即可实现归一化处理。
[BT5]1.2其它类型特殊符号归一化处理
其它类型特殊符号规范化处理时,首先收集整理可能出现的符号类型以及其表示的具体语义;其次是确定标准的藏文文本表示形式;最后再建立对应的映射规则表。规范化处理时直接通过映射规则表查找出对应的符号,再将其利用表里的标准藏文文本形式代替即可。映射规则表如表1所示。
2外借词藏文化处理
因藏文文本的网络化传播,许多藏文文本中存在这样一类词,这一类词借用藏语以外的其他民族語言字形,但是却需要按照藏语的读音来读,这类词就是外借词。外借词主要有2种形式,一种是简略词形式,一种是数字符号形式。
[BT5]2.1简略词规范化处理
藏文文本中的简略词,主要来源于其它语种中一些事物缩略表示形式。简略词的存在会影响对藏文文本的正确分析,因此对简略词规范化处理在自动注音系统中非常重要。
一般而言,藏文文本中包含的简略词主要有2类:一类是常用的单位简写形式。例如:mm、cm、kg等,这种形式需要转换成藏文进行发音;另一类是一些特殊名词的简略表示形式。例如:CO、LA、CA、DC、USA等,这一类外借词在规范化处理时直接按照原来的形式与藏文分开。简略词规范化处理主要是通过建立简略词转换表来获得实现的,简略词转换如表2所示,具体处理过程如下[3]:
1)首先对已进行符号归一化处理的藏文文本按照句子进行切分,其次将藏文句子按照藏文文本、数字符号以及其它文本进行识别并标记,以此得到3类不同的字符块。
2)将切分后的句子中所有文本块分别在简略词表中查找,若在简略词表中,转3),否则转4)。
3)查找结果在上下文中进行一一对应,确定对应的规范化形式。
4)继续处理下一个句子。
2.2数字符号规范化处理
2.2.1数字符号种类
数字符号的表示形式主要有4类[4],具体给出如下分析论述。
1)电话号码形式。固定电话号码形式相对一致,可能包含前缀符号、区号和普通号码三个部分,每部分之间可能存在分隔符号。一般而言,国内的电话基本一致,包含区号和普通号码两部分共计11个数字符号,其中区号部分有3~4个数字,普通号码有7~8个数字。如果一个文本块判别属于这种模式,那么其显示为电话号码形式的几率就比较大。[JP2]之后再利用该文本块相邻的上下文内容进行查找,判断是否有一些指时间在藏文文本中也可能有多种表示形式。常见的一些关于时间的书写方式有9:30,9:30am,8:00-8:30等。但有时候如果仅仅出现上述形式,并不能完全说明该文本表示形式就是时间。比如“9:30”这种形式如果出现在比赛描述中,说明场上比分是“9:30”,此时的“9:30”就不能用时间形式来进行转换,而需要综合上下文语境后再进行转换。针对这些可能出现歧义的表示形式,不能简单地只考虑文本表达式的匹配,还需要考虑上下文的环境,确定具体描述的意义之后再进行对应的转换。
3)金钱货币形式。藏文文本中也可能会出现一些常见的货币表示形式,该形式在藏文文本出现时基本可以通过货币单位而得到关联辨别,在规范化处理时,直接进行识别替代即可。 4)其它数字符号形式。由于藏文文本来源各异,因此在藏文文本中可能会出现小数2.178、温度-20.5 ℃、商品型号M4350、IP地址202.200.10.11等常见数字符号形式,也可能会出现其它特定的数字符号形式。这些数字符号在规范处理过程中需要动态加入新的数字块识别规则,以便处理新的数字形式。
2.2.2数字符号规范化处理的技术设计方案
数字符号在规范化处理时,首先参照陈志刚等在《中文语音合成系统中的文本标准化方法》一文中对文本标准化规则库的创建方法,建立百分数规则、小数规则、数字区间规则、温度规则等规则,确定不同含义数字的组合规则;其次利用数字符号、特征词和标准藏文文本建立数字符号转换规则表,基于该表即可实现不同意义数字符号到标准藏文文本形式的转换[5]。数字符号转换规则如表3所示。
因藏文文本来源的不确定性,在文本中可能会存在一些未收集到的不规范文本类型,所以建立的规则知识库并不能处理这类文本。针对这种情况,项目中开放了数字符号转换规则表,允许用户添加新的数字符号识别特征词和组合规则,以便更加有效识别数字符号,从而提高数字符号规范化处理的准确性和完整性。
3结束语
[JP 1]藏文文本标准化处理是藏文信息处理领域中的重要内容之一,藏文文本标准化处理对藏文信息处理的进一步发展有着重要推动作用。本文通过对藏文文本中不规范文本设定提供了有效分类后,又针对不同类型的文本特征制定规范化处理方法,最终实现了对藏文文本的规范化处理。但因藏文文本来源的不确定性,文本中可能会存在一些未收集到的不规范文本类型,需在后期的研究工作中继续补充征集。
参考文献:[1]格桑居冕,格桑央京. 实用藏文文法教程[M]. 成都:四川民族出版社,2008.
[2] 扎西加,珠杰. 面向信息處理的藏文分词规范研究[J]. 中文信息学报,2009,23(4):113-117,123.
[3] [JP3]高璐,陈琪,李永宏,等. 藏语语音合成中文本分析的若干问题研究[J]. 西北民族大学学报(自然科学版),2010,31(2):27-32,75.[JP]
[4] 于洪志,杨博,关白. 藏文文本规范化技术的研究与实践[J]. 西北民族大学学报(自然科学版),2006,27(1):43-47.
[5] 陈志刚,胡国平,王熙法. 中文语音合成系统中的文本标准化方法[J]. 中文信息学报,2003,17(4):45-51.[ZK)]
关键词:信息处理; 藏文文本; 规范化
中图分类号: TP391
文献标志码:A
文章编号: 2095-2163(2016)06-0029-03
0引言
[JP2]藏文文本规范化处理主要是对藏文文本做版面分析,识别并规范藏文文本中可能出现的非正常藏文字符的过程。藏文文字属于符号文字,藏文文本中除包含正常的藏文字符外,还可能会出现借形词、特殊符号、黏着语等一些特殊字符形式\[1\]。这些藏文特殊字符的存在会直接影响到文本信息处理的正确性。在规范化处理时,需在正确理解其产生原因的基础上确定相应处理方式,依据其所处语境设定相应规则将这些符号转换成规范的藏文文本形式。在藏语字音转换系统中,对非规范形式的藏文文本进行规范化处理能保证后续字音转换顺利完成,因此对藏文文本规范化处理是一个必不可少的基础工作。
[JP3]本文通过对藏文文本进行分析,确定藏文文本规范化主要有2个任务:第一个任务是特殊符号归一化;第二个任务是外借词藏文化。在此,拟将针对每一部分研究给出如下分析论述。[JP]
[BT4]1特殊符号归一化
藏文文本规范化主要是指在藏文文本中出现的一些非常用藏文标记符号以及其它有特殊含义的符号,这些特殊符号的存在会对后期文本理解造成歧义。
[BT5]1.1标记符号归一化处理
在藏文文本中可能会存在这样一些符号,这类符号有些能够表达语言功能,有些只是文本中存在的装饰性图案,这些标记符号对语音并没有任何作用,因此在获取规范化设计时即需要进行归一化处理。
根据目前从各类文献中收集藏文符号和图形的分析,藏文文本中的字符与图形可以划分为文字符号与非文字符号两大类。其中,文字符号除了包括能够书写语言声音的藏文字符外,还包括描写声音连接、停顿和结束的符号;非文字符号可以表示某种事物或观念意义,但与语言声音无关,主要包括篇章符、敬重符、历算符等\[3\]。
藏文文本中出现的藏文标记符号,一般没有实际语义,所以对这些符号推行规范化处理时,只需要获取其出现的特征标记以及对应的编码形式,通过建立标记符号替换规则表,然后在待处理的文本中识别出这些符号,利用标记符号替换规则表即可实现归一化处理。
[BT5]1.2其它类型特殊符号归一化处理
其它类型特殊符号规范化处理时,首先收集整理可能出现的符号类型以及其表示的具体语义;其次是确定标准的藏文文本表示形式;最后再建立对应的映射规则表。规范化处理时直接通过映射规则表查找出对应的符号,再将其利用表里的标准藏文文本形式代替即可。映射规则表如表1所示。
2外借词藏文化处理
因藏文文本的网络化传播,许多藏文文本中存在这样一类词,这一类词借用藏语以外的其他民族語言字形,但是却需要按照藏语的读音来读,这类词就是外借词。外借词主要有2种形式,一种是简略词形式,一种是数字符号形式。
[BT5]2.1简略词规范化处理
藏文文本中的简略词,主要来源于其它语种中一些事物缩略表示形式。简略词的存在会影响对藏文文本的正确分析,因此对简略词规范化处理在自动注音系统中非常重要。
一般而言,藏文文本中包含的简略词主要有2类:一类是常用的单位简写形式。例如:mm、cm、kg等,这种形式需要转换成藏文进行发音;另一类是一些特殊名词的简略表示形式。例如:CO、LA、CA、DC、USA等,这一类外借词在规范化处理时直接按照原来的形式与藏文分开。简略词规范化处理主要是通过建立简略词转换表来获得实现的,简略词转换如表2所示,具体处理过程如下[3]:
1)首先对已进行符号归一化处理的藏文文本按照句子进行切分,其次将藏文句子按照藏文文本、数字符号以及其它文本进行识别并标记,以此得到3类不同的字符块。
2)将切分后的句子中所有文本块分别在简略词表中查找,若在简略词表中,转3),否则转4)。
3)查找结果在上下文中进行一一对应,确定对应的规范化形式。
4)继续处理下一个句子。
2.2数字符号规范化处理
2.2.1数字符号种类
数字符号的表示形式主要有4类[4],具体给出如下分析论述。
1)电话号码形式。固定电话号码形式相对一致,可能包含前缀符号、区号和普通号码三个部分,每部分之间可能存在分隔符号。一般而言,国内的电话基本一致,包含区号和普通号码两部分共计11个数字符号,其中区号部分有3~4个数字,普通号码有7~8个数字。如果一个文本块判别属于这种模式,那么其显示为电话号码形式的几率就比较大。[JP2]之后再利用该文本块相邻的上下文内容进行查找,判断是否有一些指时间在藏文文本中也可能有多种表示形式。常见的一些关于时间的书写方式有9:30,9:30am,8:00-8:30等。但有时候如果仅仅出现上述形式,并不能完全说明该文本表示形式就是时间。比如“9:30”这种形式如果出现在比赛描述中,说明场上比分是“9:30”,此时的“9:30”就不能用时间形式来进行转换,而需要综合上下文语境后再进行转换。针对这些可能出现歧义的表示形式,不能简单地只考虑文本表达式的匹配,还需要考虑上下文的环境,确定具体描述的意义之后再进行对应的转换。
3)金钱货币形式。藏文文本中也可能会出现一些常见的货币表示形式,该形式在藏文文本出现时基本可以通过货币单位而得到关联辨别,在规范化处理时,直接进行识别替代即可。 4)其它数字符号形式。由于藏文文本来源各异,因此在藏文文本中可能会出现小数2.178、温度-20.5 ℃、商品型号M4350、IP地址202.200.10.11等常见数字符号形式,也可能会出现其它特定的数字符号形式。这些数字符号在规范处理过程中需要动态加入新的数字块识别规则,以便处理新的数字形式。
2.2.2数字符号规范化处理的技术设计方案
数字符号在规范化处理时,首先参照陈志刚等在《中文语音合成系统中的文本标准化方法》一文中对文本标准化规则库的创建方法,建立百分数规则、小数规则、数字区间规则、温度规则等规则,确定不同含义数字的组合规则;其次利用数字符号、特征词和标准藏文文本建立数字符号转换规则表,基于该表即可实现不同意义数字符号到标准藏文文本形式的转换[5]。数字符号转换规则如表3所示。
因藏文文本来源的不确定性,在文本中可能会存在一些未收集到的不规范文本类型,所以建立的规则知识库并不能处理这类文本。针对这种情况,项目中开放了数字符号转换规则表,允许用户添加新的数字符号识别特征词和组合规则,以便更加有效识别数字符号,从而提高数字符号规范化处理的准确性和完整性。
3结束语
[JP 1]藏文文本标准化处理是藏文信息处理领域中的重要内容之一,藏文文本标准化处理对藏文信息处理的进一步发展有着重要推动作用。本文通过对藏文文本中不规范文本设定提供了有效分类后,又针对不同类型的文本特征制定规范化处理方法,最终实现了对藏文文本的规范化处理。但因藏文文本来源的不确定性,文本中可能会存在一些未收集到的不规范文本类型,需在后期的研究工作中继续补充征集。
参考文献:[1]格桑居冕,格桑央京. 实用藏文文法教程[M]. 成都:四川民族出版社,2008.
[2] 扎西加,珠杰. 面向信息處理的藏文分词规范研究[J]. 中文信息学报,2009,23(4):113-117,123.
[3] [JP3]高璐,陈琪,李永宏,等. 藏语语音合成中文本分析的若干问题研究[J]. 西北民族大学学报(自然科学版),2010,31(2):27-32,75.[JP]
[4] 于洪志,杨博,关白. 藏文文本规范化技术的研究与实践[J]. 西北民族大学学报(自然科学版),2006,27(1):43-47.
[5] 陈志刚,胡国平,王熙法. 中文语音合成系统中的文本标准化方法[J]. 中文信息学报,2003,17(4):45-51.[ZK)]