藏文文本规范化处理研究

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:donghao3000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文通过对藏文文本中不规范文本进行分类后,针对不同类型的文本特征制定规范化处理方法,最终实现了对藏文文本的规范化处理。但因藏文文本来源的不确定性,文本中可能会存在一些未收集到的不规范文本类型,需在后期的研究工作中继续收集整理。
  关键词:信息处理; 藏文文本; 规范化
  中图分类号: TP391
  文献标志码:A
  文章编号: 2095-2163(2016)06-0029-03
  0引言
  [JP2]藏文文本规范化处理主要是对藏文文本做版面分析,识别并规范藏文文本中可能出现的非正常藏文字符的过程。藏文文字属于符号文字,藏文文本中除包含正常的藏文字符外,还可能会出现借形词、特殊符号、黏着语等一些特殊字符形式\[1\]。这些藏文特殊字符的存在会直接影响到文本信息处理的正确性。在规范化处理时,需在正确理解其产生原因的基础上确定相应处理方式,依据其所处语境设定相应规则将这些符号转换成规范的藏文文本形式。在藏语字音转换系统中,对非规范形式的藏文文本进行规范化处理能保证后续字音转换顺利完成,因此对藏文文本规范化处理是一个必不可少的基础工作。
  [JP3]本文通过对藏文文本进行分析,确定藏文文本规范化主要有2个任务:第一个任务是特殊符号归一化;第二个任务是外借词藏文化。在此,拟将针对每一部分研究给出如下分析论述。[JP]
  [BT4]1特殊符号归一化
  藏文文本规范化主要是指在藏文文本中出现的一些非常用藏文标记符号以及其它有特殊含义的符号,这些特殊符号的存在会对后期文本理解造成歧义。
  [BT5]1.1标记符号归一化处理
  在藏文文本中可能会存在这样一些符号,这类符号有些能够表达语言功能,有些只是文本中存在的装饰性图案,这些标记符号对语音并没有任何作用,因此在获取规范化设计时即需要进行归一化处理。
  根据目前从各类文献中收集藏文符号和图形的分析,藏文文本中的字符与图形可以划分为文字符号与非文字符号两大类。其中,文字符号除了包括能够书写语言声音的藏文字符外,还包括描写声音连接、停顿和结束的符号;非文字符号可以表示某种事物或观念意义,但与语言声音无关,主要包括篇章符、敬重符、历算符等\[3\]。
  藏文文本中出现的藏文标记符号,一般没有实际语义,所以对这些符号推行规范化处理时,只需要获取其出现的特征标记以及对应的编码形式,通过建立标记符号替换规则表,然后在待处理的文本中识别出这些符号,利用标记符号替换规则表即可实现归一化处理。
  [BT5]1.2其它类型特殊符号归一化处理
  其它类型特殊符号规范化处理时,首先收集整理可能出现的符号类型以及其表示的具体语义;其次是确定标准的藏文文本表示形式;最后再建立对应的映射规则表。规范化处理时直接通过映射规则表查找出对应的符号,再将其利用表里的标准藏文文本形式代替即可。映射规则表如表1所示。
  2外借词藏文化处理
  因藏文文本的网络化传播,许多藏文文本中存在这样一类词,这一类词借用藏语以外的其他民族語言字形,但是却需要按照藏语的读音来读,这类词就是外借词。外借词主要有2种形式,一种是简略词形式,一种是数字符号形式。
  [BT5]2.1简略词规范化处理
  藏文文本中的简略词,主要来源于其它语种中一些事物缩略表示形式。简略词的存在会影响对藏文文本的正确分析,因此对简略词规范化处理在自动注音系统中非常重要。
  一般而言,藏文文本中包含的简略词主要有2类:一类是常用的单位简写形式。例如:mm、cm、kg等,这种形式需要转换成藏文进行发音;另一类是一些特殊名词的简略表示形式。例如:CO、LA、CA、DC、USA等,这一类外借词在规范化处理时直接按照原来的形式与藏文分开。简略词规范化处理主要是通过建立简略词转换表来获得实现的,简略词转换如表2所示,具体处理过程如下[3]:
  1)首先对已进行符号归一化处理的藏文文本按照句子进行切分,其次将藏文句子按照藏文文本、数字符号以及其它文本进行识别并标记,以此得到3类不同的字符块。
  2)将切分后的句子中所有文本块分别在简略词表中查找,若在简略词表中,转3),否则转4)。
  3)查找结果在上下文中进行一一对应,确定对应的规范化形式。
  4)继续处理下一个句子。
  2.2数字符号规范化处理
  2.2.1数字符号种类
  数字符号的表示形式主要有4类[4],具体给出如下分析论述。
  1)电话号码形式。固定电话号码形式相对一致,可能包含前缀符号、区号和普通号码三个部分,每部分之间可能存在分隔符号。一般而言,国内的电话基本一致,包含区号和普通号码两部分共计11个数字符号,其中区号部分有3~4个数字,普通号码有7~8个数字。如果一个文本块判别属于这种模式,那么其显示为电话号码形式的几率就比较大。[JP2]之后再利用该文本块相邻的上下文内容进行查找,判断是否有一些指时间在藏文文本中也可能有多种表示形式。常见的一些关于时间的书写方式有9:30,9:30am,8:00-8:30等。但有时候如果仅仅出现上述形式,并不能完全说明该文本表示形式就是时间。比如“9:30”这种形式如果出现在比赛描述中,说明场上比分是“9:30”,此时的“9:30”就不能用时间形式来进行转换,而需要综合上下文语境后再进行转换。针对这些可能出现歧义的表示形式,不能简单地只考虑文本表达式的匹配,还需要考虑上下文的环境,确定具体描述的意义之后再进行对应的转换。
  3)金钱货币形式。藏文文本中也可能会出现一些常见的货币表示形式,该形式在藏文文本出现时基本可以通过货币单位而得到关联辨别,在规范化处理时,直接进行识别替代即可。   4)其它数字符号形式。由于藏文文本来源各异,因此在藏文文本中可能会出现小数2.178、温度-20.5 ℃、商品型号M4350、IP地址202.200.10.11等常见数字符号形式,也可能会出现其它特定的数字符号形式。这些数字符号在规范处理过程中需要动态加入新的数字块识别规则,以便处理新的数字形式。
  2.2.2数字符号规范化处理的技术设计方案
  数字符号在规范化处理时,首先参照陈志刚等在《中文语音合成系统中的文本标准化方法》一文中对文本标准化规则库的创建方法,建立百分数规则、小数规则、数字区间规则、温度规则等规则,确定不同含义数字的组合规则;其次利用数字符号、特征词和标准藏文文本建立数字符号转换规则表,基于该表即可实现不同意义数字符号到标准藏文文本形式的转换[5]。数字符号转换规则如表3所示。
  因藏文文本来源的不确定性,在文本中可能会存在一些未收集到的不规范文本类型,所以建立的规则知识库并不能处理这类文本。针对这种情况,项目中开放了数字符号转换规则表,允许用户添加新的数字符号识别特征词和组合规则,以便更加有效识别数字符号,从而提高数字符号规范化处理的准确性和完整性。
  3结束语
  [JP 1]藏文文本标准化处理是藏文信息处理领域中的重要内容之一,藏文文本标准化处理对藏文信息处理的进一步发展有着重要推动作用。本文通过对藏文文本中不规范文本设定提供了有效分类后,又针对不同类型的文本特征制定规范化处理方法,最终实现了对藏文文本的规范化处理。但因藏文文本来源的不确定性,文本中可能会存在一些未收集到的不规范文本类型,需在后期的研究工作中继续补充征集。
  参考文献:[1]格桑居冕,格桑央京. 实用藏文文法教程[M]. 成都:四川民族出版社,2008.
  [2] 扎西加,珠杰. 面向信息處理的藏文分词规范研究[J]. 中文信息学报,2009,23(4):113-117,123.
  [3] [JP3]高璐,陈琪,李永宏,等. 藏语语音合成中文本分析的若干问题研究[J]. 西北民族大学学报(自然科学版),2010,31(2):27-32,75.[JP]
  [4] 于洪志,杨博,关白. 藏文文本规范化技术的研究与实践[J]. 西北民族大学学报(自然科学版),2006,27(1):43-47.
  [5] 陈志刚,胡国平,王熙法. 中文语音合成系统中的文本标准化方法[J]. 中文信息学报,2003,17(4):45-51.[ZK)]
其他文献
【摘要】“在激烈的国际竞争中,惟创新者进,惟创新者强,惟创新者胜。科学技术推动了生产力的发展和社会的进步。”小学科学作为一门基础性、实践性、综合性的课程,对于培养学生的科学素养、创新精神都具有重要的价值。  【关键词】小学科学课堂 科学素养 敢想勤思敢做  在基础教育过程中,不管是学生科学素养、创新精神和实践能力的形成,还是让学生从孩提时代就具备向书本、向老师、向专家挑战的科学精神和探究能力,最终
贵州省人民政府办公厅文件黔府办发[2018]13号各市、自治州人民政府,贵安新区管委会,各县(市、区、特区)人民政府,省政府各部门、各直属机构:为贯彻省委、省政府决策部署,打
期刊
尽管不少语言教师以其自身的方式诠释着教学方法和教学内容,但是我国外语教育的研究大多着眼于外在的行为方面,而非教师的内在特征及个人风格。本文在相关概念鉴别和区域调查的
<正>黔府函[2017]166号铜仁市人民政府:你市《关于审批铜仁市两河口饮用水水源保护区划分方案的请示》(铜府呈[2017]78号)收悉。经研究,现批复如下:一、原则同意你市两河口集
期刊
黔府办函[2019]82号各市、自治州人民政府,贵安新区管委会,各县(市、区、特区)人民政府,省政府各部门、各直属机构:为落实中央机构改革要求,牢固树立以人民为中心的发展思想,
黔府函[2015]273号黔南布依族苗族自治州人民政府:你州《关于审批黔南州城镇体系规划的请示》(黔南府呈[2015]124号)收悉。经研究,现批复如下:一、原则同意《黔南布依族苗族自治州城镇体系规划(2015—2030年)》(以下简称《规划》)。要深入贯彻落实党的十八大、十八届五中全会、中央城镇化工作会议和省委十一届六次全会精神,牢牢守
简介张冬梅,女,白族,1970年5月出生,中共党员,大学专科,现任宾川冬梅蔬菜水果专业合作社理事长、宾川县宾杰农副产品有限责任公司董事长。先后荣获云南省劳动模范、云南省三
网上教学平台是现代教学的必要组成部分,是高职院校教学模式、人才培养等方面改革的重要载体。本文在文献调研基础上,对国内外典型网上平台进行对比分析;在此基础上,结合高职
摘 要:Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应
失地农民作为一个新出现的社会困难群体,在其失去土地之后,各种社会权益都不同程度地受到了侵害,存在权利缺损的现象。本文通过分析失地农民权益法律保护的正当性,结合我国目