论文部分内容阅读
语料库是为多种应用专门收集,有一定结构、代表性、可被计算机检索且具有一定规模的语料集合。在对语言的构成、本质、结构和功能等进行研究时,基于统计的语言研究方法,可以在最大程度上弥补传统的基于经验规则的方法所存在的不足。尤其随着计算机储存能力和运行速度的增长,基于语料库的统计方法已经逐渐成为语言研究的主导方法。 藏语言文字是一种词汇丰富、语法结构严明的少数民族文字,并且在西藏自治区及青海、甘肃、四川、云南等地区广泛使用,是传播藏民族思想文化的主要载体。为了适应以计算机和网络为主体的信息化世界,推动藏文信息处理的进程,以及深刻的保护与挖掘潜藏在藏语资料中的人文财富,建立藏语语料库就成了一个特别重要的课题。一般而言,建设完成的语料库系统是由计算机硬件、软件、语料库用户、采集的语料样本、语料库管理和应用等程序构成的一个完整系统,其各部分一起决定语料库的质量和应用价值。 本文主要借鉴国家语委现代汉语通用语料库的建库方法、陈玉忠等人提出的基于格助词和接续特征(BasedonCase-auxiliarywordandContinuousFeature,BCCF)的书面藏文自动分词方法等已有的研究成果,并全面了解语料库构建的一般性理论以及语料库设计的一般性方法的基础上,提供构建藏文语料库的方法,设计一个藏语语料库系统软件,收集一定数量的藏文音节添加到藏文语料库中,并对语料样本利用本文设计的自动分词方法进行分词加工,并进行部分的藏文属性统计,来证明藏语语料库构建方法的正确性和构建软件的可利用性。 本文的研究成果主要包括以下几点: 1、研究了藏语语料库的构建理论,包括语料样本的选材原则、方法、选取途径、平衡性、分类方法以及类别号的设计方法等等,为构建藏语语料库系统奠定了理论基础。 2、研究藏语语料库的分词加工技术,实现了藏文分词算法,并用改进的还原算法识别了紧缩词问题,提出了适合藏文文法特点的歧义消歧方法及未登录词识别方法。在分词算法测试中,本文提出的分词算法准确率达到95.6%,基本上具有实用性。并利用传统藏文文法信息,结合现代藏文文本的实际,提出了藏文文本音节字词属性统计方法。 3、设计并实现了藏语语料库系统软件,本系统主要由语料录入、编辑(添加、删除等)、自动加工(对语料样本进行分词标注)及用户服务(对语料样本的字符、音节和词语进行统计)功能模块组成。语料录入模块实现了计算机中录入存储语料的数据信息及样本内容的功能;编辑模块实现了语料的存储和删除等功能;自动加工模块实现了对语料样本内容的分词标注加工功能;用户服务模块实现了对语料样本进行字符、音节和词语统计的功能。用一定规模的语料测试了本系统,测试结果表明,本研究设计的藏语语料库系统软件基本上具有实用性。