论文部分内容阅读
ELAN是由荷兰内梅亨马普心理语言学研究所开发的一个跨平台的多媒体转写标注软件。本文详细介绍了利用ELAN自建汉语方言多媒体语料库的流程与方法。并以双峰方言语气词为例,论述如何基于这个自建的语料库进行相关研究。全文共分为七个部分。第一章绪论。首先对ELAN功能、特点及在各国的应用情况进行简单的介绍。本章还介绍了使用ELAN自建多媒体语料库的优势及从2011年以来本人研究ELAN所取得的一些相关成果。本章还谈到本研究的对象、方法、意义、双峰方言的研究综述及语料来源、主要发音人情况等内容。第二章语料库与多媒体语料库。语料库的概念在不同的著作和论文中不尽相同,本章首先界定了语料库的概念,接着谈到语料库的设计和加工。多媒体语料库是近年出现的一种新的语料库。在第二节中对多媒体语料库的内涵与外延进行了界定,还介绍了世界各国多媒体语料库的一些建设情况。本章花了相当笔墨介绍汉语方言语料库的建设情况。第三章用ELAN自建汉语方言单点多媒体语料库。语料库的建设是本文研究的重点之一。本章详细介绍ELAN的操作及使用以及如何使用ELAN建设方言多媒体语料库,以及如何分别建立语料总库和以各个发音的人语料子库。并介绍如何利用ELAN强大的检索功能对语料库中进行关键词、词语搭配、同现的检索。ELAN的开放性数据结构和设计,为我们拓展开发其功能提供了可能。为了提高ELAN音频转写的效率,提高语料处理和转换的速度,我们开发了两个ELAN的辅助增效软件,音频自动断句辅助工具及批量Eaf文件转换工具,在这里也简单地介绍了这两个软件的使用,另外还介绍了如何在ELAN中调用实验语音软件Praat。第四章语料的分词、词性标注及相关统计。首先介绍语料库语料来源与分布情况。ELAN在分词及词性标注等方面存在一定的不足,但ELAN能输出文本文件的功能,让我们可以借助第三方的语料库处理软件来进行这方面的处理,我们使用南京师范大学贺胜开发的CIPP中文语料库加工及应用工具,在自定义双峰方言用户词典的基础上,对所有语料进行了分词和词性标注,并以此基础为进行了句频、词频、字频的相关统计和分析。第五章基于语料库的双峰方言语气词研究。利用CIPP分词和词性标记功能,再结合ELAN中的检索功能。我们穷尽式地查找出所有含语气词的句子,从中总共提取了单用的语气词19个、双连的25组、三连的5组。然后在语境中逐个考察语气词单用、连用(双连、三连)时的语气意义和语气功能。最后在ELAN中调用实验语音软件Praat对“呢”、“咩”、“怕”等语气词在句中的语调进行简单的实验语音分析。第六章结语。本文的主要研究小结、本文存在的不足及下一步研究工作的计划与安排。附录部分有ELAN操作常用术语中英文对照表、双峰(花门)方言音系、篇章转写等内容。