论文部分内容阅读
摘 要: 因为没有文字系统,方言语料库通常意味着语音语料库。语音语料库在采集、整理、规范和归档等方面都与文本语料库有明显不同,因此,方言语音语料库的检索、提取和呈现对技术提出更高要求。另外,方言的内部变异是语料采集过程中需要考虑的重要因素。本文针对方言语音语料库建设中的常规问题,以赣南客家方言语料库为例,就语音语料库及其检索平台设计与实现过程进行深入探讨。
关键词: 赣南地区 客家方言 语音语料库 检索平台
一、引言
我国历史悠久、地域广大和人口众多,形成了各种各样、千姿百态的不同方言。不过,面对如此丰富的语言资源宝藏,国内方言语料库建设并不多,除了北京方言、粤语和江苏省境内方言等发达地区外,很少有其他语言得到学界和社会的足够关注。一方面是因为方言在社会交往活动中,相对于普通话而言,处于区域性和边缘性地位。另一方面,方言缺少书写系统,对它的采集和描写比现代通行汉语要艰难得多。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,说明国家高度重视我国语言文化资源的采集和保护工作(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范(试行)》(教语信司函〔2013〕17号),从具体实施细节上进一步规范了我国语音语料库的建设。2014年,中山大学庄初升教授主持的“海内外客家方言的语料库建设和综合比较研究”获批国家社科重大项目立项资助,充分说明学术界也已意识到方言语料库建设的必要性和重要性。
方言语料库的建设与普通话等官方语言有着显著区别,面临更多实际困难。从某种意义上说,一个如实全面反映方言特征的方言语料库必须包含语音语料库,因为声音几乎是绝大多数方言存在的唯一形式。如果没有语音数据,直接对它进行文字转写和存档,其价值将大打折扣。本文以赣南客家方言语音语料库的建设为例,研究方言语料库及检索平台建设的设计框架和实现方案,以探索方言和其他同类语音语料库基本建设途径。
二、方言语料库的基本特点
相比较于官方正式语言语料库建设,方言语料库主要有以下一些特点:
(一)一般以语音为主
绝大部分方言素材都是以口语形式存在于语言社区之中,采集口语作为语料几乎是方言语料库建设的唯一途径。语音采集分为从录音棚里录制指定的方言表达内容和在实际交际环境中录制自然话语。前者显然比后者便于操作,录制效果易于控制。早期方言语料以前者为主,从朗读指定内容发展到讲述指定故事,反映出采集人员不断追求真实语料的努力。这种方式虽然在具体实施上较为方便,可以通过短时的录音达到较大的词汇密度,但其语料常常难以具备代表性,很难为方言研究提供反映语言全貌,有代表性和说服力的数据。最近,由于录音设备变得便捷,音频捕获和剪辑不再困难,尽量采集自然口语进行语料库建设成为一种趋势和必然发展要求(范俊军,2013)。显而易见,不管是采用录音棚还是田野录音,相比较于文本语料库,语音语料库的建设无疑困难得多。
(二)现成可用资源少
方言作为地方性使用语言,加上缺乏统一对应的文字符号系统,一般很少见于官方正式文件。即使语音形式,广播、电视等媒體节目也很少使用方言(其中粤语节目占了较大比例)。在新兴网络媒介中,由于传播量大,加上普通人也可以参与,开始出现部分娱乐或者教学性质的方言语音节目内容。总体上,运用方言进行交传播和交流通常还是局限在口耳相传这种初级形式。方言使用现状直接导致方言语料库建设中可以利用的现成资源非常少,这点与现代汉语(普通话)语料库的建设不一样。现代汉语语料库建设可以选用大量现成的电子文本数据资源,即使是建设语音语料库,也可从丰富的广播电视节目中采样选取。
(三)语料采集比较困难
因为没有现成语言素材可供利用,方言语料采集比较困难。通常需要采用田野调查的办法,到方言所属区域进行语音采集。考虑到语料代表性,采集人员需要到不同地域,录取不同职业、阶层、年龄和性别说话人的语音材料。受限于资金、时间、精力和对被采集地区及其人员的了解程度,语料采集困难重重,需要在保证语料库质量的前提下,因地制宜和灵活处理。
(四)语料翻译与转写费时费力
一般而言,方言语料库不仅要服务于理解该方言的学者开展学术研究,还要面向不是以该方言为母语的其他学者或者非科研用途使用人员。另外,还要考虑到语料的检索使用问题,因为方言没有书面文字系统,语料检索通常依赖于对应的普通话翻译词语。因此,将方言语音进行翻译,转写成对应的汉语文字就非常重要。这方面工作量极大(王泽鹏,2003;洪拓夷,2009)。根据经验,一个小时的音频通常要耗费十几到几十小时的翻译转写时间。
三、方言语料库的检索平台及技术难点
同样的,方言语料库的检索平台搭建与官方正式语言语料库有显著不同,面临更高技术要求。
(一)存储空间大
如果方言语料库里包含语音语料,在同等语言数据量的前提下,语音语料就占据更大存储空间。有些方言语料库甚至还包含视频,比语音数据还需要更大的磁盘空间。虽然现在电脑磁盘空间并不昂贵,但由于语料体积带来的分享和传播困难不容忽视。
(二)检索查找难
方言没有文字系统,检索查找目标词汇就有所不便。即使配备对应转写的普通话翻译,可以使用普通话对应词进行搜索,仍然要解决对应词的语音提取问题。毕竟,语音形式才是方言最真实的存在方式。由此可以看出,方言语音语料库类似于方言语音与普通话文字相对应的平行语料库,其检索技术涉及语音和翻译文本对齐、检索和提取过程的音频播放时间定位,实现普通话文本检索,对应方言语音句子定位提取和播放,达到服务科研、教学或者其他方言查找目的。
四、赣南地区客家方言语音语料库建设
本论文中的赣南客家方言语音语料库建设目标是区域性方言语音语料库,达到可以为语言本体研究、语言教学研究、语言识别等自然语言处理工程应用和区域特色文化传承与保护等提供基础性平台服务的目的。 (一)赣南客家方言语料库建设存在的难点
客家方言地区在全国分布比较广泛,从资金、人员和时间等各方面因素考虑,我们将语音语料库建设的对象限定为赣南地区客家方言(一般也可简称赣南客家方言)。以行政区域地理划分确定语料收集对象主要是为了采集方便,并没有语言特征上的区别含义。尽管据此将客家方言的采集锁定在限定的范围,仍然还有不少需要解决的难点。
首先,赣南客家方言虽然对外呈现出较大程度的一致性,但其内部却有着丰富的多樣性(谢留文
关键词: 赣南地区 客家方言 语音语料库 检索平台
一、引言
我国历史悠久、地域广大和人口众多,形成了各种各样、千姿百态的不同方言。不过,面对如此丰富的语言资源宝藏,国内方言语料库建设并不多,除了北京方言、粤语和江苏省境内方言等发达地区外,很少有其他语言得到学界和社会的足够关注。一方面是因为方言在社会交往活动中,相对于普通话而言,处于区域性和边缘性地位。另一方面,方言缺少书写系统,对它的采集和描写比现代通行汉语要艰难得多。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,说明国家高度重视我国语言文化资源的采集和保护工作(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范(试行)》(教语信司函〔2013〕17号),从具体实施细节上进一步规范了我国语音语料库的建设。2014年,中山大学庄初升教授主持的“海内外客家方言的语料库建设和综合比较研究”获批国家社科重大项目立项资助,充分说明学术界也已意识到方言语料库建设的必要性和重要性。
方言语料库的建设与普通话等官方语言有着显著区别,面临更多实际困难。从某种意义上说,一个如实全面反映方言特征的方言语料库必须包含语音语料库,因为声音几乎是绝大多数方言存在的唯一形式。如果没有语音数据,直接对它进行文字转写和存档,其价值将大打折扣。本文以赣南客家方言语音语料库的建设为例,研究方言语料库及检索平台建设的设计框架和实现方案,以探索方言和其他同类语音语料库基本建设途径。
二、方言语料库的基本特点
相比较于官方正式语言语料库建设,方言语料库主要有以下一些特点:
(一)一般以语音为主
绝大部分方言素材都是以口语形式存在于语言社区之中,采集口语作为语料几乎是方言语料库建设的唯一途径。语音采集分为从录音棚里录制指定的方言表达内容和在实际交际环境中录制自然话语。前者显然比后者便于操作,录制效果易于控制。早期方言语料以前者为主,从朗读指定内容发展到讲述指定故事,反映出采集人员不断追求真实语料的努力。这种方式虽然在具体实施上较为方便,可以通过短时的录音达到较大的词汇密度,但其语料常常难以具备代表性,很难为方言研究提供反映语言全貌,有代表性和说服力的数据。最近,由于录音设备变得便捷,音频捕获和剪辑不再困难,尽量采集自然口语进行语料库建设成为一种趋势和必然发展要求(范俊军,2013)。显而易见,不管是采用录音棚还是田野录音,相比较于文本语料库,语音语料库的建设无疑困难得多。
(二)现成可用资源少
方言作为地方性使用语言,加上缺乏统一对应的文字符号系统,一般很少见于官方正式文件。即使语音形式,广播、电视等媒體节目也很少使用方言(其中粤语节目占了较大比例)。在新兴网络媒介中,由于传播量大,加上普通人也可以参与,开始出现部分娱乐或者教学性质的方言语音节目内容。总体上,运用方言进行交传播和交流通常还是局限在口耳相传这种初级形式。方言使用现状直接导致方言语料库建设中可以利用的现成资源非常少,这点与现代汉语(普通话)语料库的建设不一样。现代汉语语料库建设可以选用大量现成的电子文本数据资源,即使是建设语音语料库,也可从丰富的广播电视节目中采样选取。
(三)语料采集比较困难
因为没有现成语言素材可供利用,方言语料采集比较困难。通常需要采用田野调查的办法,到方言所属区域进行语音采集。考虑到语料代表性,采集人员需要到不同地域,录取不同职业、阶层、年龄和性别说话人的语音材料。受限于资金、时间、精力和对被采集地区及其人员的了解程度,语料采集困难重重,需要在保证语料库质量的前提下,因地制宜和灵活处理。
(四)语料翻译与转写费时费力
一般而言,方言语料库不仅要服务于理解该方言的学者开展学术研究,还要面向不是以该方言为母语的其他学者或者非科研用途使用人员。另外,还要考虑到语料的检索使用问题,因为方言没有书面文字系统,语料检索通常依赖于对应的普通话翻译词语。因此,将方言语音进行翻译,转写成对应的汉语文字就非常重要。这方面工作量极大(王泽鹏,2003;洪拓夷,2009)。根据经验,一个小时的音频通常要耗费十几到几十小时的翻译转写时间。
三、方言语料库的检索平台及技术难点
同样的,方言语料库的检索平台搭建与官方正式语言语料库有显著不同,面临更高技术要求。
(一)存储空间大
如果方言语料库里包含语音语料,在同等语言数据量的前提下,语音语料就占据更大存储空间。有些方言语料库甚至还包含视频,比语音数据还需要更大的磁盘空间。虽然现在电脑磁盘空间并不昂贵,但由于语料体积带来的分享和传播困难不容忽视。
(二)检索查找难
方言没有文字系统,检索查找目标词汇就有所不便。即使配备对应转写的普通话翻译,可以使用普通话对应词进行搜索,仍然要解决对应词的语音提取问题。毕竟,语音形式才是方言最真实的存在方式。由此可以看出,方言语音语料库类似于方言语音与普通话文字相对应的平行语料库,其检索技术涉及语音和翻译文本对齐、检索和提取过程的音频播放时间定位,实现普通话文本检索,对应方言语音句子定位提取和播放,达到服务科研、教学或者其他方言查找目的。
四、赣南地区客家方言语音语料库建设
本论文中的赣南客家方言语音语料库建设目标是区域性方言语音语料库,达到可以为语言本体研究、语言教学研究、语言识别等自然语言处理工程应用和区域特色文化传承与保护等提供基础性平台服务的目的。 (一)赣南客家方言语料库建设存在的难点
客家方言地区在全国分布比较广泛,从资金、人员和时间等各方面因素考虑,我们将语音语料库建设的对象限定为赣南地区客家方言(一般也可简称赣南客家方言)。以行政区域地理划分确定语料收集对象主要是为了采集方便,并没有语言特征上的区别含义。尽管据此将客家方言的采集锁定在限定的范围,仍然还有不少需要解决的难点。
首先,赣南客家方言虽然对外呈现出较大程度的一致性,但其内部却有着丰富的多樣性(谢留文