赣南客家方言语音语料库及其检索平台的设计与实现

来源 :考试周刊 | 被引量 : 0次 | 上传用户:1010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 因为没有文字系统,方言语料库通常意味着语音语料库。语音语料库在采集、整理、规范和归档等方面都与文本语料库有明显不同,因此,方言语音语料库的检索、提取和呈现对技术提出更高要求。另外,方言的内部变异是语料采集过程中需要考虑的重要因素。本文针对方言语音语料库建设中的常规问题,以赣南客家方言语料库为例,就语音语料库及其检索平台设计与实现过程进行深入探讨。
  关键词: 赣南地区 客家方言 语音语料库 检索平台
  一、引言
  我国历史悠久、地域广大和人口众多,形成了各种各样、千姿百态的不同方言。不过,面对如此丰富的语言资源宝藏,国内方言语料库建设并不多,除了北京方言、粤语和江苏省境内方言等发达地区外,很少有其他语言得到学界和社会的足够关注。一方面是因为方言在社会交往活动中,相对于普通话而言,处于区域性和边缘性地位。另一方面,方言缺少书写系统,对它的采集和描写比现代通行汉语要艰难得多。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,说明国家高度重视我国语言文化资源的采集和保护工作(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范(试行)》(教语信司函〔2013〕17号),从具体实施细节上进一步规范了我国语音语料库的建设。2014年,中山大学庄初升教授主持的“海内外客家方言的语料库建设和综合比较研究”获批国家社科重大项目立项资助,充分说明学术界也已意识到方言语料库建设的必要性和重要性。
  方言语料库的建设与普通话等官方语言有着显著区别,面临更多实际困难。从某种意义上说,一个如实全面反映方言特征的方言语料库必须包含语音语料库,因为声音几乎是绝大多数方言存在的唯一形式。如果没有语音数据,直接对它进行文字转写和存档,其价值将大打折扣。本文以赣南客家方言语音语料库的建设为例,研究方言语料库及检索平台建设的设计框架和实现方案,以探索方言和其他同类语音语料库基本建设途径。
  二、方言语料库的基本特点
  相比较于官方正式语言语料库建设,方言语料库主要有以下一些特点:
  (一)一般以语音为主
  绝大部分方言素材都是以口语形式存在于语言社区之中,采集口语作为语料几乎是方言语料库建设的唯一途径。语音采集分为从录音棚里录制指定的方言表达内容和在实际交际环境中录制自然话语。前者显然比后者便于操作,录制效果易于控制。早期方言语料以前者为主,从朗读指定内容发展到讲述指定故事,反映出采集人员不断追求真实语料的努力。这种方式虽然在具体实施上较为方便,可以通过短时的录音达到较大的词汇密度,但其语料常常难以具备代表性,很难为方言研究提供反映语言全貌,有代表性和说服力的数据。最近,由于录音设备变得便捷,音频捕获和剪辑不再困难,尽量采集自然口语进行语料库建设成为一种趋势和必然发展要求(范俊军,2013)。显而易见,不管是采用录音棚还是田野录音,相比较于文本语料库,语音语料库的建设无疑困难得多。
  (二)现成可用资源少
  方言作为地方性使用语言,加上缺乏统一对应的文字符号系统,一般很少见于官方正式文件。即使语音形式,广播、电视等媒體节目也很少使用方言(其中粤语节目占了较大比例)。在新兴网络媒介中,由于传播量大,加上普通人也可以参与,开始出现部分娱乐或者教学性质的方言语音节目内容。总体上,运用方言进行交传播和交流通常还是局限在口耳相传这种初级形式。方言使用现状直接导致方言语料库建设中可以利用的现成资源非常少,这点与现代汉语(普通话)语料库的建设不一样。现代汉语语料库建设可以选用大量现成的电子文本数据资源,即使是建设语音语料库,也可从丰富的广播电视节目中采样选取。
  (三)语料采集比较困难
  因为没有现成语言素材可供利用,方言语料采集比较困难。通常需要采用田野调查的办法,到方言所属区域进行语音采集。考虑到语料代表性,采集人员需要到不同地域,录取不同职业、阶层、年龄和性别说话人的语音材料。受限于资金、时间、精力和对被采集地区及其人员的了解程度,语料采集困难重重,需要在保证语料库质量的前提下,因地制宜和灵活处理。
  (四)语料翻译与转写费时费力
  一般而言,方言语料库不仅要服务于理解该方言的学者开展学术研究,还要面向不是以该方言为母语的其他学者或者非科研用途使用人员。另外,还要考虑到语料的检索使用问题,因为方言没有书面文字系统,语料检索通常依赖于对应的普通话翻译词语。因此,将方言语音进行翻译,转写成对应的汉语文字就非常重要。这方面工作量极大(王泽鹏,2003;洪拓夷,2009)。根据经验,一个小时的音频通常要耗费十几到几十小时的翻译转写时间。
  三、方言语料库的检索平台及技术难点
  同样的,方言语料库的检索平台搭建与官方正式语言语料库有显著不同,面临更高技术要求。
  (一)存储空间大
  如果方言语料库里包含语音语料,在同等语言数据量的前提下,语音语料就占据更大存储空间。有些方言语料库甚至还包含视频,比语音数据还需要更大的磁盘空间。虽然现在电脑磁盘空间并不昂贵,但由于语料体积带来的分享和传播困难不容忽视。
  (二)检索查找难
  方言没有文字系统,检索查找目标词汇就有所不便。即使配备对应转写的普通话翻译,可以使用普通话对应词进行搜索,仍然要解决对应词的语音提取问题。毕竟,语音形式才是方言最真实的存在方式。由此可以看出,方言语音语料库类似于方言语音与普通话文字相对应的平行语料库,其检索技术涉及语音和翻译文本对齐、检索和提取过程的音频播放时间定位,实现普通话文本检索,对应方言语音句子定位提取和播放,达到服务科研、教学或者其他方言查找目的。
  四、赣南地区客家方言语音语料库建设
  本论文中的赣南客家方言语音语料库建设目标是区域性方言语音语料库,达到可以为语言本体研究、语言教学研究、语言识别等自然语言处理工程应用和区域特色文化传承与保护等提供基础性平台服务的目的。   (一)赣南客家方言语料库建设存在的难点
  客家方言地区在全国分布比较广泛,从资金、人员和时间等各方面因素考虑,我们将语音语料库建设的对象限定为赣南地区客家方言(一般也可简称赣南客家方言)。以行政区域地理划分确定语料收集对象主要是为了采集方便,并没有语言特征上的区别含义。尽管据此将客家方言的采集锁定在限定的范围,仍然还有不少需要解决的难点。
  首先,赣南客家方言虽然对外呈现出较大程度的一致性,但其内部却有着丰富的多樣性(谢留文
其他文献
摘 要: 助读系统在小学语文教材中表现形式多样,是帮助师生开展教学的有利帮手,在语文教学中对学生能力培养起到很重要作用。利用小学语文教材中的助读系统,通过单元导语、插图、泡泡语、资料袋、课后练习等培养学生听说读写基本能力、阅读、感悟、分析与理解能力,致力于学生语文素养与语文能力的提高是每一个小学语文教师应该深入探讨的问题。  關键词: 小学语文 教材 助读系统 能力培养  助读系统又叫提示系统、助
“儿童之于童话,犹如鱼之于水”。因为童话和童心世界离得最近,童话的精神世界和儿童的精神世界彼此相契合。《小鹰学飞》为二上第四单元中的第一个拟人体童话,叙述了小鹰在
电影《热血教师》是根据美国“最佳教师”获得者罗恩·克拉克的故事改编的, 影片以真实感人的事迹讲述了克拉克老师与众不同的教学方式, 以朴实自然的纪实手法描述了他的教育
藏语文教学是“互动”,是一种“沟通”与“合作”,是教师与学生围绕“教学文本”进行“对话”的过程.在藏语文教学中提高对话互动的学习,有利于学生主体的凸现,有利于新型师
期刊
摘 要:钢模租赁公司属于独立的核算单位,本文从多方面对成本控制管理方面进行了论述。  关键词:钢模租赁;成本控制管理;改进措施  利润是所有企业的生命线,现今在外部需求日益减弱、市场竞争日趋激烈的情况下,向成本要效益、向损耗要利润也是企业的共识,那么,如何控制企业的成本如何进一步提升企业的经济效益,下面以钢模租赁公司为例进行阐述。  钢模租赁公司是为建筑施工单位提供包括钢管脚手架、可移动脚手架、钢
台湾“农委会”农业试验所利用迭氮化钠(NaN3)诱变水稻“台农67号”所建立的突变库,含有紫黑色等颜色突变体的米经过加工处理后,再与普通白米混煮成彩色饭,不但大幅改进口感,
摘 要:我国正处于经济社会转型时期,劳动关系主体及其利益诉求越来越多元化,劳动关系矛盾已进入凸显期和多发期,经济发展进入新常态,供给侧结构性改革,打破企业利益格局的动态平衡,带来企业利益关系的重大调整。因此,保障和维护职工合法权益的形势更为严峻,保持和促进劳动关系协调和发展的任务更加艰巨,企业工会推进集体合同制度,和谐企业劳动关系,促进劳资合作,共克时艰,共谋发展,实现劳资“双赢”具有现实意义。 
老家的门前长着一棵大槐树.前几日,村里要修通村公路,那棵槐树正好处在规划好的道路中央,于是,村负责人找到母亲,商讨怎么处理.rn母亲打电话告诉我的时候,声音疲惫惆怅,满怀
期刊
贾谊是西汉时期杰出的辞赋家和政论家。他的《过秦论》则兼及辞赋的文采绮丽、语势流转和政论的峻拔锋利,淋漓酣畅,成为别具一格的辞赋家的政论。鲁迅先生对贾谊《过秦论》的评价是“沾溉后人,其泽甚远”的“西汉鸿文”(《汉文学史纲要》),富有气势美。从内质看,述史实,渲染铺张,材料富瞻,发议论,简练透辟,见解情微。从外形看,起伏多变,文笔放荡,论证严密,语言优美。写秦兴,气焰赫赫,不可一世;写秦亡,急转直下,
摘 要: 随着我国改革开放的深化,信息化大潮开始席卷祖国大地,与信息化应用有关的词汇日渐融入百姓生活,信息化已经成为人民改造社会、提高生活质量的有力武器。由于各种不同诸多因素,英语与汉语在信息化应用方面,一些语言和词汇方面没有直接对应关系,在翻译方面产生不小的困难。缺乏统一的定义、东西方表达差异的不同及事物的不断发展变化等诸多因素,使得信息化应用中有关词汇与术语的翻译存在大量值得研究的问题。  关