论文部分内容阅读
摘 要:方言数据库的建设是一个综合、连续、复杂的过程,本文结合吴语甬江片方言数据库的建库实践,试从过程和意义两个方面探讨方言数据库的建构。
关键词:方言 数据库 过程 意义
一、引言
吴语是汉语的重要组成部分,至今仍有大量古汉语保留,但受普通话、人口流动和其他方言等因素的影响,使用纯正吴方言的人越来越少。另外,由于地理、历史和文化等差异,吴语所辖六个方言片内方言差异比较大,方言里的一些有特色的词语正趋于萎缩和消亡,隶属于吴语区的甬江小片方言当然也存在这些情况,因此及时记录和保存方言口语资料是一项重要任务。
在数据库的建设上,学术界相关研究已经取得了一些成果,为方言数据库的建设提供了不少经验。如:由中国社会科学院主持开发的“北方方言基本词汇数据库”、丁邦新等主持开发的“汉藏同源词研究系统”、刘丹青主持的“方言语法语料库”等。尽管相关数据库存在语料较少、功能单一等不足,但它们都为以后数据库的研制打下了良好的基础。
二、方言数据库的建构过程
(一)方言数据库的内容
方言数据库应包括语音、文本、知识、会议、辅助和检索六个部分。吴语甬江片方言数据库以宁波、象山、宁海、余姚、慈溪、奉化、舟山等七个方言点为线,以每个方言点里的字、词、句、段、篇为纲,以一字一符一声为数据库基本资源类型,既有文本语料,又有相对应的多媒体口语资源和国际音标标注。
(二)方言数据库的建构
方言数据库的建构分方言语料的收集和数据库的整体设计两个部分。
1.方言语料的收集
方言语料收集是数据库建设的重要部分,语料采集的质量将直接关系到数据库的利用价值,所以采集到的语料要具有真实性、客观性和代表性。方言语料的收集主要包括调查、记录和整理三个阶段,每个阶段都要有严格的规划和学术把关。
(1)调查方面,对调查的方言点、发音人、调查方法和调查时间要有所界定。方言点的确定要以更具该方言代表性的语言区域为调查点,如宁海方言内部分为北、中、南三个区域,语言互有差异,调查点要选在中部以城关话为代表的地区,这样调查的语料才具有代表性和客观性;在发音人的选择上要注意其层次性和代表性,以及知识水平等问题;调查方法主要有谈话和读音法两种,前者是调查方言的传统而有效的方法,但其需耗大量时间进行跟踪和整理,后者则是目前调查方言语料的主要方法。
(2)记录方面,调查有跟踪调查(谈话法)和读音法两种,边听边记音未免会出现差误,当今各种多媒体语音处理和软件开发技术的运用,大大提高了方言调查的方便性和准确性:上海师范大学潘悟云教授研制的TFW田野调查软件对于提高方言的调查速度、减轻调查人负担、提高整理同音字表和归纳语音系统的效率都有很大的帮助;北京语言大学推出的byly则具有方便灵活的特性,易于随时随处进行调查录音;荷兰语音学家研制开发的praat软件和Audition软件的引进都为检验语料提供了技术上的保证。甬江片方言数据库不仅要录入文本语料,更需要在相应的文本语料下挂接相应的国际音标和录音,这样更能完整的展现方言的语音体系。
(3)整理方面,要严格记录每个字的读音,对以下三种不合格录音要进行删除并补录:一是文白异读字词,二是有突发噪音出现,三是重复以及其他与调查无关的自然对话。Audition软件里的切音功能就可以实现这一目标,切出的语音文件统一为WAV格式。
2.数据库的整体设计
方言数据库的建设应包括信息门户建设和数字资源加工两部分,图一是吴语甬江片方言数据库建设的整体设计图。信息门户平台主要是对数据库系统中的文献信息和网络资源信息以及相关新闻类信息进行统一管理和维护;数字资源加工和发布平台是针对数据库系统中的自建文献库、方言资源库及相关音频、视频库的信息进行加工、分编和发布,为用户提供统一的检索功能和资源整合功能。数字资源加工的内容包括方言信息、文献、网络资源、方言音频和方言视频。
在方言数据库的整体设计中,方言语料标注和检索系统的设计是非常关键的。首先,语料的标注不仅是实现数据库机读化的关键,也是一种将隐含的语言学知识形式化、系统化的过程;其次,对数据库中元数据的标注不但方便了使用者检索、提取信息,同时还可增加语料的重复使用率数据库的多功能性。甬江片方言数据库的语料标注主要包括文本语料的选择和编制、口语资源的切音、信息标注和声学参数的提取等几个部分。方便快捷的检索不仅给使用者查找语料提供了便利,同时也是实现数据库利用价值的渠道之一。甬江片方言数据库有门户网关键词检索、SQL Server平台和图书馆后台(ftp)三个检索子系统,研究者可以借助任何一种方式快速查找所需语料并可统计出字、词、句在数据库中出现的频率和数量等内容。
图一:吴语甬江片方言数据库的技术路线
三、方言数据库研制的意义和价值
方言数据库的研制和运用有其特定的意义和深远影响,主要表现在方言的学习、研究和保存,学术内交流和学科交叉研究等方面。除此之外,它的现实应用价值也是不可忽视的。
(一)有利于方言的学习、研究和保存
吴语甬江片方言数据库的建立具有重大的意义:首先,弥补了吴方言长期停留在书面和口头的狭窄局面,七个方言点的语料和语音通过数据库后台和网页两个渠道发布,减少了人们获得、研究该方言语料困难、不方便的情况;其次,现有的语言数据库存在收词偏少、功能比较单一、无音档信息、开放性低等方面的不足,综合型的方言数据库每一个部分都会有语料和音频对应,用户只要登录获得权限后就可下载语料和音频以供其研究和学习。以网络为媒体,方便了人们研究方言,同时对于调动人们学习、保护方言的积极性也有很大的意义。
(二)为学术内交流和学科交叉研究提供样板
数据库录入的原生态方言语料,对研究语言现象和文化渊源的关系有很大帮助,同时,它又可以推动语言现代化处理技术的深入研究和运用。该库建成后,不仅为研究甬江小片方言的学者提供了便利,而且围绕该数据库更可以增加其他关于方言的学术交流。比如数据库中吴语会议记录展示模块,可以及时地更新发布学界内最新研究吴语的会议及成果,同时该数据库的研制和使用是语言文字学、应用语言学和计算机语言学等多学科的交叉结合。甬江片方言数据库的研制不仅有助于研究甬江片方言点的语音现象、文化和历史风俗等,还有助于推动多学科的交叉研究和运用。
(三)现实应用价值
方言数据库的现实应用主要表现在通过数据库检索和语音辨识等功能,帮助某些职能部门准确辨别出话语者的乡里籍贯等地域信息,对公安、安全部门开展语言侦破等也具有直接的应用价值。上海师范大学正对这一设想进行实践研究,由张颖、王钢等开发的针对河南方言的“方言语料数据库管理系统”,在语言识别方面已初见成效。
(四)整理大量语料
许多研究者在整理方言资料上耗费了大量精力,利用现代科学技术来整理汉语方言资料以及文献资料,显然已十分迫切。计算机具有贮存大、运算速度快、运算精确等一系列优点,在整理和检索资料方面,其能力远远超过人力所能企及的范围,是整理大量语料的理想工具。建立在计算机之上的方言数据库,通过对语料进行筛选和标注,最后录入到数据库中,更方便了人们对方言的学习和研究。
参考文献:
[1]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.
[2]洪拓夷.汉语方言语音数据库建设构想[J].图书馆情报工作,2009,(3).
[3]李龙,潘悟云.国际音标输入法及其实现[J].语言研究,2006,(3).
[4]陈小莹,陈晨,华侃,于洪志.语音语料库的设计研究[J].科技信息,2008,(36).
(杜福强 赵则玲 浙江宁波 宁波大学人文与传媒学院 315211)
“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”
关键词:方言 数据库 过程 意义
一、引言
吴语是汉语的重要组成部分,至今仍有大量古汉语保留,但受普通话、人口流动和其他方言等因素的影响,使用纯正吴方言的人越来越少。另外,由于地理、历史和文化等差异,吴语所辖六个方言片内方言差异比较大,方言里的一些有特色的词语正趋于萎缩和消亡,隶属于吴语区的甬江小片方言当然也存在这些情况,因此及时记录和保存方言口语资料是一项重要任务。
在数据库的建设上,学术界相关研究已经取得了一些成果,为方言数据库的建设提供了不少经验。如:由中国社会科学院主持开发的“北方方言基本词汇数据库”、丁邦新等主持开发的“汉藏同源词研究系统”、刘丹青主持的“方言语法语料库”等。尽管相关数据库存在语料较少、功能单一等不足,但它们都为以后数据库的研制打下了良好的基础。
二、方言数据库的建构过程
(一)方言数据库的内容
方言数据库应包括语音、文本、知识、会议、辅助和检索六个部分。吴语甬江片方言数据库以宁波、象山、宁海、余姚、慈溪、奉化、舟山等七个方言点为线,以每个方言点里的字、词、句、段、篇为纲,以一字一符一声为数据库基本资源类型,既有文本语料,又有相对应的多媒体口语资源和国际音标标注。
(二)方言数据库的建构
方言数据库的建构分方言语料的收集和数据库的整体设计两个部分。
1.方言语料的收集
方言语料收集是数据库建设的重要部分,语料采集的质量将直接关系到数据库的利用价值,所以采集到的语料要具有真实性、客观性和代表性。方言语料的收集主要包括调查、记录和整理三个阶段,每个阶段都要有严格的规划和学术把关。
(1)调查方面,对调查的方言点、发音人、调查方法和调查时间要有所界定。方言点的确定要以更具该方言代表性的语言区域为调查点,如宁海方言内部分为北、中、南三个区域,语言互有差异,调查点要选在中部以城关话为代表的地区,这样调查的语料才具有代表性和客观性;在发音人的选择上要注意其层次性和代表性,以及知识水平等问题;调查方法主要有谈话和读音法两种,前者是调查方言的传统而有效的方法,但其需耗大量时间进行跟踪和整理,后者则是目前调查方言语料的主要方法。
(2)记录方面,调查有跟踪调查(谈话法)和读音法两种,边听边记音未免会出现差误,当今各种多媒体语音处理和软件开发技术的运用,大大提高了方言调查的方便性和准确性:上海师范大学潘悟云教授研制的TFW田野调查软件对于提高方言的调查速度、减轻调查人负担、提高整理同音字表和归纳语音系统的效率都有很大的帮助;北京语言大学推出的byly则具有方便灵活的特性,易于随时随处进行调查录音;荷兰语音学家研制开发的praat软件和Audition软件的引进都为检验语料提供了技术上的保证。甬江片方言数据库不仅要录入文本语料,更需要在相应的文本语料下挂接相应的国际音标和录音,这样更能完整的展现方言的语音体系。
(3)整理方面,要严格记录每个字的读音,对以下三种不合格录音要进行删除并补录:一是文白异读字词,二是有突发噪音出现,三是重复以及其他与调查无关的自然对话。Audition软件里的切音功能就可以实现这一目标,切出的语音文件统一为WAV格式。
2.数据库的整体设计
方言数据库的建设应包括信息门户建设和数字资源加工两部分,图一是吴语甬江片方言数据库建设的整体设计图。信息门户平台主要是对数据库系统中的文献信息和网络资源信息以及相关新闻类信息进行统一管理和维护;数字资源加工和发布平台是针对数据库系统中的自建文献库、方言资源库及相关音频、视频库的信息进行加工、分编和发布,为用户提供统一的检索功能和资源整合功能。数字资源加工的内容包括方言信息、文献、网络资源、方言音频和方言视频。
在方言数据库的整体设计中,方言语料标注和检索系统的设计是非常关键的。首先,语料的标注不仅是实现数据库机读化的关键,也是一种将隐含的语言学知识形式化、系统化的过程;其次,对数据库中元数据的标注不但方便了使用者检索、提取信息,同时还可增加语料的重复使用率数据库的多功能性。甬江片方言数据库的语料标注主要包括文本语料的选择和编制、口语资源的切音、信息标注和声学参数的提取等几个部分。方便快捷的检索不仅给使用者查找语料提供了便利,同时也是实现数据库利用价值的渠道之一。甬江片方言数据库有门户网关键词检索、SQL Server平台和图书馆后台(ftp)三个检索子系统,研究者可以借助任何一种方式快速查找所需语料并可统计出字、词、句在数据库中出现的频率和数量等内容。
图一:吴语甬江片方言数据库的技术路线
三、方言数据库研制的意义和价值
方言数据库的研制和运用有其特定的意义和深远影响,主要表现在方言的学习、研究和保存,学术内交流和学科交叉研究等方面。除此之外,它的现实应用价值也是不可忽视的。
(一)有利于方言的学习、研究和保存
吴语甬江片方言数据库的建立具有重大的意义:首先,弥补了吴方言长期停留在书面和口头的狭窄局面,七个方言点的语料和语音通过数据库后台和网页两个渠道发布,减少了人们获得、研究该方言语料困难、不方便的情况;其次,现有的语言数据库存在收词偏少、功能比较单一、无音档信息、开放性低等方面的不足,综合型的方言数据库每一个部分都会有语料和音频对应,用户只要登录获得权限后就可下载语料和音频以供其研究和学习。以网络为媒体,方便了人们研究方言,同时对于调动人们学习、保护方言的积极性也有很大的意义。
(二)为学术内交流和学科交叉研究提供样板
数据库录入的原生态方言语料,对研究语言现象和文化渊源的关系有很大帮助,同时,它又可以推动语言现代化处理技术的深入研究和运用。该库建成后,不仅为研究甬江小片方言的学者提供了便利,而且围绕该数据库更可以增加其他关于方言的学术交流。比如数据库中吴语会议记录展示模块,可以及时地更新发布学界内最新研究吴语的会议及成果,同时该数据库的研制和使用是语言文字学、应用语言学和计算机语言学等多学科的交叉结合。甬江片方言数据库的研制不仅有助于研究甬江片方言点的语音现象、文化和历史风俗等,还有助于推动多学科的交叉研究和运用。
(三)现实应用价值
方言数据库的现实应用主要表现在通过数据库检索和语音辨识等功能,帮助某些职能部门准确辨别出话语者的乡里籍贯等地域信息,对公安、安全部门开展语言侦破等也具有直接的应用价值。上海师范大学正对这一设想进行实践研究,由张颖、王钢等开发的针对河南方言的“方言语料数据库管理系统”,在语言识别方面已初见成效。
(四)整理大量语料
许多研究者在整理方言资料上耗费了大量精力,利用现代科学技术来整理汉语方言资料以及文献资料,显然已十分迫切。计算机具有贮存大、运算速度快、运算精确等一系列优点,在整理和检索资料方面,其能力远远超过人力所能企及的范围,是整理大量语料的理想工具。建立在计算机之上的方言数据库,通过对语料进行筛选和标注,最后录入到数据库中,更方便了人们对方言的学习和研究。
参考文献:
[1]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.
[2]洪拓夷.汉语方言语音数据库建设构想[J].图书馆情报工作,2009,(3).
[3]李龙,潘悟云.国际音标输入法及其实现[J].语言研究,2006,(3).
[4]陈小莹,陈晨,华侃,于洪志.语音语料库的设计研究[J].科技信息,2008,(36).
(杜福强 赵则玲 浙江宁波 宁波大学人文与传媒学院 315211)
“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”