试论方言数据库的建设过程及意义

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:kissall79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:方言数据库的建设是一个综合、连续、复杂的过程,本文结合吴语甬江片方言数据库的建库实践,试从过程和意义两个方面探讨方言数据库的建构。
  关键词:方言 数据库 过程 意义
  
  一、引言
  
  吴语是汉语的重要组成部分,至今仍有大量古汉语保留,但受普通话、人口流动和其他方言等因素的影响,使用纯正吴方言的人越来越少。另外,由于地理、历史和文化等差异,吴语所辖六个方言片内方言差异比较大,方言里的一些有特色的词语正趋于萎缩和消亡,隶属于吴语区的甬江小片方言当然也存在这些情况,因此及时记录和保存方言口语资料是一项重要任务。
  在数据库的建设上,学术界相关研究已经取得了一些成果,为方言数据库的建设提供了不少经验。如:由中国社会科学院主持开发的“北方方言基本词汇数据库”、丁邦新等主持开发的“汉藏同源词研究系统”、刘丹青主持的“方言语法语料库”等。尽管相关数据库存在语料较少、功能单一等不足,但它们都为以后数据库的研制打下了良好的基础。
  
  二、方言数据库的建构过程
  
  (一)方言数据库的内容
  方言数据库应包括语音、文本、知识、会议、辅助和检索六个部分。吴语甬江片方言数据库以宁波、象山、宁海、余姚、慈溪、奉化、舟山等七个方言点为线,以每个方言点里的字、词、句、段、篇为纲,以一字一符一声为数据库基本资源类型,既有文本语料,又有相对应的多媒体口语资源和国际音标标注。
  (二)方言数据库的建构
  方言数据库的建构分方言语料的收集和数据库的整体设计两个部分。
  1.方言语料的收集
  方言语料收集是数据库建设的重要部分,语料采集的质量将直接关系到数据库的利用价值,所以采集到的语料要具有真实性、客观性和代表性。方言语料的收集主要包括调查、记录和整理三个阶段,每个阶段都要有严格的规划和学术把关。
  (1)调查方面,对调查的方言点、发音人、调查方法和调查时间要有所界定。方言点的确定要以更具该方言代表性的语言区域为调查点,如宁海方言内部分为北、中、南三个区域,语言互有差异,调查点要选在中部以城关话为代表的地区,这样调查的语料才具有代表性和客观性;在发音人的选择上要注意其层次性和代表性,以及知识水平等问题;调查方法主要有谈话和读音法两种,前者是调查方言的传统而有效的方法,但其需耗大量时间进行跟踪和整理,后者则是目前调查方言语料的主要方法。
  (2)记录方面,调查有跟踪调查(谈话法)和读音法两种,边听边记音未免会出现差误,当今各种多媒体语音处理和软件开发技术的运用,大大提高了方言调查的方便性和准确性:上海师范大学潘悟云教授研制的TFW田野调查软件对于提高方言的调查速度、减轻调查人负担、提高整理同音字表和归纳语音系统的效率都有很大的帮助;北京语言大学推出的byly则具有方便灵活的特性,易于随时随处进行调查录音;荷兰语音学家研制开发的praat软件和Audition软件的引进都为检验语料提供了技术上的保证。甬江片方言数据库不仅要录入文本语料,更需要在相应的文本语料下挂接相应的国际音标和录音,这样更能完整的展现方言的语音体系。
  (3)整理方面,要严格记录每个字的读音,对以下三种不合格录音要进行删除并补录:一是文白异读字词,二是有突发噪音出现,三是重复以及其他与调查无关的自然对话。Audition软件里的切音功能就可以实现这一目标,切出的语音文件统一为WAV格式。
  2.数据库的整体设计
  方言数据库的建设应包括信息门户建设和数字资源加工两部分,图一是吴语甬江片方言数据库建设的整体设计图。信息门户平台主要是对数据库系统中的文献信息和网络资源信息以及相关新闻类信息进行统一管理和维护;数字资源加工和发布平台是针对数据库系统中的自建文献库、方言资源库及相关音频、视频库的信息进行加工、分编和发布,为用户提供统一的检索功能和资源整合功能。数字资源加工的内容包括方言信息、文献、网络资源、方言音频和方言视频。
  在方言数据库的整体设计中,方言语料标注和检索系统的设计是非常关键的。首先,语料的标注不仅是实现数据库机读化的关键,也是一种将隐含的语言学知识形式化、系统化的过程;其次,对数据库中元数据的标注不但方便了使用者检索、提取信息,同时还可增加语料的重复使用率数据库的多功能性。甬江片方言数据库的语料标注主要包括文本语料的选择和编制、口语资源的切音、信息标注和声学参数的提取等几个部分。方便快捷的检索不仅给使用者查找语料提供了便利,同时也是实现数据库利用价值的渠道之一。甬江片方言数据库有门户网关键词检索、SQL Server平台和图书馆后台(ftp)三个检索子系统,研究者可以借助任何一种方式快速查找所需语料并可统计出字、词、句在数据库中出现的频率和数量等内容。
  
  图一:吴语甬江片方言数据库的技术路线
  
  三、方言数据库研制的意义和价值
  
  方言数据库的研制和运用有其特定的意义和深远影响,主要表现在方言的学习、研究和保存,学术内交流和学科交叉研究等方面。除此之外,它的现实应用价值也是不可忽视的。
  (一)有利于方言的学习、研究和保存
  吴语甬江片方言数据库的建立具有重大的意义:首先,弥补了吴方言长期停留在书面和口头的狭窄局面,七个方言点的语料和语音通过数据库后台和网页两个渠道发布,减少了人们获得、研究该方言语料困难、不方便的情况;其次,现有的语言数据库存在收词偏少、功能比较单一、无音档信息、开放性低等方面的不足,综合型的方言数据库每一个部分都会有语料和音频对应,用户只要登录获得权限后就可下载语料和音频以供其研究和学习。以网络为媒体,方便了人们研究方言,同时对于调动人们学习、保护方言的积极性也有很大的意义。
  (二)为学术内交流和学科交叉研究提供样板
  数据库录入的原生态方言语料,对研究语言现象和文化渊源的关系有很大帮助,同时,它又可以推动语言现代化处理技术的深入研究和运用。该库建成后,不仅为研究甬江小片方言的学者提供了便利,而且围绕该数据库更可以增加其他关于方言的学术交流。比如数据库中吴语会议记录展示模块,可以及时地更新发布学界内最新研究吴语的会议及成果,同时该数据库的研制和使用是语言文字学、应用语言学和计算机语言学等多学科的交叉结合。甬江片方言数据库的研制不仅有助于研究甬江片方言点的语音现象、文化和历史风俗等,还有助于推动多学科的交叉研究和运用。
  (三)现实应用价值
  方言数据库的现实应用主要表现在通过数据库检索和语音辨识等功能,帮助某些职能部门准确辨别出话语者的乡里籍贯等地域信息,对公安、安全部门开展语言侦破等也具有直接的应用价值。上海师范大学正对这一设想进行实践研究,由张颖、王钢等开发的针对河南方言的“方言语料数据库管理系统”,在语言识别方面已初见成效。
  (四)整理大量语料
  许多研究者在整理方言资料上耗费了大量精力,利用现代科学技术来整理汉语方言资料以及文献资料,显然已十分迫切。计算机具有贮存大、运算速度快、运算精确等一系列优点,在整理和检索资料方面,其能力远远超过人力所能企及的范围,是整理大量语料的理想工具。建立在计算机之上的方言数据库,通过对语料进行筛选和标注,最后录入到数据库中,更方便了人们对方言的学习和研究。
  
  参考文献:
  [1]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.
  [2]洪拓夷.汉语方言语音数据库建设构想[J].图书馆情报工作,2009,(3).
  [3]李龙,潘悟云.国际音标输入法及其实现[J].语言研究,2006,(3).
  [4]陈小莹,陈晨,华侃,于洪志.语音语料库的设计研究[J].科技信息,2008,(36).
  
  (杜福强 赵则玲 浙江宁波 宁波大学人文与传媒学院 315211)
  
  “本文中所涉及到的图表、公式、注解等请以PDF格式阅读”
其他文献
从空中俯瞰南海桂城的东北方,青葱滴翠的岗,为现代建筑红白相间的屋顶簇拥着,错落有致,妖娆艳丽。岗伏于平坦繁华的闹市中,享尽人间无比的娇宠,昔日就有西溪晚钓、玉女弹琴、雁落平沙等岗八景;而今,城市人在它的北面,开挖了修长旖旎的千灯湖,山水相依,坚守与灵动相得益彰。在水的润泽与辉映下,岗变得更加灵秀。  说起岗,佛山、南海无人不知。但冷僻的字形,一直迷惑、困扰着当地人。“、石肯”等方言土字,长期以来都
期刊
摘 要:本文基于词汇化理论,立足详尽语料分析,从对比语言学角度考察了空间认知视角下“under”和“下”的英汉语义對比。研究发现:第一,从认知角度看,“under”和“下”的英汉方所的原型意义基本相同,即“在下方”;第二,基于对空间识解和语义要素的理解,可以认识到“under”和“下”在不同场景中有多种语义对应关系;第三,两种语言的介词和方位词的语义的不对应关系主要依赖于空间背景的不同。  关键词
期刊
摘 要:目前,普通话水平测试工作存在测试监管不够有力,测试员单日工作量过高,测试培训效果不理想等问题。本文提出改进工作的相应建议,以期推动普通话水平测试工作早日走上科学化、规范化道路。  关键词:普通话水平测试 普通话培训 测试员    普通话水平测试(以下简称PSC)是一项政策性、理论性和技术性都很强的工作,稍有疏忽,就会给工作的可信度带来很大影响。湖南益阳市的PSC起步较晚,尚存在一些有待改进
期刊
摘 要:英语的集体群名词与汉语的不定量集体量词存在一定的相似性。就语义而言,二者都具有“群体”义;但二者区别更多,英语的集体群名词要远比汉语的不定量集体量词复杂。其复杂性可归纳为三个方面:1.就语义而言,英语众多的集体群名词可修饰名词的范围大小不一,有些搭配范围广,有些搭配范围窄。除了表示“群体”之外,还兼有指示群体数量、动作、处所和褒贬等的区别;群体数量有大小之别,群体动作有动静之变,群体方所有
期刊
摘 要:现代汉语“X于”结构的成员复杂,既包括动词、副词等典型的词,又包括短语,还有介于词和短语之间的短语词。以韵律特征分析为切入点,可以对“X于”结构形成新的认识:“X单于”符合标准音步的要求,构成标准韵律词;“X双于”构成超韵律词;“X多于”则是标准韵律词和超韵律词的结合。  关键词:“X于”结构韵律特征音步韵律词    “X于”是一个开放性的结构,所包含的成员性质复杂。如果从语法结构的角度来
期刊
摘 要:本文运用问卷调查和数理统计的方法,以具有代表性的韩山师范学院的学生为调查对象,对潮方言大学生对母语和普通话的态度展开调查,以期了解普通话在潮方言大学生中的使用情况,为在具体方言区提高普通话水平制定更好的对策。  关键词:潮方言 母语 普通话    一、问题的提出  推广普通话一直是我国法定的语言文字政策。1956年2月,国务院成立了中央推广普通话工作委员会,发出了在全国推广普通话的指示。2
期刊
摘 要:杨树达先生对《汉书》的语言文字研究作出了极大的贡献。他的《汉书窥管》的研究成果及方法,值得我们重视和总结。  关键词:杨树达 《汉书窥管》 语法 词义    一    杨树达(1885~1956),字遇夫,号积微,湖南长沙人,是20世纪著名的语言文字学家。幼承家学,少年时代即对声韵训诂之学产生极大的兴趣。早年考过清朝的科举,后进时务学堂读书。青年时代留学日本,学习“欧洲语言及诸杂学”。19
期刊
摘 要:意象是中国古典诗词创作与鉴赏的焦点。读者欣赏的过程即意象意义的建构过程。本文从认知语义的视角,运用Fauconnier的概念整合理论,对南唐李煜著名的词作《相见欢》中的意象建构与在线认知过程进行解读,旨在证明概念整合理论对诗词的意象组合的意义建构具有强大的阐释力。  关键词:意象 意象并置 概念整合 映射    意象是中国古典诗词中的一个重要的概念,是诗词作者进行创作不可或缺的手段,也是读
期刊
摘 要:金庸小说入选中学语文教材,引来诸多争议,打杀情节是其中的焦点之一。反对者认为此情节会带来负面影响,赞同者认为金庸武侠小说的打杀中充满历史、哲学、科学、文化等因素。笔者认为对文学作品的学习有两种角度:语言技能和认识层面。在这二者中,语言技能无疑是第一位的,包括语言文字的运用,语词的积累及个性化语言的培养。为此,本文主要以入选进高中语文教材中的《天龙八部》第41回中的武功词语(这是构成引起争议
期刊
摘 要:来华留学生的汉语教学已成为高校发展的一个重要特色。高校在促使这一事业向前发展的过程中,仍存在一些可完善的方面,如留学生的学习需求与教学目的不一、教材的衔接性和系统性不强、教学质量与教学成本的矛盾凸显、从事对外汉语教学的教师在教学、管理与科研方面压力过大等问题。本文在理清这些问题的基础上,提出相应的对策,希望为对外汉语教学事业提供借鉴。  关键词:对外汉语教学 留学生 教材    自2007
期刊