论文部分内容阅读
【摘要】:语言信息处理是当今语言文字实现信息化的重要手段。阿都方言是彝语北部方言下的一种具有古彝文复元音复辅音特质的土语。通过信息处理方法研究分析阿都方言有便于探索古彝文的发音规则和词汇组合等特性。经过分析探索阿都方言资源库,归纳分析其词汇语音特征。
【关键词】:阿都方言 信息处理 资源库
1、阿都方言土语语音资源库研究的重要性和意义
1.1阿都方言土语语音资源库研究的重要性
彝语阿都方言土语(下文称阿都方言)是彝语北部方言下南部次方言属下的一个土语分支。彝语南部次方言分两个土语,即东部土语和西部土语,彝语称阿都话和索地话。阿都方言区覆盖范围包括四川凉山彝族自治州布拖县、宁南县及普格、昭觉、德昌、金阳、会东、会理等县的部分地区,布拖是阿都方言分布的中心地带。
语言作为人类群体的交际工具,其材料价值十分珍贵。建设阿都方言语音资源库不仅是保护阿都方言,让其得以继续传承的媒介。同时为研究阿都地域文明传承和传播阿都地区独具特色的风俗传统文化,也为研究古彝文的语音词汇特征开辟新的路径。
进入新时代科技发展日新月异,少数民族语言文字信息化建设便成为人类发展建设过程中不可或缺的趋势。正是时代的号召下,国内少数民族语言文字信息化建设走向高潮。
1.2阿都方言语音资源库研究的意义
第一,保护阿都方言是保护彝族文化的根基。布拖縣是阿都方言土语核心区域。因其地理环境和社会历史等情况,布拖一直呈现为较封闭的状态,其古老的彝民族风俗习惯和传统文化保留的较为完整。通过对阿都方言的研究和分析,探索并认识该区域的社会演变、民族迁徙、融合、发展、语言文化的发展和传承。
第二,阿都方言承载着阿都地域的民族风俗。民族风俗是一个地方民族文化的结晶体,历史文化与民族风俗的承载物。通过阿都方言,能够感受到阿都地域文化、民间艺术特色。以阿都高腔、朵洛荷等为代表的特有文化现象,充分显示方言在地方文艺中的重要作用。
第三,阿都方言体现着彝族语言研究价值。阿都方言是彝族语言的重要组成部分,阿都方言对研究彝族语言学起着重要的作用。阿都方言中,仍不同程度地保留了古彝语的语音特点。可通过语音的对应规律尝试推导彝古文语音的大致框架体系。
最后,阿都方言是研究彝族传统文化及彝语为介质的一系列丰富资源,将阿都方言土语系统地归纳整理,建立完整的语音资源库具有重要价值。阿都方言的价值不仅体现于研究阿都地域文化的资料价值,而且也体现为研究彝族语言资料的重要源泉。阿都方言是彝族多元文化的根基,科学的保护阿都方言是对阿都方言区广大群众的尊重,同时阿都方言作为重要的非物质文化遗产应得到传承和保护。
2、阿都方言语音资源库的建设原理和内容
2.1基于计算语言学的建设原理
语言是有声的交际工具,过去由于条件的限制,收集的很多材料大都由于设备不够完善而没能充分保存和利用语言的真实语音。声学上的分析,也不能说是比较完整的保存和反映了某种语言的真实面貌。虽不少学者还是录制一些有价值的活的语言材料,但因检索不便而不能充分利用。于是“计算语言学”便应运而生。计算语言学包括了语言学研究的所有内容,如语音学、语义学、语法学、语用学等方面的知识,这些知识构建起计算语言学,方便研究者进行科学合理的研究分析。
2.2阿都方言语音词汇的特征
阿都方言与圣乍方言为标准音的语言上有差异,在阿都方言区彝语古语词汇还保留较多以及保留着复辅音和复元音,与标准音相比少了清化鼻音,词汇表达更加丰富。
阿都方言与标准音在语音上有一定的对应规律。例如:在辅音方面,凉山地区标准音圣乍方言土语的舌面前音与元音相结合的音节,在阿都方言土语中就会变成舌尖后辅音。在元音方面,圣乍话与阿都话在辅音相同的条件下辅音与元音相拼时,圣乍话中的后次低圆唇紧元音在阿都话中的读音会变成前次高小圆唇紧元音。在圣乍话与阿都话辅音相同的条件下,辅音与元音相拼后次高圆唇松元音在阿都话中读音将变成前高不圆唇松元音。
资源库拟将通过汉字、彝文拼音的形式来注明词义和读音。
部分词汇特殊词汇语音如:(以下依次为汉文-彝语拼音-国际音标)看-ngep-21、痣-33、砍-33。
3、阿都方言语音数据库的建设模式和实现方案
3.1阿都方言语音资源库建设模式及步骤
资源库建设模式:资源库融合计算机多媒体、网络和数字技术,形成以数据形式发布、存取、使用的资源库;资源库由多媒体资源、文本、图片等组成。资源库存储介质为硬盘/DVD介质中;资源库应用于单机,以便浏览检索资源库。
本数据库主要为建设有关阿都方言的语音资源库,建成之后可以用于教育、教学等非商业化运作之中,实现其本质上的意义。
阿都方言语音资源库建设步骤:建设语音资源库,应按照统一规划、统一标准、统一管理的原则,进行资源的统一整合。
首先,制定统筹规划的方案,有序推进资源库的建设。从数据库特点出发,依据服务对象的需要进行推进。资源库应在国家/国际标准/地方标准框架下构建其标准体系。让标准成为整个资源库建设协同工作的技术准则。为资源库的总体设计、资源建设、支撑技术软件开发及软硬件环境建设提供可遵循的标准规范进行设计,充分体现其在建设中的实用性。
其次,采用标准的流程的录音来建设完善阿都方言语音数据的采集来实现语音资源库的建设。遵照标准规范的录音原则,严格依据各类标准、行业准则以保证质量。设计阿都方言500字词汉文对照词汇表,用以阿都方言语音数据的采集和分析。该词汇表在经过咨询资深阿都方言使用习惯且不存在混用其他方言的“专家”后,经过层层筛选,选出具有特点的词汇、语音方案。该套词汇方案更贴近于自然与现实生活,内容选取坚持以现有阿都文化资源为主,规范整合其他资源,具有鲜明的代表性和针对性。 阿都方言语音采集采用较高音质标准层次。方便学习者通过语音片段进行学习,也为学者初步探索语音基本情况和音调变化组合等存在的特征情况进行分析。
录音设备采用TASCAM HD-P2便携式高清晰度立体声音频录音机,该设备能够直接以高达192kHz/24-Bit的解析度将录音材料捕捉存储。同时采用XLR双话筒输入,满足录音场合需要的立体声文件获取。
再次,声音切片过程则Audition cs 6软件来实现。通过该软件切分,不仅保证了切片后声音的质量,还可按不同的需要分别对各词组词汇进行拆分或重组,达到实现建设的目标需求。
最后,注重规模与时效相结合的原则。将所建的资源实现完全整合,同时从数据库建设到提供成品注意其时效性。统一管理、维护结合的原则,建设与服务结合的原则。资源库应根据其特点,尽可能为阿都方言区域提供有声资源服务,在服务中完成自身的价值和意义。
3.2阿都方言语音资源库建设实现方案
阿都语音资源库,拟建设独立性元数据与关联性元数据并存,数字图像资源与数字文本资源相结合,文字、图片、音频、等多种资源相互补充、突出特色的资源库。该资源库主要以实现数据信息资源共享为主。
数据库建设支撑技术包括專用软件和工具软件两类,前者专门研制开发,后者通过共享资源获取。首先,说明软件的具体运行环境,将软件置于各子项具体硬件环境中,要与数据库、电脑等硬件设备相互配套。其次,按照“统一代码、标准、字体”的要求进行研制,系统在整个数据库建设中的位置和主要用途;基本结构和功能、系统用户接口、系统逻辑结构、物理结构、数据结构与系统模块之间的关系;技术特征和实现要求的说明。再次,研制开发数据库应用支撑技术系统(应用软件)。最后,数据库建设以资源库中心先行存储,然后通过单机实现应用。
技术实现方案:文本资源为文字型电子书及图片相嵌合。文本数据库建设主要使用包括Word文档等,这是数据库建设中文献资源建设的主要格式;辅以图片实现文字拼音录入的资料进行存储。音频资源则以高解析度的波状声音存储。音频资源处理(剪辑、合成)要按改良MP3格式进行,后存储于光盘/硬盘。图像资源则按资源库页面进行估算,辅以工具制作PS等多媒体软件。
【参考文献】
【1】【4】潘正云,彝语阿都话唇软颚复辅音声母比较研究【J】民族语文,2001年第2期;
【2】马丽、吉吉伍果、王晓涵,保护彝族阿都方言,传承地域文化【J】商业文化,p110.
【3】陈锡周,云南少数民族语言数据库,【N】云南民族学院学报 (哲学社会科学版),2003年1月第20卷第1期;
【5】佟加·庆夫,锡伯族语言文化数据库建设研究【J】满语研究2014年1期.
项目基金:本项目为西南民族大学研究生创新型科研资助项目。项目名称:西南民族大学2018年研究生“创新型科研项目”硕士一般项目(项目编号:CX2018SP269)
作者简介:孙某姑,(1989-),男,西南民族大学在读硕士研究生,研究方向:少数民族语言信息处理。
【关键词】:阿都方言 信息处理 资源库
1、阿都方言土语语音资源库研究的重要性和意义
1.1阿都方言土语语音资源库研究的重要性
彝语阿都方言土语(下文称阿都方言)是彝语北部方言下南部次方言属下的一个土语分支。彝语南部次方言分两个土语,即东部土语和西部土语,彝语称阿都话和索地话。阿都方言区覆盖范围包括四川凉山彝族自治州布拖县、宁南县及普格、昭觉、德昌、金阳、会东、会理等县的部分地区,布拖是阿都方言分布的中心地带。
语言作为人类群体的交际工具,其材料价值十分珍贵。建设阿都方言语音资源库不仅是保护阿都方言,让其得以继续传承的媒介。同时为研究阿都地域文明传承和传播阿都地区独具特色的风俗传统文化,也为研究古彝文的语音词汇特征开辟新的路径。
进入新时代科技发展日新月异,少数民族语言文字信息化建设便成为人类发展建设过程中不可或缺的趋势。正是时代的号召下,国内少数民族语言文字信息化建设走向高潮。
1.2阿都方言语音资源库研究的意义
第一,保护阿都方言是保护彝族文化的根基。布拖縣是阿都方言土语核心区域。因其地理环境和社会历史等情况,布拖一直呈现为较封闭的状态,其古老的彝民族风俗习惯和传统文化保留的较为完整。通过对阿都方言的研究和分析,探索并认识该区域的社会演变、民族迁徙、融合、发展、语言文化的发展和传承。
第二,阿都方言承载着阿都地域的民族风俗。民族风俗是一个地方民族文化的结晶体,历史文化与民族风俗的承载物。通过阿都方言,能够感受到阿都地域文化、民间艺术特色。以阿都高腔、朵洛荷等为代表的特有文化现象,充分显示方言在地方文艺中的重要作用。
第三,阿都方言体现着彝族语言研究价值。阿都方言是彝族语言的重要组成部分,阿都方言对研究彝族语言学起着重要的作用。阿都方言中,仍不同程度地保留了古彝语的语音特点。可通过语音的对应规律尝试推导彝古文语音的大致框架体系。
最后,阿都方言是研究彝族传统文化及彝语为介质的一系列丰富资源,将阿都方言土语系统地归纳整理,建立完整的语音资源库具有重要价值。阿都方言的价值不仅体现于研究阿都地域文化的资料价值,而且也体现为研究彝族语言资料的重要源泉。阿都方言是彝族多元文化的根基,科学的保护阿都方言是对阿都方言区广大群众的尊重,同时阿都方言作为重要的非物质文化遗产应得到传承和保护。
2、阿都方言语音资源库的建设原理和内容
2.1基于计算语言学的建设原理
语言是有声的交际工具,过去由于条件的限制,收集的很多材料大都由于设备不够完善而没能充分保存和利用语言的真实语音。声学上的分析,也不能说是比较完整的保存和反映了某种语言的真实面貌。虽不少学者还是录制一些有价值的活的语言材料,但因检索不便而不能充分利用。于是“计算语言学”便应运而生。计算语言学包括了语言学研究的所有内容,如语音学、语义学、语法学、语用学等方面的知识,这些知识构建起计算语言学,方便研究者进行科学合理的研究分析。
2.2阿都方言语音词汇的特征
阿都方言与圣乍方言为标准音的语言上有差异,在阿都方言区彝语古语词汇还保留较多以及保留着复辅音和复元音,与标准音相比少了清化鼻音,词汇表达更加丰富。
阿都方言与标准音在语音上有一定的对应规律。例如:在辅音方面,凉山地区标准音圣乍方言土语的舌面前音与元音相结合的音节,在阿都方言土语中就会变成舌尖后辅音。在元音方面,圣乍话与阿都话在辅音相同的条件下辅音与元音相拼时,圣乍话中的后次低圆唇紧元音在阿都话中的读音会变成前次高小圆唇紧元音。在圣乍话与阿都话辅音相同的条件下,辅音与元音相拼后次高圆唇松元音在阿都话中读音将变成前高不圆唇松元音。
资源库拟将通过汉字、彝文拼音的形式来注明词义和读音。
部分词汇特殊词汇语音如:(以下依次为汉文-彝语拼音-国际音标)看-ngep-21、痣-33、砍-33。
3、阿都方言语音数据库的建设模式和实现方案
3.1阿都方言语音资源库建设模式及步骤
资源库建设模式:资源库融合计算机多媒体、网络和数字技术,形成以数据形式发布、存取、使用的资源库;资源库由多媒体资源、文本、图片等组成。资源库存储介质为硬盘/DVD介质中;资源库应用于单机,以便浏览检索资源库。
本数据库主要为建设有关阿都方言的语音资源库,建成之后可以用于教育、教学等非商业化运作之中,实现其本质上的意义。
阿都方言语音资源库建设步骤:建设语音资源库,应按照统一规划、统一标准、统一管理的原则,进行资源的统一整合。
首先,制定统筹规划的方案,有序推进资源库的建设。从数据库特点出发,依据服务对象的需要进行推进。资源库应在国家/国际标准/地方标准框架下构建其标准体系。让标准成为整个资源库建设协同工作的技术准则。为资源库的总体设计、资源建设、支撑技术软件开发及软硬件环境建设提供可遵循的标准规范进行设计,充分体现其在建设中的实用性。
其次,采用标准的流程的录音来建设完善阿都方言语音数据的采集来实现语音资源库的建设。遵照标准规范的录音原则,严格依据各类标准、行业准则以保证质量。设计阿都方言500字词汉文对照词汇表,用以阿都方言语音数据的采集和分析。该词汇表在经过咨询资深阿都方言使用习惯且不存在混用其他方言的“专家”后,经过层层筛选,选出具有特点的词汇、语音方案。该套词汇方案更贴近于自然与现实生活,内容选取坚持以现有阿都文化资源为主,规范整合其他资源,具有鲜明的代表性和针对性。 阿都方言语音采集采用较高音质标准层次。方便学习者通过语音片段进行学习,也为学者初步探索语音基本情况和音调变化组合等存在的特征情况进行分析。
录音设备采用TASCAM HD-P2便携式高清晰度立体声音频录音机,该设备能够直接以高达192kHz/24-Bit的解析度将录音材料捕捉存储。同时采用XLR双话筒输入,满足录音场合需要的立体声文件获取。
再次,声音切片过程则Audition cs 6软件来实现。通过该软件切分,不仅保证了切片后声音的质量,还可按不同的需要分别对各词组词汇进行拆分或重组,达到实现建设的目标需求。
最后,注重规模与时效相结合的原则。将所建的资源实现完全整合,同时从数据库建设到提供成品注意其时效性。统一管理、维护结合的原则,建设与服务结合的原则。资源库应根据其特点,尽可能为阿都方言区域提供有声资源服务,在服务中完成自身的价值和意义。
3.2阿都方言语音资源库建设实现方案
阿都语音资源库,拟建设独立性元数据与关联性元数据并存,数字图像资源与数字文本资源相结合,文字、图片、音频、等多种资源相互补充、突出特色的资源库。该资源库主要以实现数据信息资源共享为主。
数据库建设支撑技术包括專用软件和工具软件两类,前者专门研制开发,后者通过共享资源获取。首先,说明软件的具体运行环境,将软件置于各子项具体硬件环境中,要与数据库、电脑等硬件设备相互配套。其次,按照“统一代码、标准、字体”的要求进行研制,系统在整个数据库建设中的位置和主要用途;基本结构和功能、系统用户接口、系统逻辑结构、物理结构、数据结构与系统模块之间的关系;技术特征和实现要求的说明。再次,研制开发数据库应用支撑技术系统(应用软件)。最后,数据库建设以资源库中心先行存储,然后通过单机实现应用。
技术实现方案:文本资源为文字型电子书及图片相嵌合。文本数据库建设主要使用包括Word文档等,这是数据库建设中文献资源建设的主要格式;辅以图片实现文字拼音录入的资料进行存储。音频资源则以高解析度的波状声音存储。音频资源处理(剪辑、合成)要按改良MP3格式进行,后存储于光盘/硬盘。图像资源则按资源库页面进行估算,辅以工具制作PS等多媒体软件。
【参考文献】
【1】【4】潘正云,彝语阿都话唇软颚复辅音声母比较研究【J】民族语文,2001年第2期;
【2】马丽、吉吉伍果、王晓涵,保护彝族阿都方言,传承地域文化【J】商业文化,p110.
【3】陈锡周,云南少数民族语言数据库,【N】云南民族学院学报 (哲学社会科学版),2003年1月第20卷第1期;
【5】佟加·庆夫,锡伯族语言文化数据库建设研究【J】满语研究2014年1期.
项目基金:本项目为西南民族大学研究生创新型科研资助项目。项目名称:西南民族大学2018年研究生“创新型科研项目”硕士一般项目(项目编号:CX2018SP269)
作者简介:孙某姑,(1989-),男,西南民族大学在读硕士研究生,研究方向:少数民族语言信息处理。