论文部分内容阅读
语料库的发展从1.0、2.0到大数据推动下的3.0时代,给语言研究及语言应用研究带来了革命性变化,尤其是在机器翻译、语音识别等应用的大趋势下,语料库成为了一切自然语言处理的基础。民族语料库构建工作可追溯至上世纪八九十年代,以蒙、维、藏等几个少数民族语为突出代表,无论是在语料库构建还是基于语料库的语言研究、语言教学或语音识别、机器翻译等方面的应用研究都取得了重大突破。相较而言,彝语语料库的构建及其应用研究还存在巨大空缺,已建彝语语料库主要为彝汉或彝汉英平行语料库以及方言语料库,用于彝汉机器翻译以及语音识别等应用研究。同时,随着教育信息化建设在民族地区的飞速发展,彝语的社会使用功能以及彝文研究价值的逐年提升,彝区也掀起一股学习彝语的热潮。如何实现彝语学习的信息化,发展彝语言自身的教育信息化成为了亟待解决的问题。因此,本文构建彝语基础学习语料库,增补对准语言学习的彝语语料资源;以语料驱动学习指导彝语基础学习资源设计,同时将字源识字法引入彝语的学习中,挖掘彝文字的文化内涵并借助多媒体等现代化手段加以呈现;进一步设计开发彝语基础学习平台,促进彝语资源数字化和学习信息化。主要研究工作和成果如下:(1)彝语基础学习语料库构建。针对目前彝语语料库构建尚未有明确的建库标准,提出彝语语料库的构建流程与构建规范。对原始语料进行采集整理与校对,结合彝语相关书籍及彝语教师意见确定需采集语音的彝语文本。开发彝语语音采集软件,采集语音并存储发音人信息,实现了语音的远程采集与控制。借助音频编辑软件audacity与声学分析软件praat对彝语基础学习语料库的语料资源进行了降噪、有声段截取预处理和标注处理。(2)基于自建语料库的彝语基础学习资源设计。以语料驱动学习为指导,基于语料库的语料数据,分别对彝语声韵调、彝语单字、彝语词汇、彝语句子等学习资源进行分层设计。基于语音学理论,借助汉语语音整理并简化彝语声韵调发音规则,结合声母、韵母音频文件与发音示例,掌握彝语声韵调发音技巧。基于字源识字法设计彝语单字学习资源,溯源彝文古字形,以字形演变联系字义,见形知义,加深文字理解与记忆的同时,通过挖掘文字本身的文化内涵,激发学习者对本民族文化的认同感与荣誉感。基于语料库对彝语词汇、句子进行资源设计,通过词汇切分,以字识词;通过语句跟读及对话模拟的形式增强交互,提升学习兴趣。(3)彝语基础学习平台设计与实现。平台基于自建彝语语料库,通过微信web开发者工具进行开发,采用Linux+Apache+PHP+MySQL开源免费的框架结构,实现彝语声韵调、彝语字词、彝语句子等的在线学习及在线交流。通过问卷星平台的调查反馈信息,借助prism软件进行分析,结果表明,该学习平台在学习资源设计及功能呈现上都获得较高评价,具有较好的性能表现与应用价值。本研究构建的彝语基础学习语料库一定程度填补了彝语语料库在语言学习方面的语料空缺,为民族语语料库的构建提供借鉴与参考;引入对外汉语中广泛应用的字源识字法,在学习彝语的同时了解彝语言文字本身的文化内涵,促使彝文字的实际效用与文化传承的有机统一;所开发的彝语学习平台为彝语学习者提供彝语基础学习资源与平台,能有效推进彝语学习的信息化。