一种基于语料库的濒危文化挽救方法

来源 :西部蒙古论坛 | 被引量 : 0次 | 上传用户:Robert_1967
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前世界范围内,尤其是人口较少的民众失去甚至失传母语和传统文化的现象日益严重,拯救濒危文化的需求很迫切。由于蒙古文的地区性,多样性以及方言性,至今在地区之间文字通讯较难。再加上过去一些地区使用文字的频繁改动,民众失去了拥有的语言和文字。不论在使用文字标准的研究、新-旧文字信息的互换、自然语言处理-通信等方面存在着许多亟待解决的问题。我们在日本国早稻田大学,NICT~1、GITI~2、蒙古国国立大学、俄国卡尔梅克/布里亚特国立大学、中国内蒙古社会科学院蒙科立软件开发公司等单位的协助下收集整理了以蒙语为核心的多语言信知识库。其内容包括:①蒙古语族语言语音库;②新蒙/传统/托忒蒙文/中/英/日/韩-平行语法标注电子词典;③蒙古国方言教育旅游会话语音库以及卫拉特蒙古江格尔说唱语料(中国新疆,俄国卡尔梅克)。以上语料均用Chasen/HTK/ATRASR等常用软件进行自动标注、人工校对、实现了共享平台。借助于以上的语言资源我们研发了应用软件:既,1)蒙文多文种文本横向转换处理软件(实测转换率94.3%)、2)语音-文本转换软件(实测转换率88.6%)。其中一部分的语料和软件已经向社会公开。这对蒙古语言的数据挖掘、知识发现,科学研究以及再生-学习消失中的语言-文字等方面无非是一个科学性的扶持。 At present, people in the world, especially the less populated, have become increasingly desperate to lose or even lose their mother tongue and traditional culture, and the need to rescue an endangered culture is urgent. Due to the regional, diversity and dialect nature of Mongolian languages, text communication between regions has so far been difficult. Coupled with the frequent changes in the past use of the text in some areas, people lose their own language and text. There are many problems to be solved in terms of the study of literal standards, the exchange of new-old writing information, natural language processing and communication. We collected and collaborate with Waseda University in Japan, NICT ~ 1, GITI ~ 2, Mongolia State University, Kalmykia / Buryat State University in Russia, and Mongolian Software Development Company in Inner Mongolia Academy of Social Sciences Multilanguage Letter Knowledge Base with Mongolian as its Core. Its content includes: 1) Mongolian language speech database; 2) New Mongolian / traditional / Toddy Mongolian / Chinese / English / Japanese / Korean - parallel grammar electronic dictionary; 3) Mongolian dialect education tourism conversational speech database and Verat Mongolian grid Seoul rap material (Xinjiang, China, Kalmyk, Russia). The above corpus is automatically labeled with commonly used software such as Chasen / HTK / ATRASR, and manually calibrated to achieve a shared platform. With the aid of the above language resources, we have developed application software: 1) Mongolian multilingual text horizontal conversion software (measured conversion rate of 94.3%), 2) speech-to-text conversion software (measured conversion rate of 88.6%). Some of the corpus and software have been made public. This is nothing more than a scientific support for Mongolian data mining, knowledge discovery, scientific research and reproduction - the disappearance of words and words in learning.
其他文献
英语的语感对英语教学和英语的运用起着重要作用。英语语感是人们对英语语言的感觉,它包括人们对英语的语音感受、语意感受、语言情感色彩的感受等。那么,在教学中如何培养学
一、工程简介及运行概况白河主坝是密云水库最大的一座水工建筑物。坝高66米,坝长960米,坝基为第四纪河流冲积物,最厚达44米,平均33米,主要由卵石、砾石、砂等组成,渗透系数
吃多了一种味道,难免腻口;看多了德美日系的老面孔中级车,你一定也想换换口味?雷诺纬度就是这么一道日式法餐,不但丰盛,而且美味。如今的中国中级车市场,随着新面孔的不断 E
对扩散提出了两个假说:(a)克服表面张力将水束或水带从侧向碎裂成水滴,(b)克服粘滞剪力。从张力和剪力原理分别推导出下列两个公式: (s·p/σ)tan=~21/2=const., (s(ρp/μ)~
或许应该用“悲情”来形容日本马自达汽车对技术的追求,这家企业要么动身太早,要么来得太晚,那么眼下的“创驰蓝天”是否会恰恰合适?马自达是一家梦想很大的企业,想要为你制
在写作动力这一概念提出之前,许多人都把写作动力误认为或等同于写作动机。动力在心理学上也称动机,“是直接推动有机体活动以满足某种需要的内部状态,是行为的直接原因和内
美系车型崇尚大气、魁梧的设计元素,美式SUV更是将这一风格展现得淋漓尽致。无论流行风尚如何改变,美式SUV始终坚守着自己的个性,与众不同的气质不但让它们显得十分独特,而且
为研究荷木(Schima superba)个体间树干CO2释放通量(Es)的差异以及树干液流对Es的影响,提高森林生态系统呼吸计算准确性,利用红外气体分析仪及自制式气室于2009年湿季和干季
公文是党政机关、社会团体、企事业单位在公务活动中形成并固定使用的具有法定效力和规范体式的公务文书,是实施领导、处理公务的重要工具。公文质量从一定意义上体现发文机
我们已经建立了一种磁漏检测系统用于in和in井底生产油管的现场腐蚀检测。该系统是由井底磁漏检测试井工具组成的。这种检测工具将井底资料通过传输电缆传给地面数据采集系统