浅谈信息处理用现代维吾尔语名词语义分类研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:yaodanmeidan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:现代维吾尔语各个词类中,大部分是名词,名词的数量最多,句法地位也很重要。但是,目前对名词进行语义方面的研究却最为薄弱。为了提升维吾尔文信息处理水平,我们先建立信息处理用维吾尔语名词语义分类体系。该文主要介绍对维吾尔语名词语义分类的研究实践,分类的基础资源以及分类的必然性,简要描述了分类过程中需要解决的若干问题。
  关键词:维吾尔语;语义分类;名词
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)02-0262-02
  1 基础资源
  目前的名词研究状况来说,有关名词知识描写远远不够,原因一方面是人们比较重视动词研究,把动词作为了句子核心,而对名词关注不够,另一方面名词特别多,由于骑术牧龙大,研究难度也相当大,迄今为止,研究成果一直不如动词研究那么丰富。
  词类标注的方法自从 1960 年代开始被研究的,国外专家不断地更新和探寻相关的研究方法。WordNet 是一種传统的词典信息与现代计算机技术以及心理语言学的研究成果有效结合的一个产物。它是一个联机英语词汇检索系统它作为语言学本题库, 同时又是一部语义词典,在自然语言处理研究方面应用非常广泛。Wordnet中的名词数据库大约有8万个名词,分为实体,抽象物,心理特征,自然现象,活动,事件,集体,处所,所有物,外形,状态等11类,有些概念进一步分为几个小类。应该说WordNet 类义划分比较完备,但是缺乏一种照应的网络关系,也就是说对事物分类缺少实体和概念,实体和属性间等关系的描述。
  北京大学与中科院计算所自1994年开始联合开发“汉英机器翻译模型系统”,就着手研制为汉英机器翻译服务的“现代汉语语义词典”。“现代汉语语义词典”收录的名词37522个,名词库设15个字段,分为具体事物,抽象事物,过程,事件,空间等5大类,有些概念进一步分为几个小类。
  自2008年内蒙古大学蒙古学学院在国家自然科学基金的资助下着手研制“蒙古语语义信息词典”,目前“蒙古语语法信息词典名词分库”有了36个属性字段,14105个名词成为语义分类的对象。分为事,物,智慧,时间,空间,动作,量度等7个大类,有些概念进一步分为几个小类。
  现代维吾尔语信息处理方面,新疆大学和新疆师范大学一直走在前列,维吾尔语词性标注研究也得到了一定的成绩,主要有:玉素甫.艾白都拉的《version1.0》和《version 2.0》的报告及有关论文;新疆大学,吐尔根.依不拉音的《现代维吾尔语词性标记集的探索》等。这些论文中详细的描述了维吾尔语词性标注的基本原则及方法,并提出了有关词性标注标记集。目前,维吾尔语词性标注工作主要是以基于统计法和规则法的两种研究法而开展。
  2 维吾尔语名词语义分类的必然性
  现代维吾尔语是黏着性语言,语法、语义范畴较为复杂。目前现代维吾尔语中采用的是按语法功能分类的12中词类,这种分类方法无法满足短语分析、句子分析、机器翻译等现代维吾尔语信息处理方面的需求。为了正确的表达其包含的所有信息, 我们需要建立一个语法语义特征相结合的分类体系。虽然新疆大学和新疆师范大学理论方面提出了现代维吾尔语语义分类,但这个分类体系不够详细,缺乏很多信息,比如新疆师范大学对现代维吾尔语词性标注集进行验证性研究的过程中发现收录的28133个名词里面12926种名词服从现有的现代维吾尔语词性标注标记集规范,还有一部分名词不满足该规范的语义分类规律,这需要我们改正和补充。
  在现代维吾尔语信息处理研究工作中,光考虑词语的语法意义,而忽略它的语义是会导致一个句子或者整篇文章的语义错误。例如:
  3 现代维吾尔语名词语义分类难处
  现代维吾尔语里面名词最多,但是名词的分类研究基本上停留在以语法功能为基础的水平。如果我们想建立一个更趋合理,相对较细的语义分类体系,必须要考虑下面几个方面,这也算是我们所面临的困难。
  4 结束语
  目前,现代维吾尔语名词语义分类研究工作只能说是起步,但没有停止。为实现名词语义分类的合理化、系统化、科学化,我们还需要更重视理论认识与操作方法。总之而言,我们的能力和水平有限的原因,上面所做的研究工作依然存在着不少的缺陷。因此,对语义分类体系工作要进行进一步的优化和补充。
  参考文献:
  [1] 玉素甫.艾白都拉,张海军,等.信息处理用现代维吾尔语词干词类标记集研究[J].信息技术与标准化,2011(6).
  [2] 玉素甫.艾白都拉.信息处理用现代维吾尔语词类标注标记集规范草案[C].新疆师范大学,2011.
  [3] 吐尔根.依不拉音,阿里甫.库尔班,阿不都热依木.基于词典的现代维吾尔语词性自动标注系统的研究[J] .新疆大学学报,2011(6).
  [4] 努尔加玛力.沙依提,现代维吾尔语词性标注标记集验证性实验研究[D].新疆师范大学,2015年5月.
  [5] 玉素甫.艾白都拉 阿布都热依木.沙力,阿拉帕提古丽,信息处理用维吾尔语词汇标记集的确定[J].计算机应用,2009(7).
  [6] 王惠,詹卫东,俞士汶,“现代汉语语义词典”的结构及应用[J],语言文字应用,2006(2).
其他文献
摘要:在新媒体环境下,公益广告取材于社会生活的各个层面,关注人类生存的相关话题,其表现主题具有深厚的社会基础。当前,数字化技术发展迅速。为了进一步促进公益广告的表现效果,本文对新媒体环境下公益广告表现手法进行研究,对公益广告表现手法进行了拓展,对公益广告表现手法理念进行了创新。提出了利用数字化智能控制实现虚拟与现实的公益广告表现形式;给出了基于行为艺术的公益广告表现模式;对基于全媒体的公益广告表现
在西方文论中,互文性理论作为一种观念出现,当互文性理论进入中国语境后,它却流变成一种工具性特点尤为突出的理论。互文性理论在介入中国文学理论发展过程后发生的从观念到方法
本文采用社会历史批评的方法,分析作家特定的历史文化背景,梳理出邦达列夫小说创作三个阶段人道主义思想的流变特征。在不同的历史时期,邦达列夫小说中的人道主义内涵呈现出不同