【摘 要】
:
自然语言处理关键任务之一的句法分析过程直接依赖基本短语的分析结果。在国内外,许多语言已经有比较成熟的基本短语识别技术,然而起步较晚的维吾尔语信息处理在基本短语方面
论文部分内容阅读
自然语言处理关键任务之一的句法分析过程直接依赖基本短语的分析结果。在国内外,许多语言已经有比较成熟的基本短语识别技术,然而起步较晚的维吾尔语信息处理在基本短语方面还未有过任何研究。本文经过回顾维语信息处理的历史和现状,分析其他语言信息处理的经验和维语的语言特点,认为维语基本动词短语自动识别研究是推动当今维语信息处理技术的关键工作,同时对新疆其他少数民族语言信息处理研究提供有利的参考,具有非常重要意义。本文最主要的工作是认真学习和分析国内外使用的基本短语识别的先进技术和有效理论,从计算语言学角度研究维吾尔语词法、句法特点及动词的使用规律;探索适合维语特点的基本短语自动识别方法并尝试了维语基本动词短语自动识别过程的实现;其次,在借鉴英语和汉语基本短语定义,首次给出了维语基本动词短语的定义和基本结构规范;以此定义和标注规范为基础,准备了小规模的基本动词短语标注语料库。经过长时间反复的语料库准备、尝试、分析结果等工作,分析出最直接反应和影响基本短语的词法信息特征选择方案;同时,为缓解维语基本动词短语边界难确定问题,本研究还实现了基于转换的错误驱动方法的动词细分类程序。在维语基本动词短语识别的实现过程中形成了一系列有用的中间产品,有带词性信息的词干库和词缀库,词素切分与标注语料库、基本动词短语标注语料库,还有,适合使用CRF和SVM等多种分类工具的维语基本短语识别实验的输入输出文件格式转换工具和实验结果评测工具,还有维文与拉丁维文双向转换工具。基于CRF的维语基本短语自动识别结果表明,本文详述的维语基本动词短语的自动识别过程、词性标注方式、使用的理论和实现方法效果不错,为维语其他类基本短语的识别提供了比较可行的实现经验。
其他文献
“红星音乐坛”是解放军艺术学院音乐系一个以“歌坛”为主,融“歌坛”(音乐会)、“讲坛”(公开课)、“论坛”(学术讲座)为一体的实践教学机制,已经历了创建(1994-1997)、发展(1997-2005
教师职业倦怠是教师不能有效应对工作中的压力而产生的一种极端反应,是教师职业生涯中的常见现象,近年来受到越来越多国内外学者的诸多关注。如果不能有效预防和缓解教师职业
CF3I气体是SF6气体的一种可能替代,然而其较高的液化温度使其难以用在气体绝缘设备中。为此,将CF3I气体和氮气混合,通过实验研究了压强、电负性气体(CF3I或SF6气体)与混合气
人称指示语是语言中最常见、最完整的词类之一。以往对这一问题的研究多从句法的角度进行分析,或侧重于中英对比研究,较少侧重于口译研究。即使在口译领域,大多数的研究都是
随着航天事业的飞速发展,高精度三轴稳定卫星越来越受到人们的关注。要保证卫星的高精度、高可靠性和稳定的在轨运行,就意味着必须保证卫星有足够的指向精度和控制稳定度。论文
北京市是全国第六个共有产权房试点城市,共有产权模式不仅缓解了城市人口压力与人才流失之间的矛盾,而且为中间层人员提供了住房保障。按照《北京城市总体规划(2016—2035年)
物联网整合了美国CPS(Cyber-Physical Systems)、欧盟IoT(Internet of Things)和日本U-Japan等概念。物联网能够让具有独立寻址的普通物理对象达到互联互通,达到互联互通的物联
随着全球化的进程,人们与不同国家的人交流日趋频繁。由于文化的不同,在跨文化交际中,他们不可避免地遭遇了交际失败,导致了误解、猜疑甚至冲突。这种叫做语用失误的现象引起了越
截至2018年12月份,广西装配式建筑生产基地已竣工投产23个,建设中9个,预计全部建成后,装配式混凝土构件产能将达到约340万m~3,装配式钢结构产能将达到约180万t。此外,全区还
首诊为口腔肿物的鼻咽癌2例张荣幸,周磊(广东医学院附属医院口腔科,湛江524001)鼻咽癌是鼻咽部常见的恶性肿瘤,临床上肿瘤多发生于鼻咽顶后壁、咽隐窝、咽鼓管咽口或鼻后孔处,而肿瘤明显突