【摘 要】
:
自然语言处理(NLP)是指对人类语言的处理,它是人工智能领域内的一门学科。自然语言处理研究的最终目标是解析和理解语言,然而这个目标还尚未实现。因为这个原因,对自然语言处
论文部分内容阅读
自然语言处理(NLP)是指对人类语言的处理,它是人工智能领域内的一门学科。自然语言处理研究的最终目标是解析和理解语言,然而这个目标还尚未实现。因为这个原因,对自然语言处理的大量研究工作集中在中间任务上,所谓的中间任务就是说只研究一些能理解语言中内在结构的一些方法,而不需要完全的理解语言。其中的一个主要研究任务是词性标注或仅仅进行简单的标注。由于绍纳语缺乏标准的词性标注器,导致绍纳语在机器翻译、拼写检查、词典编纂、和自动句法分析和构造等领域,成为研究者们开展研究的主要困难。到目前为止,还没有绍纳语的词性标注的相关研究工作,词性标注器的性能还没有得到足够的改进。因此,本文的研究目的是使用足够大的训练语料来提高Brill词性标注器在绍纳语上的词法和转换规则方面的能力。因此,我们回顾了绍纳语关于语法和形态的文献以理解绍纳语的性质,并且识别出了可能的标注集合。通过阅读资料,我们确定了26个广泛的标注集,并且从包含6750个不同单词的1100个句子中提取了17473个被标注的单词用于训练和测试。其中,258个句子来自于先前的工作中。由于只有少数现成的标准语料库,而人工标注来得到语料库是一项艰巨的任务,因此我们使用标准语料库。基于转换的的错误驱动学习方法适用于绍纳语的词性标注工作。我们对于基于规则的词性标注方法做了不同的实验,并且使用了20%的数据用于测试。我们与Brill标注器的实验结果进行了相比较,Brill标注器得到了80.08%的准确率,而我们改进的Brill标注器得到了95.6%的准确率,提高了15.52%。因此,我们发现,训练语料库的规模、词法规则学习器中规则生成系统以及使用绍纳语HMM标注器作为初始状态标注器对于标注器的改进具有重要的影响。
其他文献
在新媒体环境下,广告的播出形式日益丰富。较为传统的电视硬性广告已然不能满足观众的需求,甚至会引发观众对广告的反感心理。“限娱令”、“限真令”接连颁布使广告发布时间在一定程度上被压缩,传统电视综艺节目的版权费用越收越高,个别广告主们开始寻求新广告的传播渠道,将注意力转向为观众喜闻乐见的网络综艺节目。网络综艺节目以网络平台作为主要传播渠道,凭借非线性传播、内容多样化的优势,在碎片化阅读的时代高开高走。
随着数据信息的不断快速增长,出现了信息过载现象。为了有效缓解信息过载问题,研究者提出了个性化推荐的概念并进行了深入的研究和大量的实际应用,取得了很好的经济效益。协
2014年以来,为倒逼新能源汽车生产企业自主创新和技术进步,我国政府对新能源车行业实行补贴退坡制度。补贴退坡为新能源汽车生产者创造了多周期的生产决策环境,也引起了新能
多跳无线网络是一种非常具有潜力的网络,同时它也是一种复杂的系统,目前仍然存在一些问题需要彻底的研究。尤其随着互联网的飞速发展,导致网络的流量不断增长,因此网络能耗也
【目的】胰腺癌是一种常见的消化道恶性肿瘤,其发病率逐年升高,虽然医疗技术不断地进步,但是目前针对胰腺癌的治疗方案很不理想,总体5年生存率仅有5%左右。胰腺癌的发病机制尚未明确是其根本原因之一,在分子水平研究胰腺癌的发病机制及进展机理显得尤为重要。目前的研究表明微小RNA密切参与肿瘤的各种生理病理过程,研究发现miR-141在肿瘤疾病中显示出双重作用,即表达升高发挥抑癌作用和表达降低发挥促癌作用,具
随着中国城市化进程的加快,城市交通系统建设已进入快速发展阶段。随着城市中各种立交、跨线桥梁数量的增多,导致发生车辆撞击桥梁事件的次数也越来越频繁。桥梁作为十分重要的交通设施,运行安全是影响桥梁结构的因素之一,在设计阶段,爆炸、冲击、碰撞等作用通常作为偶然荷载考虑,随着各种交通碰撞事故的频繁发生,不仅会带来一定的经济损失和人员伤亡,更会导致受撞桥梁结构的损毁或坍塌。人们越来越关心桥梁结构在受到爆炸、
随着汽车工业的发展,行驶安全和交通拥堵问题日益得到人们的关注,智能驾驶技术被认为是解决问题的有效方法。本文针对智能车辆队列行驶中智能车的横向与纵向控制,设计了横向
随着高通量生物技术和数据采集技术的发展,产生了大量的生物数据,如基因表达数据、基因互作网等。基因表达数据分析在癌症亚型分类、基因治疗、药物研发等领域有着广泛的应用
近年来,随着互联网技术的快速发展,网络定位技术得到极大的完善,互联网社交中出现了基于位置的社交媒体,基于位置的社交可以获取到用户位置信息和好友的位置信息等,有效的推
测控收发信机是航天测控系统中的关键组成部分,主要实现航天设备与地面基站之间遥控遥测的信息传输、测距测速功能。为了满足测控收发信机低复杂度、数字化及小型化的趋势,本