【摘 要】
:
老挝语是一种无间隔的连续字母语言,需要先分词才能进行其他后续自然语言处理研究。本文针对老挝语分词这一问题,基于端到端、半监督和协同训练的思想,构建出机器学习分词模型并对其进行实验。本文主要完成了以下工作:(一)、构建基于神经网络的端到端老挝语分词及分音节模型。老挝语由于其基于字母的特殊性,在分词前需先进行分音节处理才能有更好的分词表现。本文提出一种端到端的方法,改进了已有的先分音节再分词的流水线模
论文部分内容阅读
老挝语是一种无间隔的连续字母语言,需要先分词才能进行其他后续自然语言处理研究。本文针对老挝语分词这一问题,基于端到端、半监督和协同训练的思想,构建出机器学习分词模型并对其进行实验。本文主要完成了以下工作:(一)、构建基于神经网络的端到端老挝语分词及分音节模型。老挝语由于其基于字母的特殊性,在分词前需先进行分音节处理才能有更好的分词表现。本文提出一种端到端的方法,改进了已有的先分音节再分词的流水线模型,并加入音节序列特征,实现了从字母到单词序列的端到端模型,实现了更好的分词效果。(二)、在端到端神经网络模型基础上,构建半监督的老挝语分词机器学习模型。由于老挝语研究存在标记语料较少的困难,因此本文构建基于半监督和协同训练的机器学习模型,将监督学习的神经网络模型与无监督学习的基于概率进行分词的模型相结合,使用小规模标记语料和无标记语料基于分歧进行协同训练,实验表明,该方法达到了较好的性能,较端到端模型有所提升。(三)、对新词发现算法进行研究探索,融入半监督老挝语分词模型,对模型进行改进。老挝语分词模型由于训练语料规模较小,语料局限于某一领域内,难以发现新词,为克服这一困难,基于互信息理论,使用凝固度等参数构造老挝语词典,根据词典对半监督分词模型的软标签生成规则进行调优,使模型获得性能的提升。实验结果表明,本文所述融入新词发现算法的半监督老挝语分词模型分词准确率达到91.3%,召回率达到91.02%,F1值达到91.16%,性能表现良好,较已有研究有所提升。本文还根据实际应用需求,设计实现了老挝语分词软件,实现了老挝语分词/分音节,切分模型训练和语料爬取的功能,方便用户进行相应操作。
其他文献
我国国家公园体制试点建设已经进入实质性阶段。《建立国家公园体制总体方案》指出国家公园是我国自然保护地最重要的类型之一,占据主体地位。该方案同时要求国家公园实行“特许经营管理”。本文深入研究了在我国法律制度体系下,国家公园特许经营活动各阶段行为的法律性质,厘清特许经营有关法律问题,有利于为国家公园立法研究确立理论依据、铺平道路。本文从学理上将国家公园的特许经营活动按照有关行为发生的时间顺序分为三个阶
一氧化氮(nitric oxide,NO)是生物体内的信使分子,具有舒张血管、扩张支气管、抑制血小板凝聚等功能,在生物体多种生理活动中都起着重要的调控作用。吸入NO气体技术是20世纪90年代在临床上应用的一种见效快、无创伤性呼吸急救新技术。吸入NO气体的浓度一般在3~20 ppm,最高不超过80 ppm。吸入低浓度NO气体对肺动脉高压、呼吸衰竭综合征、慢性阻塞性肺疾病以及支气管哮喘等多种心肺疾病具
电气设备的广泛应用,使得电能需求量与日俱增,进而导致电气火灾事故频发。为解决这一问题,一方面需要出台相关的电气火灾预警方法,做到早预防、早准备;另一方面也需要建立起更加稳定、高效的电气火灾监控系统,借助信息化技术来提高电气火灾的监控力度。本文的目的就是建立这样一套电气火灾监控系统,从硬件与软件层面进行系统的全面设计,主要设计内容如下:针对我国目前的电气火灾防护情况,对国内外电气火灾监控的发展现状进
初中阶段是初中生形成个性和自主意识的重要时期,在现实生活中由于传统的授课方式和客观因素,人们往往忽视学生的差异性。在这样的情况下,最终的教学效果就会大打折扣。为了更好的促进教育的发展,我国也在不断的完善并优化教育制度,在新一轮的改革过程中,课程体系变得更加具有人性化,改革之后的主要目标就是希望能够推动学生的全面发展。根据改革提出来的具体要求来看,在教学的之前,首先要对学生的个性特征进行全方位调研,
“创新、协调、绿色、开放、共享”五大新发展理念是我国经济新常态下高质量发展的显要主题,而绿色发展是我国城市摆脱“粗放型”发展路径的必要环节。据了解,我国城市的经济发展存在一定程度的过度依赖资源、危害环境的现象。因此,评价城市发展的绿色经济效率,剖析影响因素之间的内在联系,最后结合预测研究,探讨城市绿色经济发展的策略,对未来城市打造经济增长新优势具有重要的现实意义。基于该出发点,本文以四川省的18个
现代数字信号处理技术所面对的是大规模复杂的实时图像处理、高密度大体量的语音信号处理、雷达信号技术等数据流量频繁交互的工作场景,每个领域均对系统高效率、低延迟的实时性处理能力提出要求,且对于硬件性能提升的需求永不止步;随着芯片设计规模的不断增加,设计难度不断提升,所面临的各种挑战层出不穷,上市时间的期限又相对缩短,在鼓励So C设计的IP核可集成的同时,大规模So C不可避免地对IP复用性、专业性和
目的1.探讨磁共振检查方法对致密型乳腺的乳腺疾病的诊断价值。2.探讨乳腺能谱增强摄影(CESM)对致密型乳腺的乳腺癌的临床诊断效能。材料与方法将2015.10-2017.9间来我院行磁
学生英语的语言技能分为四种,反别是“听、说、读、写”,其中“说”的能力相对滞后,“说”的训练被广大师生所忽视,在全球化背景下,沟通能力显得愈发重要,因此提高学生英语口