【摘 要】
:
文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利
论文部分内容阅读
文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TC_LSTM(Tibetan Characters LSTM,TC_LSTM)语言模型的藏文词拼写检查方法。主要内容包括:(1)建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。(2)构建TC_LSTM语言模型藏文是字的序列,字与字之间有明确的分割标记,但词与词之间没有显示分割标记,藏文文本分词还存在诸多问题,因此提出了以字为输入单位的TC_LSTM语言模型,并实验验证了其有效性。实验表明TC_LSTM语言模型在测试集上的困惑度比传统的Bigram和Trigram语言模型分别降低了74和18,其效果比Bigram和Trigram语言模型得到了显著的提升。(3)设计藏文词拼写检查算法提出了基于TC_LSTM语言模型的藏文词拼写检查方法,设计了基于TC_LSTM语言模型的藏文词拼写检查算法,并实验验证了算法的有效性。实验表明,基于TC_LSTM的词拼写检查最高准确率、召回率和F值分别达到了97.20%、85.89%和79.09%,最高准确率、召回率和F值比Bigram分别提高了11.87%、3.46%和1.85%,基于TC_LSTM语言模型的藏文词拼写检查方法的性能优于Bigram语言模型。
其他文献
目的探讨新生儿缺氧缺血性脑病CT分度与临床表现间的关系.方法:对该病患儿69例进行回顾性总结.结果69例患儿以中、重度为主,重度患儿易出现肾脏、心脏损害、Apgar评分10分也不能排除脑部损害.结论新生儿缺氧缺血性脑病的诊断应以临床为主,评价新生儿缺氧缺血性脑损害不应仅凭Apgar评分来判断,应结合窒息和缺氧缺血持续时间等综合分析,在治疗中,应注意钠、氯、钙离子的补给.
从教学实例出发,提出什么是以学生为主、为什么要以学生为主和怎样以学生为主3个问题,并从教育学和哲学角度给出简要回答,提出利于以学生为主和培养学生创造力的若干措施。
近年来,伴随中国政府职能的转变,由政府包揽社会服务的传统供给模式已经无法适应当前社会发展的需求,社会服务需要新的供给思路。枢纽型社工机构的出现为促进社会事务的解决
分析基于WEB的远程控制系统的市场前景,首先要看到推动其发展的主要包括Internet的迅速发展和信息家电的出现两个因素,因此分析都将围绕这两方面入手。家电行业是嵌入式应用的
价值管理(Value Based Management,简称VBM)的关键在于发掘驱动价值提升的各个要素.本文在多种企业的价值评估模型中探索价值驱动要素,发现其中的共性与个性,并在归纳总结的
本文在阐述公共政策“澄清困境”的对社会的重大影响的基础上分析了公共政策“澄清困境”背后的原因并提出避免公政策陷入“澄清困境”的有关对策建议。
鲁政字[2020]161号济南市人民政府:你市《关于评定李志高同志为革命烈士的请示》(济政呈[2020]26号)收悉。经审核,1941年2月,受党组织指派,李志高在执行对汉奸中队长王蜃楼的
由于互联网时代视频技术的不断发展,人们对于视频质量的需求也越来越高,进而促使现代影视行业的水准必须不断提升,视频制作的技术与使用的软件也越来越成熟和多样化。如何将
随着社会经济的不断发展,我国大多数农民都纷纷选择畜牧业,畜禽饲养数量每年都以10%左右的速度持续上升,从事养殖业的人们明显增加。但由于我国广大居民对动物疫病的了解不够
医院信息化建设程度是反映医院经济实力、规模大小和医疗水平高低的重要指标之一,医院资产设备存在形态决定着医院服务规模和发展潜力。医院“空间管理”是一个新的管理领域,同时也是对原有医院信息化管理工作中一个综合管理业务的抽炼和提升。课题研究以设施管理(Facility Management,FM)为理论基础,应用系统工程原理,借助信息技术手段,采用B/S体系结构和模块化的设计方式,使系统具有良好的可扩展