藏文陈述句复述生成研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:qq969023319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是相同语义的不同表达方式,在自然语言中非常普遍,它反映了人类语言的灵活性、多样性和复杂性。复述研究主要包含三个内容:一是复述抽取,即从原文中抽取关键词,重新组合这些字或词并使语义与原句相同;二是复述识别,即从语料中找出语义相同的句子或段落等不同的语言单元。三是复述生成,给定一个输入,输出一个相同语义的文本。复述方式包括短语到短语、句子到句子等等长复述,也有从词到短语、从短语到句子的不等长度的复述。本文主要研究的是藏文陈述句复述生成。首先对藏文句子进行分类并抽取陈述句,然后对句子进行语义分析,在此基础上构建藏文复述句语料库,最后通过机器学习自动生成藏文复述句。本文包括如下5个主要问题和解决方法:1.基于循环卷积神经网络的藏文句类分类方法研究藏文句类分类是藏文语言学和自然语言处理领域中尚未关注的一个研究点,鲜见于有关文献。本文的研究对象为藏文陈述句复述自动生成,其存在的主要问题是藏文句子的句类自动分类问题。问题的难点是其他语言的传统句类的分类方法不适用于藏文的句子分类,因为藏文没有特殊的标点符号来识别不同的句子种类。本文在充分分析藏文不同句类特征信息的基础上,提出了以藏文句子语境信息和特征功能为识别和分类依据,采用循环卷积神经网络对藏文句子进行识别和分类。实验结果表明:对藏文句类识别和分类的平均准确率达85.61%、召回率达86.54%、F值达85.59%。2.基于空洞卷积网络的藏文句子语义分割方法研究当前藏文句义的研究内容和方法停留在句法分析上,因此,对藏文句义理解的研究还没有一个具体的研究方法,且在藏文句义理解的研究方面与其他语言相比存在着很大的差距。研究藏文复述生成,首先要解决的问题是在理解原文句义后才能生成藏文陈述句复述。其问题的主要难点是在其他语言句子语义分割中通常以词为分割单元,然而,如果对藏文进行以词为单元的分割时,由于颗粒度过细,会产生或造成很多词汇歧义和语义序列解码的不稳定性问题。本文在分析藏语语言特性和语言编码组合规律的基础上,提出了一种新的语义单元分割方法。该语义单元长度介于词义之上句义之下,使语法、语义、语境融为一体。然后采用空洞卷积神经网络对藏文句子进行语义分割。实验结果表明:空洞卷积网络模型对语义分割的准确率达到了92.39%。3.基于藏文语序和语义词典的复述句语料构建方法研究机器学习中,数据资源的规模与质量直接影响学习结果。本文在研究过程中需要较大规模的藏文数据资源用于生成藏文陈述句复述研究。然而,解决此问题的难点在于,目前国内外还没有一个公开、大规模、高质量的藏文数据资源用于机器学习,更没有复述句的数据集。为解决藏语复述句的数据资源匮乏问题,本文提出了利用藏文语序变换和藏文语义词典等方法来构建藏语复述语料资源。实验结果表明人工评测后基于语序变换的藏文复述生成准确率为97.31%;且基于藏文语义词典的复述生成准确率为93.33%。4.基于注意力机制的藏文复述句生成研究近年来,随着复述研究成果应用到机器翻译、自动问答、信息检索、信息抽取、文本生成及阅读理解等相关研究,这使越来越多的研究者和研究机构开始关注并重视复述研究工作。然而,目前还没有找到利用注意力机制对藏文陈述句复述句生成进行研究的相关文献。本文试图将注意力机制应用到藏文陈述句复述自动生成研究中,以扩充现有藏文复述句的数据资源。本文在以上已构建的复述数据资源的基础上,提出了基于注意力机制的藏文复述句自动生成方法。实验结果表明:藏文复述句生成结果的BLEU值为40.38%。5.基于注意力机制的藏文新词释义自动生成研究随着人类社会的进步和科学技术的发展,新的术语和词汇不断涌现。目前的藏文新词术语的释义已无法满足人们的需求,因此,为解决这一问题,本文尝试利用机器学习方法对藏文新词术语进行自动释义。本文提出了一种基于注意力机制的藏文新词术语释义自动生成方法。实验结果表明,词典原文释义生成准确率为87.17%,新词释义生成准确率为80.32%。本文利用各种方法构建了较大规模的藏文复述句的数据资源,并尝试利用这些数据资源对藏文复述的自动生成进行基于机器学习方法的研究。本研究取得了较好的初步成果,希望这些成果能对藏文自然语言理解研究提供借鉴。
其他文献
<正>目的介绍显微内镜手术治疗极外侧型腰椎间盘突出症的方法,分析临床效果,提出初步的评价和经验。方法 16例极外侧型腰椎间盘突出症患者(椎间孔内型7 例、椎间孔外型9例)接
会议
近年来我市鬼谷子品牌知名度、美誉度和影响力在不断上升,鬼谷子文化旅游也得到了较快发展,鹤壁已成为全国鬼谷子文化研究和产业发展的重要基地。但目前鬼谷子文化品牌建设中还
报纸
我国的消费率偏低有许多原因,笔者认为最根本的原因是我国的消费环境(包括自然环境和社会文化环境)亟待改善。只有改善消费环境特别是社会文化环境,降低人们的消费风险,消除消费恐
报纸
一、受害症状$$ 蒜蛆以幼虫蛀食大蒜鳞茎,使鳞茎腐烂,地上部叶片枯黄、萎蔫,甚至死亡。拔出受害株可发现蛆蛹,被害蒜皮呈黄褐色腐烂,蒜头被幼虫钻蛀成孔洞,残缺不全,蒜瓣裸露、炸
报纸
数学“奥赛”的教育价值无可置疑,但现实中的一些具体做法却与数学“奥赛”的精神相悖,由此带来一系列的负面效应。对数学“奥赛”的理性反思表明:应对数学“奥赛”有清醒的
定额管理是造价管理的基础,定额管理工作的持续发展对实现水利跨越式发展起积极作用。本文针对水利发展新形势和经济全球化及目前我国水利定额管理现状,结合日本等发达国家管
目的探讨不同剂量的利湿活血方对酵母膏合腺嘌呤诱导的高尿酸血症大鼠尿酸生成、肾脏抗氧化能力的影响。方法将70只雄性SD大鼠随机分成空白组、模型组、四妙丸组、苯溴马隆组
系着一条红色领带,身穿一套浅灰色西服,印建安看上去神采奕奕。此次北京之行,印建安收获颇多。3月25日上午,有关部门领导给陕鼓集团颁发了“2005年度国家级企业管理创新成果
政府的不作为和乱作为,无疑走理性缺失的结果。政府理性的缺失极易导致政府存在的合法性合理性认同危机。并成为构建社会主义和谐社会的一大障碍。要构建社会主义和谐社会必须
采用胸肌注射法对7日龄蛋雏鸡人工感染耐药菌株发病,分7组进行药物治疗试验,分别为抑制剂高剂量组、抑制剂中剂量组、抑制剂低剂量组、西药对照组(环丙沙星)、中药对照组(中药复方