【摘 要】
:
句法分析是自然语言处理的一个重要研究任务,其目标是分析自然语言的语法,以便计算机更好的理解自然语言语义。随着构建大规模的数据,迅速发展了深度学习等技术,英汉文等句法分析取得了惊人的成果,并在机器翻译、知识库构建、信息抽取和信息检索等自然语言处理中取得了广泛的应用。藏文句法分析处于起步阶段,缺乏必要的大规模标注数据,无法使用监督学习的方法进行研究,该文使用无监督学习的方法对藏文句法分析进行了初步的研
论文部分内容阅读
句法分析是自然语言处理的一个重要研究任务,其目标是分析自然语言的语法,以便计算机更好的理解自然语言语义。随着构建大规模的数据,迅速发展了深度学习等技术,英汉文等句法分析取得了惊人的成果,并在机器翻译、知识库构建、信息抽取和信息检索等自然语言处理中取得了广泛的应用。藏文句法分析处于起步阶段,缺乏必要的大规模标注数据,无法使用监督学习的方法进行研究,该文使用无监督学习的方法对藏文句法分析进行了初步的研究。该文借鉴英、汉等语言的无监督句法分析理论和技术,融合藏文虚词语法功能和组块句法分析的特征,从无监督藏文句法分析的评测集构建、无监督藏文二分句法分析方法和基于组块的无监督藏文句法分析等三个方面开展了研究工作。(1)无监督藏文句法分析的评测集构建面向无监督藏文句法分析的任务,探讨无监督句法分析的树形结构,根据藏文分词标准规范和藏语短语分类与标注规范,构建了二分结构的藏文句法分析评测集,规模为1000句二分结构的无标注树库和1200句组块分割完成的树库,为无监督藏文句法分析方法的评测和藏文预训练语言模型的评测奠定了基础。(2)无监督藏文二分句法分析无监督句法分析是海量无标注数据中学习出自然语言的语法,针对藏文句法分析缺乏标注数据,通过借鉴英、汉文等的成熟的无监督句法分析理论和技术,根据藏文自身的二分语法结构特征和二分聚类算法的简易性,提出了一种融合虚词语法功能的无监督藏文二分句法分析方法,经过藏文预训练语言模型CINO和TUni LM上实验,该方法在藏文预训练语言模型TUni LM上得到了较好的效果,短语边界识别F1值达到了71.68,整句正确率达到了47.87%。(3)基于组块分割的无监督藏文句法分析组块句法分析把完全句法分析分为多个子任务,是一个逐步求精的句法分析方法,为了提高无监督藏文句法分析效果,通过探讨藏文组块句法分析的理论,结合无监督藏文句法分析的技术,提出了基于组块分割的无监督藏文句法分析方法,经过组块分割后的评测集上进行实验,提出的方法在不同句子长度和不同领域的评测集上取得了显著效果,整句正确率达到了82.76%,和纯无监督藏文句法分析效果相比,句法分析效果提高了34.89个百分点,证实了提出方法的有效性。
其他文献
利用计算机辅助诊断技术对医学图像进行分析处理,能够为疾病的诊断和治疗提供有力的凭据。医学图像分割是实现医学图像处理的关键步骤。传统的医学图像分割依赖于手动提取特征,这使得分割任务繁重且复杂。近年来,随着深度学习的发展,人们能够利用全卷积神经网络出色的特征学习能力和端到端的处理模式进行医学图像分割。本文以乳腺X线图像的肿块分割和眼底图像的视网膜血管分割作为研究内容,具体细节如下:1.乳腺肿块分割常用
当前,互联网数据转发采用的是以目的IP地址进行逐跳转发的传输机制,传输的数据报文经“发送源端生成数据—中间节点转发数据—目的终端接收数据”的整个转发全过程存在着严重的数据源验证的安全缺陷。在数据转发时单靠目的IP进行转发,而没有对转发数据报文的源IP地址进行验证,有可能造成伪造源地址的数据报文代替原始数据报进行“合法”通信,一旦目的终端接收了伪造报文就能以欺骗手段来获取目的终端的信任,进而黑客就可
随着人工智能、大数据等新兴产业的迅速发展,网络科学的研究越发深入并显得十分重要,比如复杂网络相似性指标被大量用于链路预测、推荐技术和数据挖掘等领域。近年来,基于超图结构的超网络因其更符合现实网络结构的特点,越来越被人们重视并在超网络结构上做了大量研究。本文系统的研究和分析了超网络上的相似性指标,从超边相似性和节点相似性两个方面提出了四类相似性指标,在三类典型超网络模型上对相似性指标的预测精准度进行
拉姆齐理论是组合数学的一个重要组成部分,它在理论计算机科学、信息论、决策学以及金融经济学等一些领域应用较为广泛.拉姆齐数是将拉姆齐理论的存在性定理进行了量化,求解图的拉姆齐数的精确值以及改进它的近似界是研究拉姆齐理论中较为活跃的分支.同时图的拉姆齐数研究在计算几何、逻辑分析、并行计算、复杂结构以及解决其他NP困难问题上也扮演着重要角色.解决拉姆齐数问题的关键是通过寻找有效的研究工具计算出精确值.C
中药资源作为国家战略性资源,关乎我国中药产业和中医药事业的发展,而民族医药资源是中药资源的重要组成部分。部分中药资源的根、花、茎、果等部位通常含有相同种类的化学成分和药效,由于缺乏科学的认识,常弃掉其非传统药用部位;此外,对合理利用开发药用植物资源的认识不足,加之利益驱使过度采挖、拓荒和放牧等因素,造成药用植物资源严重浪费。秦艽Gentianae Macrophyllae Radix作为“十八青药
三江源作为中国最大的自然保护区,其丰富的生态资源琳琅满目,又被誉为中华水塔,对中国的生态状况及国民经济发展起着重要作用,在西部大开发生态环境的治理保护担负着重要的责任。本文将针对三江源生态保护区特有的动植物图片进行图像识别与分类,设计一种基于残差学习网络的方法对图像进行识别,通过迁移学习,在预训练模型的基础上进行训练,从而得到最终模型。本文将从数据的采集工作即数据集的建立开始,到图像识别分类的一般
语言与文字是最善于发掘人类智慧的知识,是古老文明的典藏,也是当今自然语言处理和知识图谱的核心资源,而自然语言处理和知识图谱是人工智能得以实现的关键,是人工智能皇冠上的明珠。突破自然语言处理和知识图谱,会大幅推动人工智能在学术界和工业界等很多领域的广泛关注与应用。近年来,在大数据和深度学习的支撑下,自然语言处理和知识图谱技术迅猛发展,而人类迫切需要从这些浩如烟海的数据中快速准确地获取自己想要的信息或
光催化技术被认为是一种能够解决环境污染和能源短缺问题的理想技术。Bi2O3作为一种半导体光催化剂,由于其具有合适的能带结构和优异的化学稳定性,成为目前被广泛研究的可见光光催化剂。然而,Bi2O3光催化剂中较高的光生电荷复合和有限的光吸收范围严重影响着其在光催化领域的应用。因此,本论文以Bi2O3为研究对象,通过不同的策略对其进行改性研究,旨在提高其光催化降解和还原效率。本研究不仅为Bi2O3满足不
情感是计算机所不具备的一种主观意识,是自然语言处理研究领域中重要的一步。文本情感分析(Text Sentiment analysis)是对带有情感色彩的评论性文本进行情感倾向判断,需要考虑情绪感受而不是简单的逻辑计算。对自然语言处理领域而言,具有情感分析能力是质的飞跃。随着互联网的发展,在线语料的潜在价值得到各界科研人员的广泛关注,推动了评论性文本情感分析研究领域的发展。目前文本情感分析方法仍存在
语音识别技术是以语音为研究对象,通过语音信号处理和模式识别技术让计算机自动识别和理解人类的语音,并将语音转换为相应文本序列的技术,在语音输入、语音助手、智能家居、无人驾驶、机器人语音指令交互等工程中具有重要应用价值。随着深度学习技术的发展,基于神经网络的语音识别技术逐渐成为国内外研究热点。藏语语音识别技术由于受语料库、自然语言处理技术以及多方言等限制,发展比较缓慢,但其需求非常迫切。为了促进藏语语