基于汉藏平行语料的藏文词义自动消歧方法研究

被引量 : 0次 | 上传用户:crosslightning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是词语语义分析的重要内容,也是整个自然语言处理研究中的一个值得关注的问题,对机器翻译、信息检索、舆情监测等各项高层应用提供有力的支持。藏文自然语言处理应用需求的不断提高,要求作为基础关键技术的词义消歧技术必需得到充分发展,但受限于藏文信息处理研究现状,藏文词语消歧研究依然处于起步阶段。词义消歧研究方法可以分为统计方法和规则方法两类。基于统计的方法包括有监督和无监督两类方法,有监督方法需要具有一定规模的带词义标注的语料库支持,无监督方法需要大规模语料库作为支撑材料。根据当前藏文信息处理进展,带词义标注的语料库和无标注语料库的获取都非常困难。基于语义知识库的方法从基于规则方法衍生而来,在英语中已逐渐开始用机器学习方法获取知识,是词义消歧研究最具活力的研究方向之一,且在英语和汉语等语言的词义消歧研究中被证明有效。鉴于以上原因,本文提出将语义知识库HowNet与藏汉平行语料库结合,利用HowNet提供的语义知识和藏汉平行语料库提供的藏汉对译信息,为藏汉平行语料库藏语句子中歧义词汇选择合适汉语义项的方法,以此初步构建带有词义标注信息的藏汉平行语料库。本文主要做了如下工作:1)改进词语相似度计算方法:在传统使用义原语义距离计算相似度方法基础上,将最低公共父节点高度与义原层次高度差融入计算方法中。同时提出一种建立在HowNet语义角色上的辅助性相关度计算方法。2)结合藏汉平行语料库与HowNet研究藏文词义消歧方法:该方法的主要步骤是:在对语料进行分词和词性标注等预处理后,通过藏汉词典为藏文语料中词汇收集汉语义项,确定歧义词汇;通过计算藏文语料对应汉语译文中上下文词汇与义项的相似度和相关度选择合适词义。在经过词法分析预处理的藏汉对照句子上实验可得到55.04%的平均词语级准确率,在选择的语料上实验获得50.4%的平均句级准确率。3)结合基于语义知识的网络图方法研究藏文词义消歧方法:针对前一种方法中存在的上下文环境与义项之间数据稀疏问题,提出利用HowNet提供的丰富语义信息为义项构建语义关系图,通过计算上下文环境与语义关系图中关系项的相关度得到义项选择参数,根据义项选择参数选择当前歧义词汇的合适义项。经过实验,该方法的平均句级消歧准确率比使用上下文环境与义项计算相似度与相关度消歧方法提升3.7%,词汇级平均消歧准确率提升3.12%。
其他文献
<正>难愈性创面的愈合是临床上的棘手问题,2010-08我科出现1例直肠癌术后腹部切口脂肪液化形成的难愈性创面[1],经传统清创再次缝合、每天频繁更换敷料和传统换药后均未愈合;
目的:探索中医解毒法协同化疗在结肠癌辅助治疗阶段的优化治疗模式,并初步探讨作用机制。方法:①皮下接种CT26细胞于120只BALB/c小鼠建立移植瘤模型,分为6组:提前干预组、延
以《中华人民共和国药典》《中华共和国卫生部中药成方制剂》《新药转正标准》及中药资源库中含贝母类中成药制剂为依据,对收载制剂处方中贝母的质量控制状况进行统计分析。
面料方向的选择对服装成形后悬垂性的外观效果影响很大,而裙摆类服装造型设计最佳的悬垂方向是面料的斜向。在面料经向的0°到90°甚至180°区域之间,还可以细分成正斜、反斜
链路冗余备份是网络中采用的一种在物理层保护链路的方式,指当正在工作的物理链路发生性能劣化到一定程度或者是出现链路中断时,系统将主用工作链路上的信号自动转至备用工作
<正> 治疗方法 黄芪20g,党参、当归、酒白芍各15g,漏芦10g,通草9g,王不留行8g,丝瓜络12g,甘草6g。猪 蹄汤煎服,日1剂,分早晚2次服。加减:乳房胀硬,触之有块加穿山甲、路路通;
气动机械手是一个由机械、气动、电气、PLC和触摸屏等元件构成的复杂的机电一体化工业装备,机械动作复杂且具有严格的先后逻辑关系。该文基于PLC和触摸屏设计的气动机械手控
本文主要论述了采用形态学算子在处理有噪声图像的边缘检测的方法。通过与采用经典的边缘检测算子——Sobel、Prewitt、Canny算子的检测图像相比较,本文给出了相关的图像处理
医学伦理学是否能成为一门独立的学科,在理论上仍然是个备受置疑、有待澄明的问题。医学伦理本身要自足完善,必须确立起自己的本体论、学术范式和原则。高尚精神是医学伦理学
大肠癌是全球最常见恶性肿瘤之一,其发病率呈逐年上升趋势。中医药在大肠癌治疗中发挥了积极的作用,中医药对大肠癌的治疗研究已经涉及肿瘤发生、发展、死亡、衰老等领域;研