基于连贯性的中英文连接词研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:c1074527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章的连贯性通常是由篇章内部结构和上下文表述的语义关系所决定的。篇章是指一系列连续子句、句子或句群构成的语言单位;篇章关系是指在同一篇章中,不同篇章单位之间的语义逻辑关系(如并列、因果关系等)。篇章连接词通常用来显式地表达篇章单位间承接的语义关系,根据篇章单位之间是否存在显式篇章连接词(如“因为”、“但是”等),可将篇章关系分为显式关系和隐式关系。本文主要针对中英文语料中显式篇章关系展开研究,主要工作包括:(1)分别构建中英文连接词分析平台,包括连接词识别和语义关系分类。使用最大熵模型和条件随机场模型在中文篇章树库(Chinese Discourse Treebank,CDTB)和英文篇章树库(Penn Discourse Treebank,PDTB)上分别构建连接词分析平台。连接词识别在中文上的性能F1值最高为66.79%,英文上F1值最高为95.72%;在语义关系分类中,分别在完全正确的连接词和自动识别出来的连接词上进行实验,自动识别出来的连接词的基础上中文最顶层的四大类语义分类的总体性能为57.58%,英文最顶层的四大类语义分类总体性能达到了90.14%。(2)本文参考CDTB标注体系标注了双语平行语料中的英文部分。借助机器翻译中的句子、词对齐工具,结合少量人工标注,构建了双语平行篇章语料。主要标注了连接词、关系类型(显式/隐式)、语义关系等内容,并在标注的双语平行篇章语料上对中英文显式、隐式篇章关系的分布、转换,以及关系类型进行了对比研究。(3)为了进一步提升中文连接词分析的性能,本文基于双语平行篇章语料,对中文连接词进行进一步的分析。主要思想是利用中文连接词在英文语料中的对齐信息,构建基于双语协作的连接词分析平台。实验结果显示,该方法使得连接词识别性能上升了1.7%。
其他文献
图像认证技术是确保图像信息真实性的有效手段,它通过主动或者被动的方法,对数字图像的真伪进行识别。传统的主动认证方法,如数字签名或水印,需要预先在图像中嵌入签名或水印,会使
中国移动的市场经过近几年的发展,已具备相当的规模,也蕴藏着巨大的增长潜力;同时,移动行业也面临着前所未有的机遇与挑战,移动公司必然要通过强化内部管理,强化科技进步和技
随着信息的爆炸性增长,中小型企业也需要有存储容量可扩展而价格成本相对低廉的存储解决方案来保证业务系统的正常运行,避免自然灾害和人为灾难给企业造成重大损失。本文结合中
Skyline查询是近年来数据库和数据挖掘领域的一个研究热点。给定两个d维的数据点p和g,如果点p在所有维上的取值都不比点q差,并且在至少一个维上取值比g好,则称点p支配点g。一个
电子投票以各种密码技术为理论基础,运用现代计算机和网络技术来实现投票功能。保密计票值的电子评审是一种用途广泛的特殊电子投票,该方案要求输出评审结果,即秘密地比较票数是
人脸检测与识别技术是生物特征鉴别技术中研究最多和最热门的技术之一,它已经在身份认证、安全检查、罪犯查询、人机交互等广泛领域得到了初步应用。在人脸检测研究中,构建快
随着科学技术的发展,生产规模越来越大,市场竞争越来越激烈,企业对项目管理的要求也越来越高,而有效地计划和控制工序(活动)、资源、时间三个变量是确保项目成功的关键,从而
人脸识别以其独特的优势成为当前模式识别和机器学习等领域的一个重要研究课题。高维数的非结构化数据大量出现为计算和分析带来了巨大的挑战,人脸图像作为高维数据范畴的一
医学图像三维重建是目前的一个研究热点问题,它在医疗诊断、手术规划及放射治疗规划、整形与假肢外科、虚拟手术及解剖教育中都有重要应用。由于医学图像三维重建涉及的面非
入侵检测系统已经成为互联网上最重要的防止信息系统遭非法攻击的手段之一。目前入侵检测系统发展迅速,但常规的入侵检测系统大多数都采用单一体系结构,且在系统结构和检测技