中文事件可信度信息标注和抽取方法的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:liongliong498
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件的可信度表示文本中事件的事实性状态,对理解篇章中事件的确切语义起着至关重要的作用。目前,只有英文方面有事件可信度信息研究和少量确定性信息语料库,中文方面暂时还未起步。因此,对中文事件可信度的研究有着重要意义和作用。本文主要研究中文事件可信度相关信息的表示、标注及其抽取方法,具体的研究内容包括以下三个方面。第一,本文针对中文语言的特点,从词汇和句子结构两个方面研究句子级别的中文事件可信度影响因素,提出了五类中文事件可信度相关信息及其标注规则;并基于ACE2005中文事件语料库标注了事件可信度信息。第二,本文提出了中文事件可信度的三维表示体系,该体系将中文事件的可信度分解成(极性、级别、时态)组成的三元组;同时提出了基于(极性、级别、时态)三元组作为中间桥梁的转换方法,该方法将原始的五类中文事件可信度相关信息转换成三元组,再把该三元组转换成事件可信度。实验证明,该三维可信度表示体系可以提高事件可信度分析的性能。第三,本文以中文事件选择谓词为例,提出了利用有效句法特征的有监督可信度信息抽取方法和基于双视图的半监督可信度信息标注方法。前者借鉴英文中不确定信息的抽取方法,利用词袋特征和句法特征来抽取中文事件选择谓词;后者基于少量标注样本,利用分类器视图和模式视图协同对未标注样本进行标注。实验证明,这两种方法均取得了较好的效果。本文针对中文事件可信度进行了相关的研究和探索,标注的语料库和抽取方法的研究对今后中文事件可信度的研究具有重要的参考价值。
其他文献
无线传感器节点随机散布,由电池供电,能量有限是其最主要的特点,数据的发送,接收以及处理都需要消耗能量,而发送数据消耗的能量最多,为节省能量,需为节点寻找一条消耗能量最少的传输
TAL效应物(Transcription activator-like effectors)是黄单胞菌属植物病原菌分泌的一种特殊的三型效应物,在病原菌与寄主相互作用过程中起着重要的作用。TAL效应物的靶标直
随着信息化产业的高速发展以及国家对教育投入程度和规模的扩大,信息技术的不断发展,高校管理信息化程度越来越高,从高校走出的人才对社会新时期的发展发挥着越来越重要的作用。
随着无线传感器网络的应用发展,各类数据查询被不断移植到两层传感器网络中来,对安全性能要求也越来越高。对于简单数据查询,如范围查询,安全研究较多也较充分,但仍存在能耗
随着网格技术发展,KOS网络知识系统,人的认知行为以及信息检索等理论的支持下,心理学中的人的认知行为的概念被广泛的应用在检索网页的设计中,并成为检索网页设计的一大进步
据中国人民银行发布的统计数据,截止到2012年11月我国境内银行借记卡的累积发行量突破30亿,且同比发行增速仍然在加快。显示了银行票据业务进入无纸化、网络化之后,借记卡作
网络技术的高速发展,使得远程教育越来越受到人们的关注。这种基于网络的教育模式将教师和学生分离开来,无法进行面对面的交流与解释,学习者必须进行自主学习。网上答疑系统
随着互联网科技的飞速发展,互联网产品在世界范围内得到了极大的普及。人们的使用伴随着大量历史记录的产生。如何有效利用用户的历史记录,挖掘用户的偏好成为一个大的课题。
众所周知,密码技术和安全协议是保证通信安全的关键所在。但是随着计算机和通信技术的迅猛发展,各种密码破解方法和协议攻击算法不断出现,传统的密码技术和安全协议已不能满足日
聚类是一种重要的数据挖掘技术,它可以在不了解数据背景的情况下完成数据的划分,使得同一个划分中的数据相似度尽可能大,不同划分中数据的相似度尽可能小,以方便数据的分析与