基于聚类的事件蕴涵抽取方法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:asfdasdfasd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本蕴涵的概念起源于逻辑学,同时是语言学,特别是语义研究中的重要课题。近几年,随着人工智能研究的进步,特别是计算机领域中自然语言处理领域的进步,使得文本蕴涵成为计算机科学中研究的热门问题。掌握发现蕴涵的机制,将可促进多方面自然语言处理任务的发展,如信息抽取、信息检索、文档摘要、问答系统、文景转换等。因此,研究在文本中发现蕴涵的方法,在当前自然语言处理中具有重要意义。事件蕴涵是文本蕴涵的一部分,专注于动词。以往的事件蕴涵抽取方法不仅准确率一般,而且方法的时间复杂度高。本文使用聚类方法首先将数据分类,降低了总体的时间开销。同时放弃了传统的,基于统计的类KL距离度量或互信息度量,而采用基于资源的语义相似度度量为动词对评分,不仅进一步降低了时间开销,还取得了较好的准确率。本文不仅描述了新的基于聚类的事件蕴涵抽取方法,也给出了可用的中、英文事件蕴涵关系库范例。通过对生成的中、英文关系库的随机抽样打分,发现生成的关系库不仅涵盖了大部分常见的蕴涵关系,更包含一些人工构建的库没有的蕴涵关系,并且准确率达到常规自动抽取库的水平。最后,本文还给出了一个蕴涵关系查询系统,可供用户查询目标动词,其后台数据库基于本文方法的实验结果。查询系统区分一般用户与注册用户,一般用户仅可查询,而注册用户可对库进行一定权限的评价,包括删除错误结果和修正不恰当的用法示例。这一查询系统使生成库的可用性大为提高。通过注册用户长期地对生成库进行评价与修正,生成库最终将达到很高的准确率。
其他文献
随着计算机技术的不断发展,各种应用需求的不断提高,目前应用服务系统及其所依存的网络环境变的越来越复杂。在应用需求提高的同时,用户对应用服务提供的稳定性要求也日益提
无线传感器网络(WSN),是一种分布式的,使用无线通信方式传递数据的网络,包含大量低性能、低成本的传感器节点,具有一个或多个中心,并且网络中传感器节点可以通过一些算法进行
近些年来,我们亲眼目睹了互联网大数据的发展的迅猛势头,信息时代所产生的数据呈现爆炸式增长。在面对错综复杂的海量数据,如何给用户推荐他们理想的物品是目前学者们研究的
心脏是人体最重要的功能器官之一。近年来心脏疾病已成为人类健康的重要威胁。心肌纤维的收缩力与舒张力和心脏的泵血功能有着密切的联系。心肌纤维结构的改变会导致心律失常
网络的快速发展,使得人们对软件应用的处理效果和性能要求越来越高。P2P下载技术被广泛应用到各类流行下载软件中。作为P2P技术中重要技术之一的DHT技术,其改进和优化越来越
近年来,音频处理技术的飞速发展和因特网的迅速普及使得数字音频作品的获取、编辑和发布变得十分容易。音频作品的知识产权保护已成为一个急待解决的问题。数字音频水印技术
随着IT技术的迅猛发展,市场分工精细化、服务专业化促使传统服务业悄然发生变革。面对互联网中越来越多的服务资源提供方和不断增长的需求客户群体,哈尔滨工业大学企业与服务
人脸检测与跟踪技术是人脸识别,视频检索,虚拟游戏和图形控制的一项关键技术,对进一步推动人脸识别技术的发展具有重要的意义,已成为计算机视觉研究的一个热点。本文利用图像
计算机技术、通信技术和传感器技术的发展,极大的推动了无线传感器网络的快速发展。成本低、部署方便、感知能力强、自组织等特性,使得无线传感器网络在军事、环境、医疗科学
相似检索有着广泛的应用,特别是在知识产权保护和信息检索领域。而本文着重介绍了相似检索在抄袭检测这一领域的应用。   学生作业抄袭检测的应用场景下,相似检索系统须具备