基于Word2vec和依存分析的事件识别研究

来源 :软件 | 被引量 : 0次 | 上传用户:quzg2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  引言
  事件提出到现在一直受到学术界的关注,從而引起国家的重视。2009年,中国重点支持的科研项目之一是突发性灾难事件的研究。中国是大国,交通事故发生频繁;中国希望通过相关研究可以预防灾难和减少事故的发生。事故处理部门主要关心事故发生时间、地点、人员伤亡以及哪个路段、哪个时间容易发生事故,从而采取措施来最大限度的减少伤亡。对于事件的研究不仅具有理论研究价值,还具有实际的应用前景。
  事件抽取已有部分研究,并已取得较好的研究成果。国内外对事件抽取研究大致分为两类:基于规则的方法和机器学习方法。基于规则的方法是事先制定一个字典,然后用待选词与字典进行匹配。国内外基于规则方法的相关研究如下:Alan D采用二元分类器和多元分类器方法来进行事件抽取研究,并且在ACE英文语料库进行了实验,取得较好的结果;对于中文事件的抽取研究,吴平博等人采用预先定义的模版来制定规则,从处理的文本中抽取事件信息来填充句型模板中的槽。张毅采用面向规约挖掘的事件相关性分析研究事件。熊宗炬和熊志斌针对特定领域突发事件的研究,并给出了原型系统。李超等人针对音频事件的研究。上述事件抽取都限定特定领域,缺乏普遍性。
  结合上述国内外事件抽取发现,基于规则方法在一定范围内效果相当不错,但是它依赖具体环境,可移植性差,对于一些没有统计到字典的词,识别不出来。而且字典的制定费时费力,需要领域专家的指导。由于这些突出问题导致对事件抽取研究都转向了机器学习,机器学习方法可以解决当前这些面临的问题。国内外运用机器学习的相关研究例如:该方法采用以文档相关性的研究方法和跨越不同事件的推理演绎方法;杨尔弘根据中文特点,采用语句聚类的方法获得事件的信息结构(事件模板),并以此为标准进行抽取事件;赵妍妍等人结合Ahn等人的工作对机器学习需要的特征进行了改进;付剑锋等人采用依存分析进行深入的挖掘词与词间的句法关联性。但是机器学习方法需要大量的语料和众多的特征作为支持,现如今语料资源的缺乏和特征的选取也影响了机器学习的提高。而且这两种抽取方法均没有考虑词语问词性特征以及词语之间的依赖性和事件句之间的关联。
  针对以上情况,本文提出了一种新的事件抽取方法充分考虑核心词和其他词语的特征、句间关系和词语间的依存性。采用本文提出的这种方法实验发现,在事件识别和事件要素提取均有明显提高。
  1事件识别
  事件这一概念被提出,且有较多含义,百度百科上定义为产生重大影响,并且对社会和人类产生深刻影响。事件,反映着自然界中的运动以及产生和变化的行为,是人类进行探索和发掘知识的基本单位。在自然语言处理和信息检索领域,检索的主题被称作事件。美国国防高级研究计划委员会上认为事件是比话题小的概念。事件是话题的子集,多个事件共同组成一个话题。事件表示为在“特定时间特定地点发生”。大会上指出话题的识别和跟踪包括五大步奏,其中最重要的就是事件识别。国际上定时召开的ACE评测会议极大促进了事件抽取的向前发展,大会认为事件通常是一种状态转向另一种状态,并把“事件”定义为含有参与者,时间,地点等特征的集合。综合以上不同领域对事件的研究发现,尽管事件这一概念在不同领域内定义不同。但是,事件的定义都包括行为(一般由动词、名词或动名词来描述)、事件的参与者、事件发生的地点和时间等要素。下面给出了事件的正式定义。
  定义1事件(Event):特定时间特定地点发生、由参与者参与、表现出若干动作。
  例如:
  (1)2016年8月14日,在市中心,一辆公交车与多辆小轿车发生追尾,小轿车司机当场死亡,公交车司机受重伤。
  定义2事件触发词(Event Denoter):文本中清晰的表示发生事情的词语,即事件的动作要素。文献表明事件触发词一般为动词,名词,动名词。
  例如:
  (2)北京时间2016年8月16日,澳大利亚发生了5.7级地震。
  在事件识别和事件抽取两大任务中,关键任务还是事件识别,事件的识别在两大任务中起到决定性作用。例如:张三患上了高血压,瘫痪在床。
  (1)小李在工作期间由于大意摔成瘫痪。
  (2)强大的暴雪致使公路瘫痪。
  (3)黑客攻击网络导致12306瘫痪。
  上面三个例子,触发词都是瘫痪,但是只有句子1才符合要求,才是真正事件。因此,对于事件识别,不能孤立考虑句子,要结合依存分析把触发词以及距离触发词相近的词以及这些词的词性、位置信息、句子间的关联性、依存关系等作为事件识别的特征。
  2 word2vec和依存关系
  2.1word2vec
  计算机只认识0和1。因此,进行自然语言处理,首先要将现实世界存在的文本或文档转化为计算机认识的语言。最直观的方法就是向量模型表示方法。也就是用0和1表示表示文本或文档,在某一位置存在的用1表示,其余用0。采用该方法可以把对文本的处理转化为向量空间上的运算。Word2vec是2013年谷歌推出的一款高效的将文本语言转化为向量的工具。Word2vec在自然语言处理中可以用于很多用途,例如同义词、聚类等。
  本文主要借助word2vec进行扩展同义词,该工具具有训练速度快,可以在较短时间内训练出大量数据。实验前,需要对数据进行预处理等操作,然后在采用word2vec工具把数据转化为向量。采用word2vec进行数据处理的流程图如下图1所示:
  在本文实验中,为了更好的进行数据训练,需要不断调整训练中参数变化。例如训练中具体的算法和相应的模型以及训练窗口的大小等因素。本文中采用的参数如下图2所示:
  经过训练后得到词向量模型,然后就可以调用word2vec提供的方法进行相似度计算,得到同义词。本文的同义词扩展是根据ACE定义的8大类33小类事件出发,根据初始定义的种子触发词采用该方法进行扩展。最后,分别使用计算每个种子词相似度较高的词语,再对每个种子词的相似度得分列表进行加权平均,从而得到最终的相似度列表。采用word2vec进行挖掘查找同义词,对于查找和种子触发词的同义词可以进行加权,而对于只与其中某个种子词相关,与其他种子词相似度较低的词将得到相似度得分的打压和降权。   2.2依存关系
  依存关系是进行句法分析的重要方法。采用依存分析发现句子中中心词和其余词语的关系,并且转化为语义依存来描述。当前领域内的主流方法是基于短语的句法分析。首次提出基于依存结构句法分析概念是在1984年,由Hudson在提出。依存分析概念提出后,就受到学者们一致好评和广泛的推广。依存关系主要包括两个部分:一个是核心词、另一个是依赖词。依存关系的基本原理是充分挖掘句子中词与词间的关系,转化为描述自然语言的语法结构。词语间有联系和相互支配,反映出词语间的不对等现象,这种相互间具有方向性的关系就被称为“依存关系”。依存关系中,定义箭头发出的是支配者,箭头指向的就是从属者。例如:2013年6月7日,习近平和奥巴马在美国加州安纳伯格庄园会谈,依存分析表示如下图3所示:
  “2013年6月7日,习近平和奥巴马在美国加州安纳伯格庄园会谈。”上述事件句中,Root是全句核心节点。HED代表的是核心词,核心词是“会谈”;“会谈”也是本事件句的触发词。依存关系表示中,COO表示并列关系,LAD表示左附加关系,SBV表示主谓关系,ATT表示定中关系。词语间的依存关系是用带箭头的有向弧表示。在图中,箭头的发起端代表的词是依存词,箭头的指向端代表的詞是核心词。在“2013年6月7日,习近平和奥巴马在美国加州安纳伯格庄园会谈”事件句中,美国、加州、安纳伯格、庄园都是表示地点的事件要素。经过分析可知,只有庄园是真正的地点要素。首先采用word2vec转为向量,然后采用依存分析词语之间关系。依存分析表示地点词是按照核心词和依赖词顺序排列,真正的地点要素是后面的依赖词。本例中美国是加州的核心词、安纳伯格是庄园的核心词、加州是庄园的核心词。本文根据依存关系只要出现地点词最终地点要素均是依赖词。依存分析是依赖于分词之上的,因此分词的效率直接影响依存分析的结果。因此本文采用的分词工具是中科院的ICTCLAS,依存分析采用的是斯坦福大学Stanford。
  3实验
  3.1事件识别
  本实验先对数据进行预处理等操作,然后在此基础上运用word2vec工具进行词向量处理和依存分析相结合进行事件识别。实验所用语料是来自网络上搜集关于事件的报道,采用SVM和最大熵作为分类器。实验用的训练语料是80124篇、测试语料为812篇。采用准确率(P)、召回率(R)、F值作为评价指标。实验进行事件识别选用的特征有词、词和词法、词和句间关系。事件识别对比实验如下图4所示。
  (1)以词(Word)为特征;
  (2)以词和词法(Word+POS)作为特征;
  (3)以词和句间联系(Word+ContacO作为特征;
  (4)上述全部特征(AU Features)作为特征
  从图4对比实验可知,选择句间关系和依存关系这些特征来识别事件效果要好于单独用词作为特征识别事件。事件识别中,特征选择越多,事件识别的效果越好。
  4结束语
  本文提出了一种结合word2vec和依存分析的事件识别和事件要素抽取方法。实验结果表明,该方法在事件识别中可以提高事件识别的准确率和召回率以及F值。但是对于事件要素对象上,存在一些问题。例如人称代词没有具体指出指代上下文的哪一个对象。因此,下一步是考虑如何解决事件要素中出现的人称指示代词。
其他文献
摘 要: 在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。  关键词: 词义消歧;自然语言处理;词向量;神经
期刊
摘 要: 针对传统边缘检测方法难以实现边缘信息的准确检测问题,提出了一种零件缺陷边缘检测的新方法.首先对采集到的零件缺陷图像进行灰度化和Wiener滤波,以减少噪声等因素对后期检测的影响;然后,以kalman算法预估图像分割阈值作为Krisch算法的初始阈值;在此基础上,进行零件缺陷边缘检测,以提高零件缺陷检测的准确性. 最后,利用MATLAB软件对零件缺陷图像进行仿真试验,验证边缘检测算法的检测
期刊
摘 要: 随着科学技术的快速发展以及数据挖掘技术的不断改进,各个学校的教学管理系统中都已存储了大量的数据信息,本文主要对目前教师在教学评价中的现状进行了研究,并以教学评价的体系为数据挖掘的基础平台,利用数据挖掘技术对教师教学相关的数据进行挖掘和分析。重点对数据挖掘技术在教师教学评价中的应用进行研究,从而可促进学校教学的质量,对教师教学评价有重大的意义。  关键词: 教师;教学评价;数据挖掘  【A
期刊
摘 要: 为了实现消化道图像中出血病灶的自动识别,本文提出了一种基于卷积神经网络的图像识别系统。该识别系统使用python以及TensorFlow进行卷积神经网络的搭建,并通过对比不同网络结构的识别准确度,选择合适的网络参数和训练参数,最后利用网络的识别结果,通过区域回归方法标记图像中的病灶区域。最终的实验结果表明:该图像识别系统的对于消化道出血图像的识别准确度可达92.30%,并能够在图像中标记
期刊
摘 要: 目前,核电专业系统(核岛系统、常规岛系统、辅助系统)培训多以传统教科书和在线培训系统为主,其知识呈现多是以文字信息和简单的图像、视频信息相结合的方式。这种培训方式知识过于密集和抽象,培训效果一般,并且视频课件维护难度大。为提高核电专业系统培训效果及降低交互式动态课件开发难度,以核电厂实际培训教材为依据设计课件层次和逻辑结构,采用组态软件制作交互式动态课件,开发一套交互式,逻辑动态演示的核
期刊
摘 要: 随着信息高科技的快速发展,互联网技术将人类的文化传播带进了一个崭新的时代,即人们所称为的网络时代.我们几乎每天都要与网络打交道,它已经成为日常生活中不可或缺的一部分,网络已经很大程度上改变了人们的生活。人们对信息的需求不断增加,加大了人们的信息消费,而今互联网已成为我们生活中不可缺少的东西,互联网也正在潜移默化地影响着我们的生活方式、学习方式、交往方式。本文围绕我国各省市的互联网的使用状
期刊
摘 要: 提升学习者的学习投入度,是当前在线教育方式需要解决的重要问题。文章以Web of Science数据库收录的311篇相关文献为研究样本,借助CiteSpace、SATI等统计工具,对在线学习投入近10年的研究现状进行了宏观分析。研究发现,在线学习投入正在成为在线教育领域的一个研究热点;《REVIEW OF EDUCATIONAL RESEARCH》等7本期刊是发表在线学习投入度研究成果的
期刊
摘 要: 本文运用2016年我国31个省市自治区的农林牧渔业,工业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,金融业,房地产业,其它等方面统计的各产值的样本数据,采用聚类分析、主成分分析和因子分析的方法,通过SPSS软件输出结果进行分析,对我国31个省市自治区进行分类排名,进而可以了解到我国各个省市自治区现阶段的经济发展状况,并可以根据相关结果对于不同地区的发展提供理论指导。  
期刊
摘 要: 随着计算机辅助教学,多媒体处理以及计算机网络技术的发展与成熟,目前已经有许多考试都采用无纸化考试,即机考的形式进行。采取电子化考试的优点在于考试可监控性强,考试效率高,考试标准化和程序化。并且对于选择题判断题这样的客观题自动化批改技术已经十分成熟,极大的缩减了改卷时间,提高了改卷效率。但是,由于受到自然语言理解的限制,至今没有比较完善的主观题自动批改系统对主观题进行批改和评分。本文采用T
期刊
引言  物流配送的重点在于配和送两个方面,配即是主体客户,送即是货物运输。配送中心分配不合理,配送率低,配送路径选择不合理等等,都会导致物流成本大幅度增加。物流配送问题可以抽象为多旅行商问题,常用一些启发式算法来逼近或求最佳结果,常用的算法有遗传算法,粒子群算法,蚁群算法,禁忌搜索算法和模拟退火算法等。遗传算法计算量较大,问题越复杂,计算时间越长,稳定性也较差。粒子群算法的网络权重编码和遗传算子的
期刊