论文部分内容阅读
随着信息技术的发展,互联网已经渗透到人们生活中的各个角落,成为人们生活中不可缺少的一部分。互联网的飞速发展带来了各种各样数量巨大的信息,这些信息正以爆炸式的速度增长.如何有效地获取、保存和利用这些信息是现在大数据时代的重要课题。在互联网海量信息中,用户在各种社交网络平台中发布的信息增长尤为迅速,这些社交网络中的信息文本较短、用户语言较为随意、文本语法性较差,我们将其统称为“短文本气具有代表性的短文本有微博、商品评论、BBS论坛发言等。短文本的出现给传统的Web信息抽取工作带来了许多机遇和挑战。由于社交网络中的短文本信息最大、信息维度广,使得一些在短文本中的信息抽取任务非常有价值,这些任务包括事件检测和事件分析、情感分析、知识图谱挖掘等。然而短文本的文本特性给在短文本中的信息抽取工作带来了困难和挑战,如何有效地在短文本中进行信息抽取也成为了一个研究热点。本文针对短文本信息抽取中的几个关键问题,即微博事件抽取、微博事件语义元素抽取和商品评论情感分析展开研究。微博事件抽取旨在从微博数据中抽取出用户所需要的事件。微博平台庞大的用户群体带来了数据量巨大的微博文本,这些微博文本中包含着许许多多事件信息,这使得微博在对事件的报道上比传统新闻媒体更具优势。如何有效地从微博中抽取出相关事件也成为了一项有意义的研究工作。对于抽取出的微博事件,如何为这些事件寻找一种完整且直观的表达方式也是一个重要的课题。本文使用新闻学中事件的语义元素5W1 H(When, Where, Who, What, Whom和How)对抽取出的微博事件进行表达。事件的5W1 H语义元素对于完整地描述一个微博事件非常有帮助,如何在语言较为随意的微博文本中抽取事件的语义元素也是一项有价值的工作。商品评论情感分析旨在于抽取用户在商品评论中表现出的情感倾向性。在电子商务发展迅猛的今天,网上购物已经成为许多人购物时的首选。通过对用户商品评论的情感倾向性进行有效挖掘,不仅能够方便用户做出购买决策,还能使商家更好地完善商品,提升销量。本文针对以上几个短文本信息抽取中的研究问题提出了一系列解决方法,本文的主要贡献可以总结为如下几点:1.对于微博事件抽取问题,由于命名实体信息是一个事件的重要组成部分.对于不同类型的事件,事件文本中不同类型的命名实体分布也不相同,因此将命名实体信息加入到事件抽取的过程中,可以提升抽取的效果。本文将事件的类型定义为事件中不同类型命名实体的概率分布。通过提出一种基于机器学习的方法,自动抽取事件微博文本中的事件类型。通过文本聚类的方法抽取微博事件,在聚类的过程中,通过加入抽取出的事件类型信息,提升了聚类的效果。2.针对已有的对微博事件的表达方式不能完整地描述一个事件的问题,本文使用事件语义元素5W1H对事件进行表达。由于微博的文本特点,传统在Web网页上抽取事件语义元素的方法在微博文本中效果较差,因此本文提出了新的方法对徽博事件语义元素进行抽取。对于When和Where元素,本文提出了一种基于粒度的自粗向细的抽取方法,该方法考虑了不同粒度上的时间/地理信息,通过粒度上自粗向细的逐层抽取方法提升了抽取效果。对于Who、What和Whom元素,本文提出了一种词语聚类和链接的方法。该方法通过将不同句子成分中的词语进行聚类使得对同一实体的不同表达被聚类在相同的词语簇中,再利用不同句子成分中词语的共现关系将词语簇进行链接,得到事件语义元素。这种方法较为有效地解决了事件微博簇中对于同一实体存在不同表达方式的问题,因此提升了事件语义元素的抽取效果。3.对于商品评论情感分析问题.由于在一条评论文本中用户对于商品的不同维度可能存在不同的情感倾向性,传统基于句子、篇章等的情感分析方法并不适用。为此本文提出了一个多维度商品评论情感分析的方法框架,旨在于抽取用户对不同商品维度的情感倾向性。在该方法中,对于一个初始的商品评论长句,本文提出使用基于卷积神经网络的方法对句子进行切分。经过切分后的每个短句中只包含用户对最多一个商品维度的评价。对于每个短句.本文使用文本和维度关键词之间的相关性将其与一个商品维度建立映射关系,并最后在该商品维度下进行情感分类。针对情感分析中相同的情感词在不同的商品维度下表现出的情感极性可能不同的问题,本文使用半自动的方法为每个商品维度构建了维度情感词典,通过使用维度情感词典,情感分析的效果得到了提升。本文的研究较好地缓解了短文本用户语言较为随意、语法不规范等问题对传统信息抽取工作带来的影响。论文提出了微博事件类型抽取算法、基于事件类型的微博事件抽取方法、微博事件5W1H语义元素抽取算法、多维度商品评论情感分析方法等一系列新的设计,并在真实数据集上验证了所有算法的有效性,为今后信息抽取技术在短文本上的应用提供了参考。