论文部分内容阅读
随着互联网和通讯产业的快速发展,微博成为了又一个跨时代产品。微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文字更新信息,并实现即时分享。由于微博发展迅猛,微博文本已经形成了大规模积累,针对微博文本的研究已经成为了一个十分重要的课题。本文主要针对在判定中文微博是否具有主观性的过程中所需的关键技术进行研究。论文的主要内容归纳如下:基于线索树双层聚类的微博话题检测方法本文针对微博文本短、半结构、上下文信息丰富等特点,提出了基于线索树双层聚类的话题检测方法,利用融合了时序特征和作者信息的话题模型进行线索树内的局部聚类,借以实现垃圾微博的过滤,最后利用整合后的线索树进行全局话题检测,该方法有效缓解了微博文本中的数据稀疏问题。基于跨实体推演的事件抽取方法本文将实体类型一致性作为事件抽取过程中的一个重要特征,针对实体类型和事件类型之间的关系,通过实体类型推演出事件类型,然后选取特征对事件的其他要素进行判定。该方法比较传统的句子级事件抽取系统取得了更好的效果。基于文法特征的中文能愿词挖掘方法本文采用基于二元、三元、四元文法的方法,对微博中的中文能愿词进行抽取,并以该微博所抽取出的事件中是否含有能愿词作为微博主观性判定的依据。该方法主要基于规则和文法特征,分为两个阶段,其中第二部分是在第一部分的基础上,对能愿词进行循环迭代挖掘。