基于丰富语言特征的中文社交媒体事件发掘

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:hardy_0205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件发掘就是从海量的、实时的、嘈杂的文本中发掘出有意义的事件,并将其中的事件要素概括抽取出来。事件发掘与其他自然语言处理领域的研究,如信息挖掘、主题检测、事件抽取等有着相似之处。与此同时社交媒体技术的快速发展给事件发掘带来了很好的信息来源。寻找一个有效的事件发掘方法也倍受人们的关注。本文给出了一套完整的事件发掘系统,实现从抓取微博,去除噪音,句子分割(分词,词性标注,命名实体识别,依存句法关系),人工标注,机器学习,事件发掘的完整流程。本文选取目前最流行的中文社交媒体——新浪微博作为文本来源。作为国内主流的社交媒体平台,在新浪微博上每天有数以亿计的微博发布。使用基于概率的条件随机场CRF模型,哈工大的语言云平台作为分词工具,PostgreSQL作为语料存储数据库,Django架构的网站作为人工标注以及事件发掘展示所用,python作为主要开发语言。通过实验,对各语言特征在事件发掘结果上的影响进行归纳分析,选取最优的模型进行事件发掘。结果表明,这套系统能够有效的发掘相关主题的事件,并且能够通过参数进行事件筛选,提高事件要素抽取的准确率。此外,只需为相关主题建立模型,对新抓取的微博进行模型预测,如果非相关主题,则不会发掘出任何事件元素,无需主题分类。
其他文献
随着计算机处理能力的不断增强和网络通信技术的迅速发展,越来越多的计算机连接到了Internet上,因此,如何有效地利用这些互联起来的计算资源,使之共享起来,成为当前网络技术
在高性能计算领域,应用的性能可以伴随着处理器的“摩尔定律”而提升,编程者不需要改写代码便能获得处理器性能提升所带来的“免费午餐”。现如今这一趋势已经由于主频的功耗瓶
计算机网络自上个世纪50年代产生至今,已经历了半个多世纪的发展。如今网络已经成为我们生活中不可或缺的一部分了,Internet、局域网,甚至手机通信的GPRS,都处处反映着网络的
说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文通过分析说话人识别基本原理与系统结构,考察现有的说话人识别技术,研究采用
中文作为人类传播信息的重要语言工具之一,中文信息处理已经成为信息处理领域的热点研究问题。中文自动分词是中文信息处理的重要组成部分,而词典处理效率是影响中文自动分词
无线传感器网络(WSN,Wireless Sensor Network)综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,是计算机科学技术一个新的研究领域,具有十分广阔的应
45°旋转扫描反射镜是目前最成熟、最常用的光机扫描模式,在卫星遥感器上有着广泛的应用前景。但是由于45°旋转扫描反射镜在扫描过程中会产生像旋,直接采用该扫描方式在应用
情感计算是国际上近几年刚刚兴起的、试图使计算机能够像人类那样具有理解和表达情感能力的一个多学科交叉的新研究领域,在智能人机交互中起着重要作用。由于人的面部表情是情
基础云服务(IaaS)以其减少性能开销,提高资源利用率的优点已经成为云平台服务以及云软件服务的重要支撑。虚拟化是实现IaaS的核心技术,然而由于云服务应用需求,托管的虚拟机
随着工业生产的发展,工业生产过程日趋复杂化,工业控制系统的开发成为工业生产中一个非常重要的部分。但传统的工业控制系统存在着软件水平不高、质量不好的问题,因此优秀的