多文档集合话题情感挖掘研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gwwpw8775
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究多文档集合话题情感挖掘。本文使用能自动确定组件个数的层次Dirichlet过程将文档集合表示为多个组件的混合,每个组件包含话题词和情感成分,扩展了话题情感混合模型。模型能够从多文档集合上挖掘出一组话题。话题在各文档集上有各自的比例和对应的情感比例,并为每个文档集找到一个正面和一个负面词汇分布。模型通过马尔科夫链蒙特卡洛方法实现,实验表明模型可以找出有意义的话题和它们的情感倾向。模型在参数设置方面比现有的多侧面或联合情感模型有优势,在多领域情感数据集上的实验确认了模型有进行情感分析的能力。通过对中文事件微博和新闻语料的迭代过程实验,分析了衡量多文档集话题混合相似程度的参数,发现了一些微博媒体和新闻媒体的区别。新闻媒体上事件事实具体,微博则有更多的讨论,例如占领华尔街事件中新闻具体报道示威活动并表达了负面情绪,同时微博用户讨论不少和中国相关的话题使得正负情感变得偏向混合;新闻更多地报道本国工作,例如在马航MH370失联事件中对我方工作的报道。
其他文献
近几年随着无线通信技术、传感器技术、信息采集和处理技术的飞速发展,出现了低成本、低功耗、多功能的微型无线传感器节点。无线传感器网络是随着传感器节点的发展而兴起的
多年来,很多有理想互相关特性的周期为2 n ?1(n为非负整数)的二元序列族被提出,包括:Gold序列族;针对奇数n与Gold序列族具有相同互相关函数分布的类Gold序列;针对偶数n Udaya
近年来,由一组相互独立的系统组合而成的复杂系统,亦即“系统的系统”(System of Systems, SoS)逐渐引起了研究人员的重视。由于SoS的地理上的分散性、系统之间的复杂的交互
计算机网络在提供开放和共享资源的同时,也不可避免的存在着安全风险。了解网络系统现有以及潜在的风险所在,评估这些风险可能带来的安全威胁与影响程度,是实施安全建设必须
多标记分类研究一个对象同时与多个标记相关的问题。与传统的单标记分类相比,多标记分类更普遍,在许多领域,例如多主题文本分类、图像与视频标注等方面都具有实际的应用意义
随着计算机技术突飞猛进的发展,越来越多的企业对企业信息系统要求越来越高。软件开发者不断地研究比较优越的系统。框架成为一个系统的坚实砥柱,所以选择优秀的框架是研发者一
粗糙集理论是近年来发展起来的一种处理不确定、不精确、不完整数据的新的数学工具[1]。粗糙集理论自波兰科学家Pawlak于1982年提出以来,已经被成功的应用于机器学习、数据挖
随着计算机网络的快速发展,分布式应用系统的性能和可用性面临巨大的挑战。对于分布式应用系统,一般都存在用户数目多和并发访问量大而造成系统负载严重的问题,使得系统的可
随着互联网的快速发展与普及,网络多媒体数据(包括:文档、图片、视频等)正在呈现爆炸式的增长,这给那些需要进行相似性搜索的应用带来了巨大的挑战,最典型的就是基于内容的图
非一致访问分布共享存储技术(NUMA)是服务器架构的一种常见方式,它一定程度上解决了并行内存访问的瓶颈,对服务器性能的提升起到了十分重要的作用。但同时也带来了NUMA的经典