基于PLSA的大数据文本情感分析及其应用

被引量 : 3次 | 上传用户:he110521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0的发展,越来越多的用户在互联网上发布内容,其中也包括了有关用户所关注产品或服务的评价及博客,用户在这些评论及博客中表述了自己对产品或服务的看法及观点,分析挖掘这些评论或博客中用户的情感信息有着潜在的商业价值,一方面用户就可以通过参考这些带有主观情感色彩的评论内容,了解和对比自己所感兴趣的产品或服务,进而做出相应的购买决策;另一方面,商家也可以通过这些评论信息,即时做出调整,以改善产品质量或服务。这些影响可以通过产品的销售预测情况来观察到。从商品大量评论中挖掘意见和情感有很大的挑战性,一是并不能用传统的文本挖掘算法简单地把评论定性为正向或负向,因为人们在评论中用自然语言表达意见或情感时,方式很复杂很委婉,常常具有多面性,如极性、取向、程度等,因此如果仅仅把一个评论简单的认为正负,会漏掉很多情感信息,为了能更准确地挖掘情感信息,论文使用PLSA模型,将评论博客看成有多个情感潜在类组成;另一个挑战是数据规模的庞大,由于对大规模数据训练时,概率潜在语义分析有非常高的时间复杂度和空间复杂度,研究者们一直在不断地尝试,用并行的方式训练模型,虽然能部分解决时间复杂度问题,但内存仍需加载大量的数据,本论文结合mapreduce编程框架,改进传统最大期望EM算法,在集群上并行地对概率潜在语义分析模型进行训练,每台机器只需加载部分数据,同时解决了时间复杂度和空间复杂度,实验结果显示了此方法能有效应对数据扩展性的挑战。评论或博客的情感分析对商业的价值可以通过产品的销售预测情况来观察到。论文使用有关电影的博客数据集,用PLSA挖掘其中的情感信息,之后用电影票房历史数据建立自回归模型,并结合PLSA训练出的情感信息,提出基于情感分析的自回归模型ARBS,对电影票房进行预测,在此基础上进一步考虑评论博客的质量和数量对模型改进,建立模型ARBS-i,通过实验对比,比未使用情感信息的自回归模型预测的平均绝对误差率MAPE分别低6.7%和8.5%,证明了论文所提方法的有效性和优越性,为商业使用用户情感信息提供了一种解决方案。
其他文献
网络语言暴力会对政府的威信、公众合法权益、实体社会秩序以及网络空间产生特别大的影响。网络语言暴力的出现不仅仅是因为网民整体年轻化、利益关系复杂化、道德意识缺乏等
在很多单脉冲跟踪雷达中,要求同时具有最大作用距离、高的距离分辨率和高测角精度,而且需要雷达工作在较宽的频带内。宽频带信号在雷达接收或发射通道间传输时,容易造成各频
温室种植技术在世界范围内得到了广泛的应用。一些国家在实现温室自动化的基础上,正朝着温室完全自动化、无人化的方向发展。文中介绍了国内外在温室设备自动化研究中对生态
装配车间(Assembly job shop)问题是一类具有工序次序约束、装配次序约束以及资源能力约束等多种约束的组合优化问题。而且制造型企业机械加工车间的设备往往存在日可用时间
文章从数据的收集与处理、因果关系分析、模型的建立与参数估计、模型的检验和预测等方面论述了回归预测中应注意的问题.
超细Al粉表面改性具有提高粉体分散性、抑制粉体氧化、改善粉体表面性能等优点,受到工程实践和科学研究的广泛关注。从有机、无机两类改性物质入手,介绍了国内外超细Al粉表面
论述了汽车聚丙烯塑料保险杠的喷涂工艺 ,分析了喷涂过程中漆膜疵病出现的主要原因 ,提出了其防治方法。
综述了热喷涂技术近十年内的迅速发展,特别是先进的高速燃气火焰喷涂技术(HVOF),计算机控制、机器人操作的等离子喷涂技术,智能型电弧喷涂技术以及用热喷涂技术制造的新型金属基复合材
中华民族传统美德内涵丰富、博大精深,随着历史的不断演进和变化得以传承与发展,并为我国古代封建社会的繁荣提供了有力的思想道德支撑。中华传统美德作为中华民族的灵魂,民
酒店业务业务繁多、琐碎,管理起来需要消耗大量人工,同时也花费较多的管理费用,给企业带来成本上的压力。当前,随着信息化的发展,利用管理系统在各行各业进行管理应用越来越