微博文本情感分类与观点挖掘研究及实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:linco87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今互联网时代,人们常常在社交网络上针对事与物表达个人观点看法。运用数据挖掘方法和文本情感分析技术对涌现的用户文本数据进行分析,可以发掘普通大众对热点话题以及产品的态度与评价,从而及时发现网络舆情和获取商品售后评价反馈,因此面向文本的情感分析研究有着较好的现实意义及商业价值。中文微博自身语言表达简练,多变且情感词典缺乏,是当前情感分析的主要难题。针对此问题,本文分别从情感词典扩充,微博情感分类以及微博文本观点挖掘三个方面进行研究,本文的研究主要内容及贡献如下:1)提出双词向量与相似次数最大思想相结合的扩展情感词典的方法,本文称之为2E-SM(2 Embedding and Similarity Maximum),其原理是在已有情感词典的基础上,利用Glove与Word2Vec计算相似度获取候选词集合,这种结合可以同时捕获全局与局部相似,接着计算候选词与哪一类情感出现相似次数最多来确定候选词的情感倾向信息,实验表明,与经典的SO-PMI算法相比效果较好。2)基于CNN与LSTM深度神经网络,提出词向量融合的微博情感分类模型。对于CNN,考虑全局与局部语义信息,以Word2Vec与Glove为双通道,构建双词向量卷积网络(2 Embedding CNNs)2E-CNN;接着在2E-CNN基础上,词向量拼接浅层词性特征向量(Simple Feature)后构建双融合词向量卷积网络(2 Embedding mixed with Simple Feature CNNs),本文称之为2ESF-CNN,此模型在准确率上提升了约1.8%,优势在于训练时间少。对于双向LSTM,词向量同样拼接浅层词性特征向量与注意力机制结合后构建模型ESF-BLSTM-ATT,此模型在准确率上较基准模型提升了约1.6%,优势在于仅需一个融合后的词向量。3)句法依存关系与扩充的情感词典相结合的方法进行观点挖掘,为了保证方法的泛化性,本文采用制定的语法规则与扩充的情感词典相结合的方法进行评价方面与评价词联合抽取的工作。首先利用依存关系提取出若干语法规则,然后结合情感词典,以情感词与评价方面为中心,进行评价方面与评价词的联合抽取,最后进行模糊归纳匹配形成更加鲜明观点。
其他文献
当今,全国各大城市正在大力发展城市公共交通事业,公交专家系统成为提高公交系统信息化、现代化的重要措施。公交专家系统在公交调度、线网优化方面都应该发挥其重要作用。蚁
人脸识别的理论与技术是近二十年来最为热门的研究领域之一。尽管人脸检测和识别方法取得了巨大发展,但是可变光照对人脸识别的影响,无论在理论、方法还是应用上,仍是一个亟待解
信息社会中手机及其它无线设备越来越多地走进普通老百姓的工作和生活中。现阶段的手机平台上的输入方法主要分为人工编码键盘输入法和手写识别输入法,无论哪种方法对于汉字
分形的概念是1975年由IBM公司的曼德尔布罗特(B.B.Mandelbrot)定义并开始发展的,分形理论作为从复杂的现象本身直接研究到其内在所具有的规律,它可描述自然界复杂的现象。如
无线局域网(WLAN)是目前无线网络技术的研究热点之一。由于支持用户高效率、高质量、低成本的移动接入,因此得到了非常广泛的应用,但同时开放的无线传输带来了比有线网络更多
随着世界经济一体化进程的加快、大型跨国企业的进入使民族产业所面临的局势更加严峻。如何应对挑战,各级政府部门和许多市场意识敏锐的企业已经将物流作为提高市场竞争力以
XML正迅速取代HTML成为Web上信息表示、集成和交换的标准。与HTML相比,XML具有简单、自我描述的特点,并且实现了内容、结构和表现三者的分离,更适合于Internet上数据表示和交
随着网络技术和测试技术的发展,协议测试技术越来越受到人们的重视。协议测试是用来保证协议实现的正确性和有效性的重要手段。作为协议测试的一种形式,协议一致性测试用于测
本文是对本公司年产260kt电解铝生产项目所配套的整流所AC220kV高压供配电及DC350kA整流机组综合自动化技术的进一步研究和思考。首先对AC220kV/DC350kA高压供配电及整流机组
随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎