【摘 要】
:
推特作为全世界最流行的网络社交媒体之一,主要由非结构化的短文本为主,这使得推特成为自然语言处理领域重要的数据来源与研究对象。人们利用推文交流知识、表达观点、抒发情感,研究推文中的情感对内容推荐、产品评价、舆情监管等许多领域都具有着积极的意义。随着推特平台技术的发展,表情符号的使用越来越频繁,传统的纯文本情感分析技术很难感知复杂推文的情感倾向。论文通过对推特场景下的推文文本及表情符号进行研究,探求推
论文部分内容阅读
推特作为全世界最流行的网络社交媒体之一,主要由非结构化的短文本为主,这使得推特成为自然语言处理领域重要的数据来源与研究对象。人们利用推文交流知识、表达观点、抒发情感,研究推文中的情感对内容推荐、产品评价、舆情监管等许多领域都具有着积极的意义。随着推特平台技术的发展,表情符号的使用越来越频繁,传统的纯文本情感分析技术很难感知复杂推文的情感倾向。论文通过对推特场景下的推文文本及表情符号进行研究,探求推文情感分析的细粒度模型,分析表情符号在不同知识粒度上的情感极性,发现表情符号对推文情感的影响程度。论文的主要工作如下:(1)为了在文本情感分析中更好地利用表情符号,本文提出了一个基于BERT-Bi LSTM-Emoji Att的新型文本情感分析模型,利用BERT嵌入取代传统的词嵌入,结合Bi LSTM模型,并使用一个针对表情符号的单词级与分句级的双层注意力机制Emoji Att,在三个推文数据集上取得了超越其他四种基线模型的优异结果,通过分析推理证实了表情符号对推文情感分析的重要性。(2)为了探究影响推文中表情符号情感的因素,本文还选取了77种“人脸”类表情符号和3种推特用户属性,构造了一个由包含这些表情符号的推文以及包含这些属性的推文发送者个人主页信息所构成的ETUP语料库,并提出了一个承接情感分析模型、基于Sent2Emoji与K-Means的细粒度情感聚类模型,在ETUP语料库上证明了所提出的三种属性特征均对推文表情符号情感有不同程度上的影响,且可能存在其他未被发现的影响因子。(3)为了将本文的研究内容与实际应用场景相结合,本文设计并实现了一个基于Web框架的推文情感分析系统,并详细介绍了系统的需求、架构以及核心模块推文获取与推文情感分析,通过模拟用户操作对系统界面进行了展示。
其他文献
随着信息技术持续快速发展,基于网络信息体系的智能化、自动化作业已广泛普及。公安机关科技信息化部门正适应时代变化,将主要警务业务迁移至网上、云端,目前已经应用的网上警务办公方式通常被称为“电子警务”。作为电子警务核心功能之一的旅馆业管理系统,可以大量采集个人身份、活动轨迹、资金流动等重要治安信息,是社会治理大数据的重要来源,对于打击违法犯罪、维护社会稳定具有重要意义。本文通过对“电子警务”和“旅馆管
吡咯并吡咯二酮(diketopyrrolopyrrole,DPP),是一种常见的分子构筑单元,具有强的π-π共轭结构,其平面化结构易于形成氢键,使得π-π电子云的叠加得以促进,从而有利于实现高的电子迁移率;另外,其内酰胺结构使得分子本身具备较强的吸电子能力。DPP因其分子结构具有高度平面化和高的迁移率等特性,而广泛应用于有机光电领域。DPP常作为空穴传输材料(电子受体)应用于有机光伏(Organi
石墨烯的成功制备证明了二维材料在常温下能够保持稳定,引发了人们的广泛关注。由于二维材料具有独特的结构和性能,被认为可以应用到未来电子与光电子领域中。随着现代科学技术研究的不断深入,研究人员发现结合两种二维材料组成的异质结构可以进一步改善单一材料的性能,并且具有独特的光学和电子性能。因此,探索由两种或几种二维材料叠加构成的二维异质结构成为了材料领域研究的热点。本文中使用材料模拟软件Materials
近几年来,数据挖掘、隐私保护、深度学习和机器学习等技术越来越成熟,市场上的企业可以从用户中收集数据,并从中挖掘出具有价值的信息,从中分析出用户的喜好进而开始精准的服务,实现其商业价值。但是与此同时,在收集用户数据的过程中,数据中也包含了大量的个人敏感的隐私信息,这些信息可能会被不法分子加以利用,用来从事网络诈骗或电话诈骗等违法犯罪行为。而差分隐私作为当前隐私保护中有效的保护机制之一,通过向隐私信息
大脑的工作往往需要各个区域之间的相互协作,形成脑网络从而完成复杂的认知任务。脑网络的拓扑结构和节点重要性是脑网络的研究重点。分析脑网络的拓扑结构有助于分析不同状态下脑网络的拓扑变化,而节点重要性有助于疾病的定位和脑功能区域的识别。为了解决传统节点重要性方法的不足,本文提出一种新的计算有权网络节点重要性评价算法,即加权K-阶传播数法。该方法是从疾病传播方式抽象而来,将网络的局部特征和全局特征相结合,
目标检测是计算机视觉领域较为热门的研究方向,是计算机视觉中最基本、最具有挑战性的问题之一,受到广泛关注。而小目标检测又是目标检测方向中的热点和难点。目标检测网络感受野较小,无法获取足够的目标特征,且低层特征缺乏抽象的语义信息,不利于物体的准确定位;在现有模型中,人工设计框体存在密集采样、大小固定的缺点,不利于小物体的回归检测。本文基于SSD模型针对小目标检测问题提出改进算法,主要工作如下:(1)提
随着第五代移动通信技术(The fifth generation mobile networks,5G)技术的普及,地铁车厢作为典型的高密度、高容量的复杂信道传播环境,近年来地铁车厢环境中的毫米波多径传播特性成为国内外学者们的研究热点。地铁车厢是一个狭长封闭、多散射体的环境,其信道环境十分复杂。神经网络算法作为一种高效的机器学习算法,可以更好揭示地铁车厢信道的复杂传播特性,因此本文采用粒子群优化的
互联网带来的海量信息问题,非常容易导致用户迷失在信息中无法找到自己想要的内容。推荐系统正是解决信息过载问题的利器,但是传统的推荐方法往往会面临数据稀疏和冷启动等问题,导致推荐的精度降低。评论中包含了很多丰富且有价值的信息,如何能够更全面地从文本评论中挖掘出物品的特征和用户的兴趣偏好,缓解数据稀疏和冷启动问题,从而实现更加精准的推荐,成为了研究的热点。针对这些问题本文主要的研究内容如下:第一,针对传
窄带物联网技术(NB-IoT)因其覆盖广、容量大、成本低及功耗低等优点,受到越来越多的关注,技术也取得了飞速发展。中国移动积极把握技术演进趋势和万物互联时代特征,明确了“十三五”时期做大连接规模、做优连接服务、做强连接应用的大连接战略,力在推动物联网生态体系的发展与构建。本文根据中国移动2017年部署NB-IoT商用的战略要求,结合临沧移动的网络结构以及现状,对临沧移动NB-IoT网络的组网方案进