基于词向量模型的小规模语料文本倾向性分析方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:liongliong587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,以微博为代表的各大社交网络平台逐渐成为了人们社会生活中不可或缺的一部分,用户在社交网络中进行交流、发表言论的交互式过程中会产生海量的文本信息,存在着巨大的数据挖掘价值。文本倾向性分析主要是以文本为研究对象,着重挖掘文本中蕴含的情感倾向(包括观点、态度、情绪等),目前已经成为自然语言处理领域中的一个重要的研究方向。尽管以往的研究已取得了一定的成果,但是仍然存在着诸多问题:如词向量的表示能力有限,无法解决词的多义性问题,另外学习到的词向量也很难符合特定任务的需求;缺少特定领域的情感词典,以及构建词典过程中新情感词的识别较为困难;针对小规模语料的文本倾向性分析的研究还不是很丰富等。针对上述问题,本文的主要工作分为以下三部分:1.针对词向量的表示能力有限的问题,本文从文本的特征表示出发,对经典的Glo Ve模型进行改进,使用位置嵌入度量词与其上下文之间的关联,进行共现矩阵的构建,同时还将情感先验特征与语义特征相融合,引入到矩阵建模的过程中。另外,由于数据集不平衡可能会导致情感先验存在误差,针对二分类文本倾向性分析任务本文通过引入调节参数对其进行校正。经实验结果表明,改进后的模型极大地提升了学习到的词向量的表示能力,能够符合特定任务的需求。2.针对缺少特定领域的情感词典,以及构建词典过程中新情感词的识别较为困难等问题,在本文提出了多层级可动态更新的领域情感词典构建方法。首先借助通用情感词典完成部分情感词的极性标定,并将其作为训练预料,然后基于神经网络设计了情感极性分类器,同时定义了词典的动态更新规则以确保词典的时效性。经实验结果表明,本文设计的情感极性分类器的准确性远超于直接使用词向量相似度的方法,且构建的领域情感词典适用于文本倾向性分析任务。3.针对深度学习模型在小规模语料上效果不佳的问题,本文对BERT模型的微调训练过程和特征抽取方式进行了优化,提出了动态学习率和提前终止策略、缩减模型transformer block层数、基于池化的句子编码、以及阈值微调等策略。经实验结果表明,改进后的模型获得了更快的收敛速率,解决了泛化能力差的问题,可有效应用于小规模语料文本倾向性分析任务。
其他文献
语音信号在传输过程中会不可避免地被噪声和混响等干扰因素污染,在到达接收端后将严重降低语音信号的听觉感知质量和可理解程度,不利于高效的交互交流。为了解决上述问题,语音增强技术应运而生,该技术是声源分离技术的一种特殊情况,旨在净化、恢复被各种环境干扰所破坏的语音信号,在智能家居、即时通讯以及远程会议等领域都有着十分广泛的应用。本文主要研究基于神经网络的语音增强算法,通过深入分析近年来本领域的相关研究成
钙钛矿由于其优良的光电性能和灵活的生产工艺,在科学界得到了极大的关注,具有广泛的应用前景。但是由于三维钙钛矿的载流子扩散长度过长,激子结合能太小,不利于其在发光上的应用。通过减小三维钙钛矿的晶粒尺寸或制备低维钙钛矿可以增加其激子结合能,从而增加辐射复合几率提高材料的发光性能。本论文从两方面来提高CsPbBr3的发光性能,并将其应用于钙钛矿发光二极管(Perovskite light emittin
作为一种治理电压跌落问题的有效方案,动态电压调节器(Dynamic Voltage Regulator,DVR)在配电网中有着广泛的应用场景,其中系统的动态响应时间和供电可靠性会直接影响到负荷用电质量,是最重要的性能指标之一。本文从网压跌落检测、并离网无缝切换,离网控制策略等方面展开研究,改善了DVR动态性能;从并联扩容方面进行分析,增强了系统供电可靠性。主要研究内容如下:(1)本文采用了一种基于
学位
天地一体化网络已经成为未来网络的发展趋势。然而,不同于地面互联网,卫星网络存在拓扑动态变化、星上处理能力受限等特点,传统分布式路由协议表现不佳。近年来,随着标识网络、软件定义网络(SDN,Software Defined Networking)等新型网络技术的兴起,如何对卫星网络进行集中式路由受到学术界与产业界的高度关注。但是,当前研究方案大多集中于控制平面的路由算法,忽略了数据平面转发端(交换机
学位
这项研究是通过研究内陆集装箱运输方式选择的行为方面,采用既定选择实验技术,研究内陆集装箱运输的模式转移潜力。这项研究应用于从坦桑尼亚共和国达累斯萨拉姆海港到赞比亚中部城镇卡皮里姆波西的北部重要补给走廊。该货物供应走廊由坦桑尼亚赞比亚铁路线提供服务,该铁路线平行于大北路而建。在这项研究中,既定选择实验包括联运铁路和公路运输作为两种选择,因为它们是上述运输走廊中仅有的两种内陆运输方式。两种运输方式由五
学位
随着区块链技术的迅速发展,其去中心化、多方协作、防篡改、可溯源等特点越来越显示出优势,诸多行业和领域引入区块链技术进行产业创新和升级。在不同的应用场景中,所采用的区块链底层技术会有所差异,涉及到共识机制、数据存储、加密算法等诸多方面,由此造成了区块链之间的隔离性,相互独立而无法互通,使区块链成为一个个“价值孤岛”。为了解决此类问题,能够实现区块链之间的可信交互、数据共享的跨链技术成为一个新的研究热
在医院检查中有痰液的常规检查,通过对痰液的病理检查可以快速地对呼吸系统疾病做出初步诊断。其中,医学上明确痰色可分为八种,不同痰色对应不同疾病。本次课题设计社区痰色自助预诊系统放于社区中,通过检测痰液的颜色,告知社区居民自身的身体健康情况;另外,也可以减少随地吐痰现象的发生,防止痰液挥发在空气中导致病毒的传播,设计该系统可以更好地帮助社区居民养成良好的爱护环境意识。本文设计的系统包括以下几部分内容: