【摘 要】
:
情感时间序列由归属于各个时间片的文本集合的累积情感值依时间顺序连接而成,是一种能够将文本数据形式化为时间序列的有效工具。面向异常检测的情感时间序列研究主要基于情感时间序列应用异常检测方法,分析由文本集合生成的情感时间序列中的变化模式,挖掘能够引起用户情感变化的异常事件。目前情感时间序列异常检测研究大都存在以下问题:一方面,生成的情感时间序列不够准确,无法真实反映用户的实际情感变化;另一方面,基于情
论文部分内容阅读
情感时间序列由归属于各个时间片的文本集合的累积情感值依时间顺序连接而成,是一种能够将文本数据形式化为时间序列的有效工具。面向异常检测的情感时间序列研究主要基于情感时间序列应用异常检测方法,分析由文本集合生成的情感时间序列中的变化模式,挖掘能够引起用户情感变化的异常事件。目前情感时间序列异常检测研究大都存在以下问题:一方面,生成的情感时间序列不够准确,无法真实反映用户的实际情感变化;另一方面,基于情感时间序列中的异常事件检测方法大多较为简单,仅根据短期的上升、下降或尖峰对关键时间点进行人工标记以分析与现实事件间的联系。本文针对如上问题,围绕情感时间序列的异常检测,开展了相关研究工作。首先,针对生成情感时间序列不准确的问题,提出了一种基于随机采样的情感值修正方法,从各时间片段的文本集合中随机采样出部分样本子集,基于子集评价指标对全局数据分布进行估计,并结合原始情感分类结果得到修正情感值。本文从理论角度证明了子集评价指标采样值能够被限制在较小的范围内,特别是在情感极端的情况下,可以得到更为准确的情感值。本文基于微博构建了情感时间序列分析真实数据集。所提出的情感值修正方法通过仿真数据和构建的微博真实数据集上的实验,验证了该方法对于情感时间序列修正的有效性和鲁棒性。其次,由于基于随机采样的方法存在不确定性,仍有一定概率导致失准,为了得到更稳定可靠的情感值,提出了一种基于深度聚类的情感值修正方法。首先基于情感分类任务得到文本的高维向量表示;对原始向量进行微调和压缩后应用深度聚类方法将文本向量划分到不同的簇中;再基于距离度量方法筛选出各簇中的代表性样本组成采样子集。最后基于采样子集的方法进行情感值ii修正。在本文构建的微博话题数据集进行了实验,比较了两种情感值修正方法,验证了基于深度聚类的修正方法在降低不确定性的同时能够保证较高的准确度。最后,提出了一种基于显著图的情感时间序列异常检测方法。首先将时间序列按照重合滑动窗口进行划分,使得在滑动过程中每个目标时间点都能处于窗口中间位置;对每个窗口应用谱残差方法得到相应的显著图,从而增强异常点的显著程度;再基于双侧数据局部均值进行计算,得到异常判定结果。基于微博自建的情感时间序列数据集进行异常检测实验,其结果验证了该方法能够对异常点和非异常点进行有效区分,提升了情感时间序列异常检测的准确性。
其他文献
持续集成是现代软件开发模式下的重要实践之一,它鼓励开发人员频繁地提交代码,以实现价值的快速交付。随着当下网络安全环境的日益严峻、软件安全问题的日益突出,在持续集成中关注代码安全已成为当前各大软件企业的普遍共识。在实际场景下,持续提交的代码需要等待服务器资源的分配才能够执行构建任务。在等待的过程中,不安全的代码提交会分散在等待队列中的任意位置,这严重制约了集成代码的安全性,也影响了项目的整体构建效率
H2作为一种高效的清洁能源有巨大的应用价值,但由于其易燃易爆的特点,在生产、储运、使用过程中存在风险,为了及时、有效地检测H2泄漏,开发一种具有高灵敏度、良好选择性与稳定性的氢气传感器迫在眉睫。虽然不具有最佳电子结构的CeO2对H2存在响应低、选择性较差等问题,但本文通过控制形貌、复合第二相构成异质结的方法对CeO2进行改性,得到了对H2具有良好响应的CeO2纳米材料,同时还具有低的最佳温度、良好
目的:分析比较猩红热与非猩红热患儿临床特征差异,以提高儿科医生从疑似病例中识别猩红热患者、排除非猩红热患者的能力。方法:选择2017年1月至2019年12月在首都儿科研究所附属儿童医院感染科就诊的以猩红热样皮疹为主要临床表现、临床诊断不除外猩红热的患儿作为研究对象,收集其病历资料,根据GAS病原学结果分为病例组(793例)和对照组(793例),回顾性分析患儿的临床特征。应用SPSS23.0统计软件
领域自适应是迁移学习的一个重要分支,其目标是将从有标签源域数据中学习到的知识迁移到分布不同且缺少标签的目标域中,来帮助目标域完成学习任务。目前,大多数方法只是针对单个源域,并且假设源域和目标域的特征空间同构,需要在特定场景下才能来确保其有效性。然而,实际应用中,可用的源域可能不止一个,而且不同领域的特征空间也可能异构。因而,跨多个异构的领域迁移知识值得深入研究。本文旨在研究面向多源异构数据的领域自
在现实世界中,存在大量的网络结构的数据。网络结构会带有若干属性,通常包括节点的信息、边的信息以及网络全局的信息等等。其中,节点的信息会用来描述节点的特征以及状态,例如在一个社交网络中,用户节点的信息就包括用户的身份信息、兴趣爱好等等,而边的信息会用来描述两个节点之间的关系,例如两个用户之间的亲密程度或者用户和商品之间的吸引度,这些信息分别是网络节点的属性以及边的属性,总的称为网络属性。通过研究和掌
当今社会,由于煤油等不可再生资源的消耗,以及温室气体的影响,必须要有一种新型清洁能源来代替这些不可再生资源,用太阳光来驱动半导体的光催化制氢技术自然受到了广泛的关注。目前光催化制氢领域研究中,常用的半导体材料有数百种。但是其光生电子-空穴复合率都比较高,影响其光催化活性。利用助催化剂来修饰半导体,不仅可以有效提升电子-空穴分离速率,还可以作为反应活性位点,从而改善单一传统半导体的光催化效率。本文采
在供应链管理中,针对产品制定合适的定价决策是至关重要的一环,它会直接影响到各企业的运作效率和最优利润,而产品的定价决策问题会同时受到供应链权力结构、消费者环境意识与企业公平关切的外部影响。此外,在我国的重要工业部门中,水泥因其环境负荷大与能源依赖程度高的特点,已经成为推动绿色经济的焦点行业。鉴于此,本文以水泥行业为例,研究不同权力结构的供应链中,考虑消费者环境意识与企业双公平关切的供应链定价决策问
近几年,我国越来越强调“绿水青山就是金山银山”的发展理念。去年九月,在联合国大会上,我国宣布了“碳达峰、碳中和”的减排目标,并于今年两会首次将这一目标写入了政府工作报告。在这样的时代背景下,我们迫切需要开发一种制造高效、清洁能源的技术,光催化分解水制氢技术是极有潜力的一种。不幸的是,还存在一些“瓶颈”极大的限制了光催化分解水制氢的实际应用。例如:光生电荷的高速复合猝灭、对太阳光的吸收范围不足(主要
本研究以社会建构论心理学和语言学为理论基础,设计出了一套主要针对来华工作的外国人的一对一汉语口语在线教学课程,借助网络学习工具,为汉语基础薄弱,但又急需使用汉语和当地人进行简单交流的学习者提供帮助。笔者通过文献研究发现当前国内外在成人汉语口语一对一教学方面的研究成果极少。而该领域是国内汉语国际教育市场的一个重要组成部分,近年来发展较迅速,对相关研究有着现实需求,因此确定了设计出一套针对相关人群的在
半导体光催化分解水制氢为缓解21世纪能源危机和环境治理提供了切实可行的新方案。二氧化钛(TiO2)作为最早被发现具备光解水制氢特性且最兼具市场商业化开发的光催化材料,一直备受科学家的青睐。在众多应用中,光催化应用是TiO2材料研究最为深入和投入最高的领域,这源自TiO2材料本身的特性以及可优化的空间。TiO2的宽禁带导致光生载流子快速复合及紫外光响应是TiO2本身最为“致命”的两大缺陷,研究发现光