基于维基百科文章的情感分析

来源 :福州大学 | 被引量 : 0次 | 上传用户:dl612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科是现今使用最为广泛的网络百科全书,并以保持中立观点作为其基本原则。但一些研究显示维基百科文章包含情感色彩。然而,现有研究仅针对特定主题的文章进行分析,覆盖面有限,且没有对情感分布提出有效的可视化方案。因此,本文对所有可获取的英文维基百科文章(即维基百科条目)进行情感分析,并结合IPython的交互机制和Folium的可视化技术,设计实现交互式情感分布可视化系统WikiSentiViewer。主要研究及工作如下:(1)基于词袋模型对维基百科文章进行情感分析。首先,利用维基百科提供的资源和WikiExtractor工具分析维基百科页面结构,提取文章内容;其次,采用自然语言处理技术对文章进行分词处理,并结合LIWC、OL、MPQA三部情感词典对情感词汇进行词频统计,计算每个维基百科条目的积极情感值、消极情感值及总情感值;最后,根据计算结果分析维基百科条目在情感值上的分布频率。(2)设计并实现情感分布可视化系统WikiSentiViewer。首先,从DBPedia中提取出条目的类别、时间及地理位置属性,并结合GeoPandas库对地理数据进行国界判断处理;其次,利用ipywidgets工具实现系统界面的设计和交互功能;最后,采用Folium库实现情感地理分布图的构建,完成整个情感分布可视化系统WikiSentiViewer。该系统允许用户对情感词典和展示条目的属性(如类别、地域、时间、情感值范围等)进行设置,并生成相应的情感地理分布图。该图将条目以圆形标记的形式显示在地图上,其中标记的大小和颜色表示其情感值。(3)从地理位置、时间、情感词典三个不同维度对维基百科文章的情感分布进行分析与对比。首先,利用WikiSentiViewer系统分析维基百科文章的情感在地理位置上的分布情况;其次,通过展示维基百科文章的情感在时间轴上的分布图,分别分析积极情感值与消极情感值随时间的变化;最后,通过对比利用不同情感词典得到的情感分布图,分析不同情感词典的区别。实验结果显示,WikiSentiViewer能够有效地显示维基百科文章在地理位置上的情感分布。从时间角度上看:人物与事件类条目的积极情感值都随时间的增加略有增长;人物的消极情感值基本保持不变,而事件的消极情感值随时间递减。从情感词典的角度看:LIWC、OL、MPQA三种不同的情感词典所得到的情感分布走向基本一致,但从数值上看,LIWC情感词典得到的情感值普遍低于OL情感词典得到的情感值,且OL情感词典得到的情感值普遍低于MPQA得到的情感值。
其他文献
随着数据采集技术和计算机技术的发展,以数字化三维颅骨为对象进行颅骨性别和种族的自动化鉴定成为法医学、人类学、考古学等领域内十分重要的研究课题。在颅骨性别和种族的
人工智能目前的发展状态是弱人工智能较强而强人工智能较弱,出现这一问题的主要原因是人们对人类智能的本质、组成和功能认识不清。对此罗钧旻科研团队通过对各种心理学流派的研究,发现唯识心理理学对此揭示得比较透彻,他们依据唯识心理学相关理论,提出了一个智能模型——AORBCO(Agent-Object-Rilaiionship Model Based on Consciousness-Only)。首先,本文
安全问题一直是阻碍无线传感器网络实用化、规模化的瓶颈。保障监测数据的安全是首先要考虑的问题,尤其是敏感性监测数据,因此必须对用户的访问行为进行严格的管理和控制。由
热力学定律是研究能量性质及其转换规律的基本物理定律。其中,热力学第一定律保证了能量在转移和转换过程中的总量保持不变;热力学第二定律则决定了材料在做功过程中一定有耗
随着无线通信、传感、微机电等技术的快速发展,具有低功耗、高度自主性等特征的无线传感器网络,已在环境监测和保护、医疗护理、军事、智能交通等领域得到了广泛应用,这些应
人体细胞结构变化(尤其细胞核大小的变化)可为癌症诊断提供重要依据。目前组织学分析和荧光显微镜检查仍然是细胞检测的首选方法。近年来,尽管细胞荧光显微技术取得了进步,但
癌症是人类生命和健康的主要威胁之一,是世界上最致命的疾病。近年来,通过微阵列质谱数据进行癌症预测,实现癌症早期发现,提高癌症病患的生存率,成为人们关注的焦点。本文首
行人重识别算法的任务是在没有公共视域的摄像头中搜索特定的行人目标,这可以被视为一个目标检索过程,结果可表示为一个行人样本相似度的排名列表。在实际的场景中,受光照明暗变化、视角变化、行人姿态、遮挡等因素的影响,同一行人目标在不同摄像头下呈现较大的差异,从而导致同一行人的图像很难排在相似度列表前列。通常来说,难以正确匹配的行人样本被称为难例样本,难例样本也是阻碍算法性能的最大障碍。本文将从行人重识别的
在Ⅰ-Ⅲ-Ⅵ族半导体中,黄铜矿CuGaSe2是一种前景可观的光伏材料。然而,许多研究大都局限于传统的Cu和Ga化学计量比为1:1的结构,相关晶体对称性也多局限于黄铜矿结构。结构稳
出口管制是一国为维护国家安全和发展利益建立的重要制度,各国为保持军事或经济竞争优势进行出口管制。但是,近些年来,一方面敏感物项和技术的出口呈现出更为复杂的态势,另一方面国际局势复杂变化,这些都大大增加了出口管制的难度。为了更好地进行出口管制,我国于2020年12月1日出台了《出口管制法》,该法通过提高立法层级完善了两用物项出口管制制度,这标志着我国在出口管制领域迈向了一个新台阶。但是近些年我国对两
学位