基于Hadoop的微博舆情分类的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:longman1026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博等新型社交媒体的不断发展,用户数量日益庞大,在微博等平台上每天都产生海量的新信息。通过微博大数据了解社情民意、关注舆情动向显得至关重要,这对于促进社会和谐稳定、掌握社会动态具有重要的现实意义。本文针对微博舆情信息的挖掘和分析中存在的问题展开研究,运用数据挖掘技术对舆情事件进行分析,从而能够有效地进行微博重大舆情事件的识别以及情感的分类。本文主要的研究内容和创新点如下:1.针对目标舆情事件数据所占比例小所导致的数据集不平衡问题,在基于主题表示LDA(Latent Dirichlet Allocation)模型与支持向量机SVM(Support Vector Machine)结合的半监督分类模型的基础上,在输入数据方面,提出了利用多种抽样方法来减少数据不平衡给后续算法带来的负面影响。在算法方面,提出利用多个单独的支持向量机构造的组合系统来降低单一分类模型给文本分类造成的误差,提高了对目标舆情事件识别的性能,并通过利用爬取得到的微博数据验证了上述方法的优越性。另外,这半监督组合模型能够充分利用大量未标记样本来改善分类器的性能,一定程度上减少了人工标注的精力。2.提出了一种混合式情感分类算法。该混合算法结合了无监督聚类算法K-means和监督学习算法对微博舆情进行情感分类。在比较常用的监督学习算法如决策树、随机森林在情感分类中的应用的基础上,本文研究分析了各算法的优缺点及对微博文本的适用性。提出的混合算法在二元情感分类方面,准确性上比常用的情感分类算法有1%的性能提高,AUC值有0.1的提高。为了证明该混合算法具有较好的可扩展性,本文在二元情感分类的基础上还进行了舆情情感的细粒度分类,从实验结果可以看出,当聚类数的选择达到最优的情况下,混合算法在准确性上比传统的分类模型有2%的提高。3.设计并实现了适应微博短文本特性的舆情分析系统。针对微博短文本特征向量表示时呈现的稀疏性及碎片化的特点,设计了基于Hadoop的微博短文本舆情分析系统,能够准确识别重大舆情事件,并能针对某一舆情事件进行相关的情感分析。本文通过对微博舆情挖掘分析技术进行研究,能够通过微博数据进行舆情事件的识别和情感分类,具有理论和应用的双重价值。
其他文献
在全国实施“控源减排”后,废水有机污染得到有效治理,氮磷污染上升为主要环境问题,针对废水低C:N:P的限制,亟需开发自养脱氮除磷技术。以二价铁为电子供体、以硝酸盐为电子受
在愈发注重传统手工艺传承发展的今天,由虚拟现实技术演化的虚拟博物馆在传统手工艺的宣传展示中显得尤为重要。虚拟场景的实时绘制是虚拟现实技术的难点,如果场景过于简洁则难以满足用户的视觉需求,而场景过于复杂则会导致渲染速度过慢。多细节层次(Levels of Detail,简称LOD)技术在解决该问题上有着明显效果。模型的选择调用是LOD技术的关键,目前一般是基于距离实现,忽略了人的主观心态,因此提出基
基于中国文学与图像表达结合方式的教学尝试,选择成语中含义的内容作为基础,让学生了解成语本身的出处、成语的内涵及内容,通过用色彩的构成组合图像表现成语涉及的色彩组合
矿山资源储量动态检测是矿山企业的基础性工作,通过这项工作企业能更好掌握矿区地质情况和矿山资源储量的变化情况,从而为各级政府、相关管理部门提供矿山资源储量、开采储量
复杂网络作为一种介于传统规则网络和完全随机网络之间的网络类型,同时具备一定的规律性和随机性,这使得它能够更好地模拟人类社会中的一系列真实系统,既包括抽象存在的因特
抑郁症已成为引发大城市人自杀的一个重要因素,本文介绍了抑郁症,分析了产生抑郁症的外在原因和内在原因,合理地提出帮助患者改善心理环境、脱离抑郁症的一些建议。
本文主要研究少数民族特色产品小微企业发展的影响因素,通过对少数民族特色产品小微企业实地调研,发现该类小微企业发展影响因素的关键节点,分析六项因素对不同属性少数民族
氧化还原酶种类丰富,广泛应用于生物催化级联反应中。以细胞色素P450单加氧酶和羰基还原酶为例,综述了两者参与的级联催化反应及其在合成手性胺和手性醇等化合物中的应用,并
含氮废水的肆意排放造成了水体富营养化,威胁着人类健康和生态安全,废水脱氮势在必行。短程硝化(PN)-厌氧氨氧化(Anammox)工艺是崭新的自养型废水生物脱氮工艺。因其经济高效
<正> 本研究以Riding(1991)等人的认知风格聚合理论为基础,引入认知风格的测量工具“认知风格分析测验”并对其进行了修订和心理测量学质量检验后,使用该工具探讨言语、表象