网络社区话题特征提取及文本分类技术研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:ss22ss33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络社区是影响网络舆论的重要来源,对于网络社区文本信息的有效准确挖掘有助于网络舆情的监管。网络社区中的文本数据具有表述口语化、内容碎片化的特点,其中大量用户对热点话题的集中讨论极易造成数据不均衡现象的产生。这些特点影响文本数据挖掘的有效性和准确性。本文进行具有网络社区主题特征的语料收集用于模型训练。对网络社区文本数据通过fuzzy-k-means聚类算法进行话题特征提取分析,设计了适合网络社区的舆情分类体系。为解决网络社区舆情主题数据分布不均衡现象,本文设计了一种基于随机森林引入代价敏感的文本多分类算法。算法使用朴素贝叶斯构造代价矩阵,选择基尼指数作为决策树节点选择算法,并在其中加入错分代价进行网络社区舆情数据的主题分类。为验证算法效果,选取具有代表性的两个解决数据集不均衡问题的改进算法,数据层面的基于SMOTE过采样的SVM算法和样本层面的基于Bayes统计推断推广的连续AdaBoost算法,分别从准确率、召回率和f-measure进行比较。实验结果表明,本文所提出的算法在保证模型整体性能的基础上,在不均衡样本集上的平均性能有大约8%的提升,能够改进样本不均衡的分类模型性能。在一定程度上解决数据不均衡的文本多分类问题,提高少数类样本的分类准确度。网络社区文本数据的分类能够将碎片化的信息进行主题分类整合,使得网络舆情监管人员掌握网络舆情内容主题分布动态。
其他文献
公立医院是提供医疗卫生服务的组织。随着人们对生活质量要求的不断提高,医疗卫生服务的需求越来越高,医院的预算管理越来越受到重视。本文对此进行了探讨。
经济落后国家利用资本主义发展社会生产力,是马克思主义的一条重要原理.张闻天以此为指导,结合中国国情,创造性地提出了为何利用和如何利用资本主义的重要思想.这些思想对制
会展业带动地区经济发展的势头突显,会展业正在成为地区经济成果的一部分。各地 政 府纷纷把所在城市定位于“建设成国际会展名城”,作为城市未来战略发展规划。本文选择 世界四大展览名城为借鉴,在于这些会展之都的形成无论是历史机遇、硬件完善、巧借地方 优势、提高服务水准等方面都具有代表性。    名都之一:德国汉诺威    第二次世界大战后的德国可以用百废待兴、物资短缺来形容。战胜国认定,德国重振经 济的
《国家中长期教育改革和发展规划纲要(2010-2020年)》第十六章为“扩大教育开放”,明确提出要坚持以开放来促改革,促发展,开展多层次、宽领域的教育交流与合作,提高我国教育国际化
目的:探讨改良型椎弓根螺钉系统对骨盆前环骨折治疗效果的临床研究。方法:回顾性分析2016年10月-2018年6月收治的16例骨盆骨折患者,16例行4枚椎弓根螺钉行骨盆前环骨折经皮内固定(ASIF,anterior subcutaneous internal fixator)治疗,其中男9例,女7例;年龄21-68岁,平均年龄40.5岁。致伤原因:车祸伤7例,高出坠落伤4例,挤压伤5例。骨折按照OA