基于混合特征的微博信息分类方法研究

被引量 : 4次 | 上传用户：yuanyuan814606754

【摘要】

：

近年来，微博的飞速发展使它成为了不可忽视的网络力量。微博信息分类可以帮助用户快速，准确地获取需要的微博信息，过滤无用的微博垃圾信息，有着重要的研究意义。本文根据微博的特

【作者】

：

高翔

【发表日期】

：

2013年01期

【关键词】

：

微博信息分类混合特征特征选择权值计算卡方统计量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，微博的飞速发展使它成为了不可忽视的网络力量。微博信息分类可以帮助用户快速，准确地获取需要的微博信息，过滤无用的微博垃圾信息，有着重要的研究意义。本文根据微博的特点，提出了了如下方法提高了微博信息分类的准确率。首先，在外国微博（twitter）的信息分类的8F（8Features）法的理论基础上，把微博中除了微博正文以外的一些信息也作为微博分类的特征，和正文部分一起形成了微博的混合特征，这些包括3F法（作者信息+正文+链接）和4F法（作者信息+正文+链接+评论）等。然后，本文基于在同一种类别的微博中会重复出现多次的词应该和分类相关度较高的假设，在传统的卡方（CHI）统计量的基础上，引入了频度等因素，改进了传统的特征选择方法。并在传统的特征项的权值计算的基础上，提出了新的tf*idf*改进的卡方统计量的方法，改进了权重计算的效果。最后本文提出了结合正文部分和混合特征的1F-3F法（先只按正文部分分类，小于判定阈值时再按照3F法分类）。我们对上述提出的方法利用经典的算法KNN或SVM进行了测试，证明了我们提出的方法对于提高微博信息分类的准确率是有效的。

其他文献

土地承包经营权的抵押研究

土地承包经营是我国利用农用地的主要方式，取得农村土地承包经营权有家庭承包和非家庭承包两种方式。目前，我国农村取得土地承包经营权的方式以家庭承包方式为主。抵押作为一种

学位

土地承包经营权抵押现状必要性可行性构建路径

聚丙烯纤维混凝土的力学性能试验研究以及在边坡工程中的应用

多尺度聚丙烯纤维混凝土是纤维混凝土的一个创新领域，它将不同长径比聚丙烯纤维混掺在一起，形成不同尺度复合叠加的方式，取长补短对混凝土的性能起到改善和增强的作用。本文主要

学位

聚丙烯纤维多尺度力学性能抗裂性温度应力

美国反垄断法域外适用的应对

随着世界经济自由化的发展，反垄断法的域外适用制度最先从美国发展起来。尽管该制度从产生之日起就遭到学界的质疑和抵制，但现在世界上多数国家或地区仍然确立了该域外适用制度

学位

反垄断法域外适用效果原则国际礼让

我国商业银行内部信用评级的政策建议——基于Z值模型分析

2007年是我国进入WTO金融业全面开放的一年,面临外资银行从营销管理到内部风险控制的一系列冲击,要求我国银行业必须更新管理手段,使之与世界接轨,将风险进行精确的量化,便于

期刊

商业银行Z值模型内部信用评级

河南省第三产业内部结构发展规律实证研究

深入研究河南省第三产业内部四层次的地位及其结构规律对第三产业健康持续发展起着重要作用。通过建立计量经济模型,实证分析了第三产业与内部四层次的互动关系,并发现其中内

期刊

第三产业内部四层次计量模型

浅谈地铁施工中大体积混凝土裂缝控制

本文分析了大体积混凝土产生裂缝的原因,介绍了防止裂缝发生的措施。

期刊

大体积混凝土裂缝防裂措施裂缝处理

高层建筑深基坑支护的施工质量控制

高层建筑深基坑支护的施工质量控制由于工程地质情况的不同,在基坑支护施工过程中,必须根据现场地质情况和环境气候条件,对深基坑支护施工组织设计会同设计单位及施工单位进

期刊

基坑质量土质土方深基坑支护施工质量控制

从民国报刊史料看程砚秋及其表演艺术

民国以来，戏剧表演艺术呈现一派繁荣景象，尤其是诞生于清代中晚期的京剧，经过半个多世纪的磨砺，已然进入鼎盛时期，成为当时沪上最时尚的娱乐方式之一。程砚秋为我国杰出的京剧艺术

学位

程砚秋民国报刊媒体表演艺术戏曲信息

自适应阻升转换垂直轴风力机及其动态特性的研究

近年来，不断增加的环境污染、激增的能源需求和矿物燃料的持续减少，使人们对可再生能源的关注显著提高。在这些能源中，风能是较廉价并且发展最快的可再生能源。因此人们进行了大

学位

垂直轴风力机自适应性能预测模型自起动阻升转换

原版英文影视片应用于大学英语教学中的理论研究

运用英文原版影视片进行大学英语教学是一种有效的教学方法和辅助手段,能营造良好的英语学习氛围和真实的语境,让学生体验英语国家文化,最终实现对学生英语学习兴趣、人文素

期刊

影视片大学英语教学理论研究

基于混合特征的微博信息分类方法研究

其他学术论文