论文部分内容阅读
近年来,微博的飞速发展使它成为了不可忽视的网络力量。微博信息分类可以帮助用户快速,准确地获取需要的微博信息,过滤无用的微博垃圾信息,有着重要的研究意义。本文根据微博的特点,提出了了如下方法提高了微博信息分类的准确率。首先,在外国微博(twitter)的信息分类的8F(8Features)法的理论基础上,把微博中除了微博正文以外的一些信息也作为微博分类的特征,和正文部分一起形成了微博的混合特征,这些包括3F法(作者信息+正文+链接)和4F法(作者信息+正文+链接+评论)等。然后,本文基于在同一种类别的微博中会重复出现多次的词应该和分类相关度较高的假设,在传统的卡方(CHI)统计量的基础上,引入了频度等因素,改进了传统的特征选择方法。并在传统的特征项的权值计算的基础上,提出了新的tf*idf*改进的卡方统计量的方法,改进了权重计算的效果。最后本文提出了结合正文部分和混合特征的1F-3F法(先只按正文部分分类,小于判定阈值时再按照3F法分类)。我们对上述提出的方法利用经典的算法KNN或SVM进行了测试,证明了我们提出的方法对于提高微博信息分类的准确率是有效的。