论文部分内容阅读
随着互联网的日益普及,互联网上的信息量也在逐年激增,而这些信息数据基本上都是以文本的形式保存的。在这些庞大的数据里面,多是一些复杂的数据,这也间接的导致了数据虽然多,但是想要获取有效的数据信息却比较困难。文本挖掘技术便应运而生,文本分类是其中的一种重要技术,它可以解决数据错综复杂的问题,能够帮助人们有效的查看处理这些数据信息。当然,如果想把待分类的文本分类准确,不仅文本分类算法重要,特征选择方法也极其重要,其次,挖掘结果的有效呈现也值得研究。本文主要对文本的特征选择及其微博文本的挖掘结果可视化进行了相关研究。特征选择方法主要工作就是从待分类的文本数据中挑选出对文本分类有代表价值的特征词项,同时还能够删除一些待分类文本中的噪声词,从而可以降低文本内容的维数以及把文本的分类准确性提高。而现在的卡方特征选择方法因为过多的考虑低频词的价值而对分类效果造成了一定的影响,所以本文基于χ特征选择算法提出了改进的建议,首先将χ特征选择算法公式进行简化,只考虑特征项与文本的正相关性,负相关性默认χ值为零,这样可以降低机器的计算时间,然后我们引入特征项在某类别出现的总的词频数α作为调节参数,这样就可以用引入的α参数来消解χ特征选择方法对低频词的过度倚重的问题。由于微博用户数的快速增长,其已经成为一个重要的公众媒介,它不仅是网民从中获取新闻热点、实时报道,拓宽视野并且结交朋友的重要工具,也成为了一个社会公共舆论的重要社交平台。目前,微博注册用户已经达到了5亿之多,说明微博平台已经在人们的生活中发挥了越来越大的作用,但是,微博每天产生大量的短文本数据,如何高效的从这些文本数据中进行统计分析,挖掘出有效信息,也是新媒体时代统计工作者的重要课题。在特征选择方法的基础之上,本文以安庆师范大学学生会在新浪微博平台上发布的信息为例,运用改进的特征选择方法和权重公式相结合,再利用R语言等工具,进行了相关统计分析,并改进了高频词的文字云显示方式,最后将主题词以更加直观的文字云形式展示出来。