文本特征选择算法研究及其在微博上的应用

来源 :安庆师范大学 | 被引量 : 1次 | 上传用户:binghuapeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,互联网上的信息量也在逐年激增,而这些信息数据基本上都是以文本的形式保存的。在这些庞大的数据里面,多是一些复杂的数据,这也间接的导致了数据虽然多,但是想要获取有效的数据信息却比较困难。文本挖掘技术便应运而生,文本分类是其中的一种重要技术,它可以解决数据错综复杂的问题,能够帮助人们有效的查看处理这些数据信息。当然,如果想把待分类的文本分类准确,不仅文本分类算法重要,特征选择方法也极其重要,其次,挖掘结果的有效呈现也值得研究。本文主要对文本的特征选择及其微博文本的挖掘结果可视化进行了相关研究。特征选择方法主要工作就是从待分类的文本数据中挑选出对文本分类有代表价值的特征词项,同时还能够删除一些待分类文本中的噪声词,从而可以降低文本内容的维数以及把文本的分类准确性提高。而现在的卡方特征选择方法因为过多的考虑低频词的价值而对分类效果造成了一定的影响,所以本文基于χ特征选择算法提出了改进的建议,首先将χ特征选择算法公式进行简化,只考虑特征项与文本的正相关性,负相关性默认χ值为零,这样可以降低机器的计算时间,然后我们引入特征项在某类别出现的总的词频数α作为调节参数,这样就可以用引入的α参数来消解χ特征选择方法对低频词的过度倚重的问题。由于微博用户数的快速增长,其已经成为一个重要的公众媒介,它不仅是网民从中获取新闻热点、实时报道,拓宽视野并且结交朋友的重要工具,也成为了一个社会公共舆论的重要社交平台。目前,微博注册用户已经达到了5亿之多,说明微博平台已经在人们的生活中发挥了越来越大的作用,但是,微博每天产生大量的短文本数据,如何高效的从这些文本数据中进行统计分析,挖掘出有效信息,也是新媒体时代统计工作者的重要课题。在特征选择方法的基础之上,本文以安庆师范大学学生会在新浪微博平台上发布的信息为例,运用改进的特征选择方法和权重公式相结合,再利用R语言等工具,进行了相关统计分析,并改进了高频词的文字云显示方式,最后将主题词以更加直观的文字云形式展示出来。
其他文献
“采煤概论”是一门采掘专业学生必修的专业课程,既要使学生了解采矿的基本理论、基本概念,还要在较短的时间内,让学生全面了解从煤矿工业广场—井底巷道布置、煤矿灾害的预
已经有过多的研究涉及知识经济的创意产业的重要性问题。遍及全球的创意产业见证了该行业在过去十年的迅猛发展,并引起公众对该行业的更多兴趣,而另一方面,尽管很多研究已提出与
校园贷款是专门针对在校学生发放的各种贷款总称.包括助学贷款,校园创业贷款等多种贷款方式.其中学生消费贷款发展的最快,校园贷款是近几年来p2p网贷平台发展最迅猛的产品之
随着信息技术的不断发展和新经济时代的逐步到来,企业竞争力的构成要素也发生了巨大变化。中小企业作为国民经济的重要组成部分、社会经济不可或缺的元素却面临着国际经济与国
近年来,中国的资本市场经历了风风雨雨.收购杠杆融资引起的控制权竞争现象以及各种保险资金的流动性操作危机,利益转移和期限错配,引起了市场的高度关注和质疑.本文通过介绍
期刊
近些年来,中国经济的高增长越来越受到世界的瞩目;而在国内,内蒙古经济的快速增长则引起了全国上下的普遍关注。任何事物都是质和量的统一,经济增长也不例外,因此只有从质和
很多人感到疑惑:人们在谈到数码相机的像质时,往往只关心像素的数量这一个指标.这就好比不能只看汽车的时速表,来评判汽车的能力是一个道理.
住校生管理是学校德育工作的一项重要内容之一,在职业中学,寝室已成为住校生接受训练的重要场所。职业中学的学生思想、行为规范情况参差不齐,寝室作为学生生活、休息的场所,
2019年7月15日,由中国机械工程学会、世界铸造组织压铸委员会和世界铸造组织非铁合金委员会主办,中国机械工程学会铸造分会、铸造行业生产力促进中心、高端装备轻合金铸造技