论文部分内容阅读
web2.0技术的普及,使得广大网络用户从传统的被动接收消息转变为主动发布信息,人们比过去更愿意在网络上分享自己的生活和观点。微博以其操作简单、快捷和实时等特点受到大量用户的青睐。在全球,每天都有数以亿计的微博更新,这庞大的数据看似杂乱无章,毫无规律,但其中却蕴含着丰富的信息,对于个人决策和企业产品的改良具有重要意义。因此,基于微博数据的用户情感分析已经成为学术界热门问题之一。目前,基于监督学习算法的文本情感分析取得不错效果,但是这种算法模型需要的标记数据数量较多。在实际应用中,较多数量标记数据的获取需要消耗较多资源,与之相对,未标记数据获取较为简单。因此,针对中文微博情感分析,本文使用半监督学习算法,将标记数据和未标记数据相结合共同构建模型。但是,由于微博噪声多,口语化等特点,传统文本情感分析方法并不完全适用。因此针对微博的特点,本文研究包括数据预处理、特征提取和模型构建等情感分析的关键性问题,主要研究内容如下:(1)对特征提取方法进行改进。使用传统信息增益率(Information Gain Ratio)提取特征并不能很好地代表微博文本,对于微博中常见的表情和颜文字等不能有效的处理。因此,本文提出一种基于特征融合的特征提取改进算法,将传统特征和微博表情颜文字特征采用不同的方法进行筛选,并将两部分保留特征进行合并,形成新的保留特征。实验证明,在最终保留特征维数相同的情况下,改进算法特征选择效果比原算法好。(2)对特征权重方法进行改进。微博表情和颜文字对文本情感判断十分重要。但使用传统TF-IDF(Term Frequency–Inverse Document Frequency)算法计算结果并不能体现这点。因此,本文提出一种基于加权的特征权重改进算法,增大微博表情和颜文字两部分特征权重。实验证明,在其他条件相同情况下,适当增大这两部分特征的权重可以取得较好的分类效果。(3)对半监督学习算法渐进直推式支持向量机算法(Progressive Transductive Support Vector Machine:PTSVM)进行改进。由PTSVM算法原理可知,该算法执行过程中添加的大部分样本并没有对模型构建起作用,甚至有的添加样本使分类超平面向错误方向偏转,不仅大大增加了算法的运行时间,并且在一定程度上降低算法的准确率。针对这一缺点,本文提出一种基于改进k-近邻的PTSVM算法,在输入PTSVM之前先对样本进行一次聚类,将不满足条件的样本进行删除。本文采用三种不同类型的聚类算法和k-近邻算法结合对PTSVM算法进行改进。实验证明,原型聚类k均值(k-means)算法和k-近邻算法结合对PTSVM算法改进效果最好,与原算法相比在运行时间上有大幅减少,同时在算法准确率上也有小幅提升。