论文部分内容阅读
互联网的逐渐成熟以及微博等社交媒体的发展极大的改变了人们的生活方式,越来越多的用户喜欢通过网络发布信息、查看实时信息以及评价信息。网络通信量的迅速膨胀,导致网络数据量迅速增加,使得用户查找所需信息的速度和数据量呈现一种矛盾的关系。文本分类任务是有效处理和降低信息过载的方法之一。特征提取和分类建模方法是文本分类任务中最重要的两个环节。中文文本存在着一词多义、多词一义等问题,使得语义方法在特征提取方面具有很好的效果。另外,考虑到边界样本和类中心样本对分类贡献的差异,强化边界样本在分类中的作用有利于提高分类的性能。同时,在传统的分类建模中,通常使用单分类器进行建模,单分类器方法的特性决定着在不同应用场景下具有不同的分类效果,使得单分类器方法在不同情景下会丢失样本的部分信息。针对以上问题,本文做了以下几方面的研究:(1)在特征提取方法中,针对Sprinkling语义特征提取方法中没有充分考虑样本类别权重的问题,本文结合样本权重函数提出一种K-Sprinkling特征提取方法,通过样本权重函数来表示样本对样本类别贡献度的大小。该方法利用柯西分布隶属度函数作为样本类别的权重,并通过分析柯西分布隶属度函数的缺点,改进了柯西分布隶属度函数,从而构造了样本隶属度和样本紧密度结合的样本类别权重函数,并将结合后的样本权重融入到Sprinkling特征向量空间中,利用奇异值分解以实现语义深层次的特征挖掘,从而完成文本分类任务。(2)在分类建模方法中,本文考虑不同特征提取方法的关注点不同,提出了多类型分类器融合的文本分类方法。该方法结合了 word2vec、主成分分析、潜在语义索引和TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并针对多类型分类器加权投票方法忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。该方法中的类别权重是根据训练集在分类器中的分类正确率作为样本类别的权重,然后在投票决策中使用样本权重进行投票加权,以实现文本分类建模。实验结果表明,相对于改进前的特征提取方法,本文所使用的方法更能有效的进行文本分类任务,在准确率、召回率以及F1值上都有很大的提升,并且对不平衡数据集以及特定情景下的数据集也有很好的分类效果,这对文本分类在其他领域研究具有支持意义。