论文部分内容阅读
随着互联网时代的到来,网络上各种文本的数据量呈爆发式的增长。其中,短文本形式的文本也逐渐成为主流的文本形式。面对大量的短文本,如何高效的获取其中有效的信息,是如今数据挖掘中的新热点,而在短文本中挖掘出有效信息,就需要有效的短文本分类算法作基础。然而以往的一些文本分类算法主要是用来对长文本进行分类的,例如K近邻(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machines,SVM)、朴素贝叶斯(Naive Bayes,NB)等,由于短文本具有实时性、稀疏性、不规则性等特点,这些适用于长文本分类的分类算法并不能直接拿来对短文本进行分类,因此,需要一种适合短文本分类的分类算法来对如今网络上大量的短文本进行数据挖掘。本文针对短文本的特点重点做了以下工作:首先,本文提出了一种基于自监督的半监督学习短文本预处理方法。首先需要对收集的样本进行预处理,以去掉一些噪声干扰。通过对训练集的迭代训练,将未标注的样本分类并学习,直到样本完全被标注。这种方法有效的解决了预处理时噪声样本不足而导致预处理效果不理想的问题。其次,本文提出了一种基于半监督学习和搜索引擎的自选择短文本特征扩展方法,该方法针对基于自选择的特征扩展方法对短文本不规则性问题的忽略,引入了半监督学习和搜索引擎的方法,通过半监督学习的迭代训练和搜索引擎庞大的知识库,解决短文本的不规则性问题。最后,本文提出了一种基于SVM和半监督学习(Semi-supervised Learning and Support Vector Machines,SLAS)的短文本分类算法。普通的SVM对短文本的分类效果并不是很理想,而本文提出的基于SVM和半监督学习的短文本分类算法有效的解决了短文本的特征稀疏和不规则的问题,扩充了数据字典中的标注样本,接着在SLAS的基础上,本文提出了 SLAS-C短文本分类算法。该方法结合了分类回归树,利用Gini指数改进分类模型,解决了 SLAS在分类效率上提升不明显的问题。实验结果中本文提出的算法的综合指标F1提高了4%-10%,同时算法的效率也得到了提高,验证了算法的有效性。