论文部分内容阅读
在当今信息爆炸的时代,因特网和物联网领域都在产生各种各样的信息,其中文本信息在数量和内容上都占据着重要的位置。特别是随着信息系统中模式识别技术的发展,如何更好的使用数学方法刻画文本内容、精准文本分类的需求与日俱增。目前,大部分研究都通过对文本的简单统计来构造文本特征,并通过雇佣大量的专家对文本进行知识标记。为了解决文本特征提取困难、已标记文本过少的问题,本文提出基于词向量的半监督文本分类模型,相比传统的基于统计的监督学习方法,该模型能有效克服提取文本特征时表达性弱的问题,减少对已标注样本的依赖,降低文本标注成本,实用性显著提升。 本文围绕词向量技术用于解决文本特征提取问题,对词向量模型原理、主题模型构造、神经网络改进等方面进行深入研究,并结合半监督学习算法,详细分析了本文提出的模型在文本分类应用上的性能与优点。 本文首先通过介绍传统的词向量模型,揭示词向量在文本特征提取方面的重要作用。然后,引入神经网络语言模型和主题模型,提出了全新的词向量模型——主题联合词向量模型,进一步强化词向量的文本表达能力,并通过实验验证该模型所生成的词向量在单词相似度及文本分类上,其特征表达的斯皮尔曼相关系数相比传统模型提高5%,且模型复杂度并没有增加。 在解决已标记文本过少的问题上,本文选用半监督学习算法中具有高拓展性与灵活性的自训练方式,利用大量未标记样本增加训练样本库,从而构造具有较高准确率和泛化能力的文本分类模型。同时,为了能够得到更准确的预测置信度,实现自训练,选用逻辑斯特回归作为内部的监督学习算法。 为了验证模型效果,模型进行了数据集分类及电影评论打分实验。实验结果表明,基于词向量的半监督文本分类模型,在分类召回率与F1综合指标上仍然能与使用传统的监督学习模型结果接近,在精度上差距也较小,然而所需要的训练样本仅为传统模型训练样本的1/7,证明模型在面对标记样本较少的情况下依然能够达到传统监督学习模型的效果,而传统监督学习模型在面对同等数量的训练样本时,模型严重过拟合,训练失败。 综上所述,基于词向量的半监督文本分类模型能够较好解决当前文本分类所遇到的特征提取困难与标记样本较少的难题,对文本分类应用具有指导意义。