论文部分内容阅读
针对短文本分类任务中文本表示存在的高维稀疏问题,提出基于白编码网络的短文本流形表示方法.通过自编码网络重构文本得到流形映射,提取短文本的流形特征,实现非线性降维.根据标签与多篇文本在高维观测空间的全局映射关系,对已有流形映射进行整体调整,扩充短文本信息得到最佳流形表示模型,使用该模型得到短文本流形表示.结合SVM、KNN、Naive-Bayes 3种分类算法,该方法在公开数据源的Macro_F1均超过97.8%,分类效果优于VSM、LDA、LSI.结果表明,该模型生成的流形表示能以非稀疏形式更准确地描述短