论文部分内容阅读
文本分类是自然语言处理领域一项非常重要的基础工作,在学术界与产业界均得到广泛的应用与研究。提升文本表示质量是改进文本分类的重要途径。文本是由字或字符构成词,由词构成短语,再由短语构成句、段、节、章、篇等。机器学习算法无法对文本直接进行处理,需要转化成特定的格式作为机器学习模型的输入。文本表示是将文本数字化的过程,将文本表示成机器学习模型可以识别的实数向量或矩阵的形式。文本表示的核心是真实地反映文本内容的同时,对不同的文本保持区分度。文本数据包含多样化的内容特征,如主题、语言风格、情感倾向等。每个内容特征分别包含文本不同的关键信息点。当前的文本表示方法,如向量空间模型、主题模型、词向量模型等,均只生成单一的文本表示。使用单一的文本特征还原具有多样化内容特征的文本信息,会削弱文本不同内容特征的特征描述,不利于还原文本的真实内容。针对该问题,本文提出一种新的文本表示方式方法,即多样化文本表示。本文认为,使用多样化的内容特征,可以增强特征提取的能力,更好的还原文本的真实信息。多样化文本表示是一种使用无监督学习强化特征提取的方法,其关键在于如何获取多样化的文本表示。本文提出了如下三种解决方案:1.Alter K-Means模型。Alter k-Means模型可以生成多组、差异较大的聚类,每个聚类对应一组表示向量。聚类的差异性将在下文中进行详细描述。每个聚类的一组表示向量作为基底,将样本映射到新的特征空间当中,通过捕获样本在新的特征空间当中的位置信息,强化对样本的特征提取。2.Alter LDA模型。Alter LDA模型是对主题模型LDA的泛化。可以生成多组、差异较大的主题结构,捕获文本在不同主题结构下的特征表示。Alter LDA模型使用“主题-词”分布描述文本的主题结构,使用“文档-主题”分布作为样本的特征表示,主题结构的差异将使用KL散度进行度量。3.横向多样化文本表示模型。横向多样化文本表示模型使用不同的文本表示模型,分别挖掘文本数据中不同的内容特征,生成差异较大、包含不同特征信息的文本表示。实验结果表明,多样化文本表示可以提升文本分类的效果。同时,多样化文本表示相较于已有的文本表示方法有着明显的降维效果。