论文部分内容阅读
短文本分类是互联网信息系统的一种普遍需求,无论是学术界还是工业界都进行了大量的研究和实践工作。本文关注招标项目名称的分类问题,虽然这类标题型短文本能够直接反映出项目的内容,但是其涉及的领域十分广泛,而且名称中往往存在干扰词、多义词的情况,词义高度依赖于上下文。现有的短文本处理技术在处理招标项目名称时存在一些问题。文本表示会对文本分类的结果造成直接的影响。由于存在向量表示稀疏、高维、缺乏语义信息等问题,词袋法(Bag-of-Word,BOW)不适合应用于招标项目名称短文本分类;均值word2vec模型因为基于word2vec词向量,克服了词袋法的缺陷,能较好的表示文本的语义信息。但是由于招标项目名称存在干扰词、多义词等问题,均值word2vec模型也不能很好的对其进行向量表示。本文针对招标项目名称的特点,在均值word2vec模型的基础上进行改进。首先,针对招标项目名称中存在干扰词的问题,本文提出了TF-IDF加权的word2vec模型,利用TF-IDF提升关键词权重。由于TF-IDF缺少对词的类别分布的考虑,会赋予文本集中均匀分布的稀有词较高权重,对分类贡献较大的词却被赋予较小的权重。针对这个问题,本文提出了基于特征词类别分布的TF-IDFCDW加权的word2vec模型,在TF-IDF的基础上,加入了表征特征词类别分布的两个指标:类内分散度和类间集中度,克服了TF-IDF对稀有词赋值不合理的问题。招标项目名称中存在多义词,这会引发一词多义问题,降低文本分类的精确性。针对这个问题,本文在TF-IDF-CDW加权的word2vec模型的基础上,进一步提出了拼接LDA主题向量的TF-IDF-CDW加权的word2vec模型。LDA是抽取文本主题信息的一种主要技术,通过拼接文本的主题向量,将文本的潜在信息和语义信息相结合,在一定程度缓解了一词多义问题。但是当文本过短时,文档级的词共现信息太少,LDA效果一般。对此本文提出了高维词库映射模型,高维词库映射模型通过高维词库在文本集的级别上极大地丰富了特征词的语义,很好的解决了多义词问题,并在此基础上对高维词库映射模型做出了进一步改进。最后本文在招标项目名称文本数据集上通过实验比较了这几种文本表示模型的分类效果,验证了本文所提出方法的有效性。