招标项目名称的向量表示与分类应用研究

来源 :南京财经大学 | 被引量 : 1次 | 上传用户:wzxgxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本分类是互联网信息系统的一种普遍需求,无论是学术界还是工业界都进行了大量的研究和实践工作。本文关注招标项目名称的分类问题,虽然这类标题型短文本能够直接反映出项目的内容,但是其涉及的领域十分广泛,而且名称中往往存在干扰词、多义词的情况,词义高度依赖于上下文。现有的短文本处理技术在处理招标项目名称时存在一些问题。文本表示会对文本分类的结果造成直接的影响。由于存在向量表示稀疏、高维、缺乏语义信息等问题,词袋法(Bag-of-Word,BOW)不适合应用于招标项目名称短文本分类;均值word2vec模型因为基于word2vec词向量,克服了词袋法的缺陷,能较好的表示文本的语义信息。但是由于招标项目名称存在干扰词、多义词等问题,均值word2vec模型也不能很好的对其进行向量表示。本文针对招标项目名称的特点,在均值word2vec模型的基础上进行改进。首先,针对招标项目名称中存在干扰词的问题,本文提出了TF-IDF加权的word2vec模型,利用TF-IDF提升关键词权重。由于TF-IDF缺少对词的类别分布的考虑,会赋予文本集中均匀分布的稀有词较高权重,对分类贡献较大的词却被赋予较小的权重。针对这个问题,本文提出了基于特征词类别分布的TF-IDFCDW加权的word2vec模型,在TF-IDF的基础上,加入了表征特征词类别分布的两个指标:类内分散度和类间集中度,克服了TF-IDF对稀有词赋值不合理的问题。招标项目名称中存在多义词,这会引发一词多义问题,降低文本分类的精确性。针对这个问题,本文在TF-IDF-CDW加权的word2vec模型的基础上,进一步提出了拼接LDA主题向量的TF-IDF-CDW加权的word2vec模型。LDA是抽取文本主题信息的一种主要技术,通过拼接文本的主题向量,将文本的潜在信息和语义信息相结合,在一定程度缓解了一词多义问题。但是当文本过短时,文档级的词共现信息太少,LDA效果一般。对此本文提出了高维词库映射模型,高维词库映射模型通过高维词库在文本集的级别上极大地丰富了特征词的语义,很好的解决了多义词问题,并在此基础上对高维词库映射模型做出了进一步改进。最后本文在招标项目名称文本数据集上通过实验比较了这几种文本表示模型的分类效果,验证了本文所提出方法的有效性。
其他文献
企业作为一个经济组织,对市场经济的发展具有重要的影响,其行为表现及经营成果关乎国家经济的增长与社会和生态环境的良好发展。在此背景下,深入研究企业价值提升途径以提高
地方智库作为我国智库的主要存在形式,是服务地方政府决策的主要力量。随着我国各项改革措施不断深化,公众利益诉求趋于多元,对地方各级政府决策水平提出了更高要求。面对地
目的:探讨脑梗死继发癫痫的原因以及与脑血管病变的关系。方法:本文选取我院于2013年08月~2014年08月收治的80例脑梗死继发癫痫患者,将其随机分为试验组和对照组,对照组采用
近年来,随着我国经济飞速发展,各项基础设施逐步完善,国际整体经济形势也在发生转变。在新时代的背景下,我国的经济发展方式急需转变,需要用创新作为新的经济发展动力来满足
完整性管理是目前最为先进的设备管理方法。该方法能够优化企业的检验维修策略,有效降低设备风险,降低生产成本,提高企业本质竞争力。长输管道已经成熟应用该方法,并且取得了
mRNA转录与降解之间的平衡是调节mRNA丰度、调控基因表达的有效手段,对于生命体实施正常的生理功能具有重要意义。真核生物与原核生物mRNA降解方式包括:内切酶降解、5’→3’
本论文主要研究了网络通信模式下离散时间系统的模型预测控制问题。一方面,考虑到网络通信带宽受限的问题,在模型预测控制的框架下,本论文不仅关注了一些常见的网络诱导现象,
豆科植物分布广泛,包括约650个属,1.8万个种。蒺藜苜蓿是豆科模式植物,具有基因组小、染色体数目少(2n=16)、自花授粉、复叶发育等特点,这些优势对于开展豆科植物研究具有重
压电材料能够将力与电信号互相转换,从而在换能器、驱动器、传感器上有着广泛的应用。而当压电材料的尺度减小到微纳米范围时,其性能会发生极大的改变。例如压电纤维的弹性系
成纤维细胞生长因子21(fibroblast growth factor 21,FGF21)是FGF家族中的一员,它能够抵制肥胖,增强胰岛素敏感性以及改善各种代谢疾病。我们前期在肝细胞中的研究发现,FGF21