基于词向量的半监督文本信息分类技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:freddyzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息爆炸的时代,因特网和物联网领域都在产生各种各样的信息,其中文本信息在数量和内容上都占据着重要的位置。特别是随着信息系统中模式识别技术的发展,如何更好的使用数学方法刻画文本内容、精准文本分类的需求与日俱增。目前,大部分研究都通过对文本的简单统计来构造文本特征,并通过雇佣大量的专家对文本进行知识标记。为了解决文本特征提取困难、已标记文本过少的问题,本文提出基于词向量的半监督文本分类模型,相比传统的基于统计的监督学习方法,该模型能有效克服提取文本特征时表达性弱的问题,减少对已标注样本的依赖,降低文本标注成本,实用性显著提升。  本文围绕词向量技术用于解决文本特征提取问题,对词向量模型原理、主题模型构造、神经网络改进等方面进行深入研究,并结合半监督学习算法,详细分析了本文提出的模型在文本分类应用上的性能与优点。  本文首先通过介绍传统的词向量模型,揭示词向量在文本特征提取方面的重要作用。然后,引入神经网络语言模型和主题模型,提出了全新的词向量模型——主题联合词向量模型,进一步强化词向量的文本表达能力,并通过实验验证该模型所生成的词向量在单词相似度及文本分类上,其特征表达的斯皮尔曼相关系数相比传统模型提高5%,且模型复杂度并没有增加。  在解决已标记文本过少的问题上,本文选用半监督学习算法中具有高拓展性与灵活性的自训练方式,利用大量未标记样本增加训练样本库,从而构造具有较高准确率和泛化能力的文本分类模型。同时,为了能够得到更准确的预测置信度,实现自训练,选用逻辑斯特回归作为内部的监督学习算法。  为了验证模型效果,模型进行了数据集分类及电影评论打分实验。实验结果表明,基于词向量的半监督文本分类模型,在分类召回率与F1综合指标上仍然能与使用传统的监督学习模型结果接近,在精度上差距也较小,然而所需要的训练样本仅为传统模型训练样本的1/7,证明模型在面对标记样本较少的情况下依然能够达到传统监督学习模型的效果,而传统监督学习模型在面对同等数量的训练样本时,模型严重过拟合,训练失败。  综上所述,基于词向量的半监督文本分类模型能够较好解决当前文本分类所遇到的特征提取困难与标记样本较少的难题,对文本分类应用具有指导意义。
其他文献
首先从理论上研究了关联规则发现问题,通过研究发现依赖最小支持度和信任度的理论得到了经典关联规则存在的问题所在,提出通过引入相关计算的方法进行补充,以达到文本数据有
随着无线通信朝高速率大容量发展,传统3GHz以下蜂窝频段难以满足日益增长的移动数据需求,而毫米波频段(30-300GHz)在支持未来微微蜂窝和高速率大容量通信方面表现出独特的优势
长周期大地电磁法(Long Period Magnetotellurics,简称LMT)是在大地电磁测深(Magnetotellurics,简称MT)的基础上发展起来的。由于没有低频的限制,长周期大地电磁的探测周期可
MPEG-2作为一种国际标准,已经在数字电视、高清晰度电视、多媒体技术领域以及数字视频广播(DVB)中获得了广泛的应用.该文详细讲述了MPEG-2系统层传输流(TS)的码流结 构、语法
多基线干涉技术是指利用同场景多幅干涉图的信息差异,对数据联合处理获取数字高程图(Digital Elevation Models,DEM)的技术。多基线干涉技术的概念是为解决传统单基线干涉合成
水声目标被动声纳的自动识别是水声领域中一个重要的研究课题。目标分类一般来说可按两部分进行:一是特征提取,二是模式识别。识别特征提取的好坏对识别来说非常重要。识别谱特
为了进一步满足无线用户对无缝覆盖、更高数据速率业务的需求,3GPP正在研究和制定LTE-A系统的后续演进标准。该标准以提供更高的数据速率、更高的频谱和功率利用率、以及提升
随着人工智能技术的快速发展,移动机器人成为目前科学研究的热门领域之一。定位作为移动机器人的基础模块,是移动机器人实现自动导航的关键技术。近些年,计算机视觉技术的进步使
学位
随着网络技术的应用和发展,实现工作和生活环境的自动化、信息化和网络化需求也越来越受到人们的青睐。数据信息以不同形式的管理和应用引领着网络技术者们争相追赶,实现智能