基于关键词策略和卷积神经网络的中文文本分类算法研究

来源 :厦门理工学院 | 被引量 : 0次 | 上传用户:WYH5198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展和成熟,各种数字化信息的产生和发布速度呈爆炸式增长,海量文本数据占据较大比例。如何在海量文本数据中进行自动快速分类,已经成为了一项值得深入研究的课题。传统的人工文本分类方法是以人工方式按规则来构建分类器,已无法应对当前的数据量。近些年,随着深度学习技术的快速发展,因其强大的表征能力,使得能够更好的提取文本中的主要信息,在文本分类中取得优异的成果。因此,本文利用深度学习的方法通过对中文文本分类中数据预处理、文本特征表示及分类器模型进行研究,提出一种新框架,具体研究内容及结果如下:本文首先介绍了文本分类相关理论,主要从文本分类定义及流程、文本预处理、中文文本特征向量表示模型、特征词提取算法等方面进行了详细介绍。其次,针对中文文本存在噪声多、特征稀疏的问题,在输入分类模型前,有必要去除无用特征词,提出一种基于关键词策略和卷积神经网络的中文文本分类框架。在该框架中,首先基于Word2Vec构建词向量模型,然后采用分词频文档频率(Segmentation Term Frequency-Document Frequency,STF-DF)筛选出类别区分能力强的关键词,来作为样本的特征词集合,通过有效去除样本无用特征词来获得更精准的文本特征表示;在此基础上构建一种适合于中文文本分类的卷积神经网络(Convolution Neural Network,CNN)进行分类。实验结果表明,该框架在THUCNews和复旦大学中文文本数据集中的准确率分别达到了 94.51%和95.04%,同时在真实的有害信息数据集中取得了99.70%的召回率,验证了所提出框架的有效性。最后,针对文本不平衡数据集中的少数类别识别率低的问题,从特征词提取算法和目标损失函数两方面进行优化:在特征词提取方面,对卡方统计(CHI Square,CHI)和TF-IDF算法进行改进,提出一种新型的CHI-TF-IDF的特征词提取算法,通过提高少数类别特征词权重而获得选取高优先级,避免特征信息的损失从而提高分类的准确度,所提出的算法在各类不平衡数据集中都取得了较好效果,其中,在THUCNews数据集构建的二分类不平衡数据集实验中F1值比CHI算法高出2.56%;在目标损失函数方面,将应用在图像领域的Focal Loss损失函数应用于文本分类,并对其进行超参数的选择,从而在一定程度上;能提高不平衡数据集的分类性能。实验结果表明,无论是在二分类还是多分类中,本文改进的方法都能够提升少数类别的识别率,其中在构建的THUCNews二分类不平衡数据集下,宏F1值(各类F1值的平均值)提升了2.55%。
其他文献
国内煤炭港口数量不断增加,现有煤炭港口规模日益扩大,国内煤炭运输压力愈大,这些因素对黄骅港设施提出了更高的要求,为了适应生产的需要,需要从各方面寻求挖潜提效的措施和
现实世界中,许多重要的数据都以复杂网络或图的形式存在,比如引文网络,交通网络,基因网络等。网络中节点本身附带的特征信息及节点之间的链接关系包含大量的价值信息。另外,
伊恩·麦克尤恩(Ian Mc Ewan)是当代英国文坛最具影响力的作家之一,曾获“英国布克奖”、“毛姆奖”等多项文学大奖。《水泥花园》(1978)是“恐怖伊恩”时期的杰作之一。该故事由“我”——一个正值青春叛逆期的十五岁少年杰克,讲述了城市化进程中边缘家庭儿童的成长困境。父母相继离世,使得四个孩子如同囚徒,被困在水泥花园中,成为了孤岛上的幸存者。他们相依为命,在与世隔绝的世界里组建了一个伦理错位的
新闻话语与社会生活有着密不可分的联系和影响。新闻话语受到当下社会生活的影响,能够反映当下社会生活的特点和趋势。同样,新闻话语特征体现出来的社会价值对社会生活也有一
伴随着我国金融体制改革的深入发展,我国债券市场从无到有、从小到大,如今已初具规模。20余年来,我国债券市场不仅为国家财政政策和货币政策实施奠定了市场化的基础,而且为若
会议
自从实施配电市场化的改革以来,如何有效地使得我国的配电网络自动化产业逐步发展成一个更加开放、公平的配电网络自动化产业,已经逐渐成为我国电力高科技配电网络产业发展者
随着通讯技术和计算机技术的飞速发展,云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,世界已进入网络化的大数据时代。面对愈来愈
一、中国企业改革发展现状2020年,国际环境日趋复杂,不稳定性不确定性明显增加,新冠肺炎疫情影响广泛深远,经济全球化遭遇逆流,世界进入动荡变革期,单边主义、保护主义、霸权
会议
近年来,人工神经网络的研究成为时下热门。在众多神经网络模型中,由Cohen和Grossberg提出的Cohen-Grossberg神经网络模型的发展尤为突出。因其独有的特性,被广泛应用于模式识
在很多现实问题中,数据很容易获得,但数据的标记获取需要花费高昂的人力物力资源。半监督学习是机器学习领域的一个重要研究方向,旨在对数据很多,标记很少的应用场景提供解决