【摘 要】
:
随着大数据时代的到来,互联网用户和网络新闻用户数目激增,出现了各类的新闻媒体平台,新闻文本的数量可以说是在爆炸式的增长之中。对于使用新闻客户端的用户来说,每个人都希望快速准确地从平台上找到自己感兴趣的新闻进行阅读,而对新闻媒体平台而言,将众多的新闻文本信息进行有效的分类也是做好新闻媒体平台很关键的一步。由于中文本身的复杂性,中文新闻分类的难度比起英文新闻要高不少,因此研究中文新闻文本分类对于推进新
论文部分内容阅读
随着大数据时代的到来,互联网用户和网络新闻用户数目激增,出现了各类的新闻媒体平台,新闻文本的数量可以说是在爆炸式的增长之中。对于使用新闻客户端的用户来说,每个人都希望快速准确地从平台上找到自己感兴趣的新闻进行阅读,而对新闻媒体平台而言,将众多的新闻文本信息进行有效的分类也是做好新闻媒体平台很关键的一步。由于中文本身的复杂性,中文新闻分类的难度比起英文新闻要高不少,因此研究中文新闻文本分类对于推进新闻工作具有十分重要的意义。近年来由于深度学习的快速发展,文本分类任务的效果得到了进一步提升,而新闻文本分类作为文本分类领域内的研究课题,也得到了越来越多学者的关注。然而目前新闻文本分类的研究对象大部分都局限于新闻正文内容上,并且训练方法大多数都基于需要大量有标签样本的有监督学习。虽然这样能达到比较高的分类效果,但基于新闻正文内容进行分类容易导致训练效率的低下,大量的标记样本也会消耗大量的人力物力。为解决这些问题,本文以新闻标题作为新闻文本分类的切入点,研究对比了多种深度学习模型在新闻标题分类上的分类效果。基于THUCNews数据集,为了研究注意力机制和最大池化层对于Bi LSTM模型在新闻标题分类任务中的影响,构建了Bi LSTM、Bi LSTM-Attention和Bi LSTM-Maxpooling三种模型进行分类实验,实验结果表明注意力机制和最大池化层都能一定程度上提升Bi LSTM模型在新闻标题分类任务中的分类能力,且Bi LSTM-Maxpooling模型分类效果要明显优于Bi LSTM和Bi LSTM-Attention模型,与Bi LSTM模型相比,Bi LSTM-Maxpooling在准确率上提升了1.25%,Bi LSTM-Attention则提升了1.02%。由于近年来预训练模型在自然语言处理领域中大放异彩,因此本文进一步将预训练模型ERNIE-tiny、BERT与Ro BERTa引入,并与NB、SVM、Bi LSTM-Maxpooling以及Text CNN模型进行对比实验,结果表明深度学习模型在新闻标题分类任务上效果要明显优于NB、SVM等机器学习算法,且对于深度学习模型而言,Ro BERTa模型的分类效果最好,准确率达到了96.69%,比Bi LSTM-Maxpooling模型和Text CNN模型分别提升了2.66%、2.71%,说明预训练模型在新闻标题分类中有明显的优势。针对有监督新闻文本分类需要大量已标记的新闻样本,而无法充分利用未标记的新闻原始样本的问题,本文将深度学习算法与半监督学习中的Tri-Training算法进行结合,构建了基于Tri-Training的半监督新闻文本分类模型。为了研究标记样本占比对模型分类效果的影响,确定半监督分类模型最佳的有标签样本比例,文中在THUCNews和今日头条两个不同的数据集上进行实验,将不同比例的标记样本的标签隐去进行实验对比,发现标记样本在训练样本中的比重对半监督学习的分类效果有显著的影响。在标记样本的比例从5%一直提升到20%的过程中,半监督分类模型的提升较为明显,而当标记样本比例超过20%之后,由于模型可以学习的信息逐渐饱和,所以提升的速度开始变缓。综合考虑分类效果和标注成本的情况下,本文的半监督分类模型将标记样本的比例定为20%。为了进一步验证模型的有效性,在THUCNews数据集下,将本文的基于Tri-Training的半监督新闻文本分类模型和基于Ro BERTa的自训练模型以及有监督深度学习模型进行了对比实验,实验结果表明本文的半监督分类模型在20%标记数据下的分类效果能够优于Bi LSTM Maxpooling以及Text CNN模型在全部标记数据下的分类效果,且相比于基于单一模型的自训练模型在分类效果上也有明显提升,说明本文提出的基于Tri-Training的半监督新闻标题分类模型是有效的。
其他文献
随着大数据时代的发展,人们获取信息的方式日益多样,如何有效地处理形式多种多样、数据量巨大的不确定性信息,成为了当前研究的一个重要课题。粒计算是一种处理不确定性问题的有效办法,本文从粒计算的角度出发,建立新的粗糙集模型,结合证据理论,研究多源混合数据的信息融合方法。在文本的讨论中,首先基于分类型数据构建等价关系,将粗糙集与证据理论结合。利用相似函数对各信源间的相似性进行计算,并通过谱分解将信源划分为
在过去的十多年中,神经网络由于存在分布式和大规模并行计算的特点,在模式识别、智能控制和信号处理等众多研究领域取得了重大进展。然而,当前大多数神经网络在工程应用中的性能表现较差,由于神经网络的突触权值是不变的,导致神经网络在性能不佳时难以调整突触权重以适应现实需要。忆阻器不仅存在优秀的生物突触模拟特性,而且还具有突触可变性,因此可以用忆阻器来模仿神经突触的作用,使工程中的神经网络表现出更加优越的性能
从园艺疗法的概念出发,探讨了国外园艺疗法的发展进程、研究内容以及康复花园、芳香疗法、治疗绿地的研究现状,同时分析了当前国内薰衣草园艺疗法的发展动态,对国内校园景观中薰衣草园艺疗法的设计应用不足进行分析,并对未来研究重点与方向提出展望,以期对薰衣草园艺疗法及景观设计应用的研究有所启示。
当前,海量数据信息在每一个智能行业和业务领域发挥着关键作用。面对不断更新的海量复杂数据,选择合适的数据挖掘方法并从中获取所需要的有效信息,是我们目前面临且必须要解决的问题。众所周知,粗糙集理论可以实时处理动态数据的更新,是一种非常有效的数据挖掘方法。在信息系统中,当删除冗余属性和增加全新属性时,系统的粒结构也会随之发生变化,从而引起粗糙集的两个近似算子的更新。本文以直觉模糊信息系统为研究对象,基于
随着信息技术的快速发展,具有海量、高维、动态、分布式等特征的大规模复杂数据不断涌现,如何从这些复杂的数据中获取高价值的信息显得异常重要。粗糙集作为一种处理不确定性、不精确性知识的重要工具,目前已经广泛应用于模式识别、特征提取、规则提取等领域。然而,传统的粗糙集模型要求数据是完备精确的,对于不完备、动态数据的处理具有一定的局限性。集值信息系统作为单值信息系统的重要扩展类型,是处理不完备、不确定数据的
人工智能与教育的结合对于推动国家发展、建设创新型国家以及构建包含有交互式学习与智能学习的新型教育体系等方面起着至关重要的作用。而人工智能在教育领域的应用主要集中在提供个性化学习方案与改进教育评价模式这两个方面。提供个性化学习方案与改进教育评价模式都需要对学习过程中学生的状态进行监测。众多的学习状态中,认知负荷是否匹配是被广泛研究且极为重要的一组学习状态。监测学习者学习过程的认知负荷是否匹配,便于教
心血管疾病目前已经成为威胁国民身体健康的首要致命疾病,发病人数逐年上升。心电信号是反映心脏活动的一种重要的生理信号,医生通过观察患者的心电图数据来对心血管疾病进行诊断。为了减轻人工检测的工作量,提高医生对心电图诊断的效率和准确率,及时保障病人的生命安全,围绕心电信号自动检测与诊断的研究具有很强的现实意义。本文深入研究了深度学习技术在心电信号检测与诊断的应用,利用双向长短期记忆网络(Bi-LSTM)
<正>湛蓝的天空与赤金的阳光,搭配艳紫的薰衣草让人沉醉其中。但据记者了解,北京地区的气候环境并不适合大面积种植薰衣草,各大庄园的紫色花海也多以蓝花鼠尾草与柳叶马鞭草为主。北京不适合大面积种植薰衣草法国诗人罗曼·罗兰有一句名言:"法国人之所以浪漫,是因为他们有普罗旺斯",而薰衣草说是普罗旺斯的灵魂,一点也不为过。人们对于美好事物的向往古往今来始终如一,早在1963年我国就先后在北京、上海、西安、重庆
随着智能技术的发展,高维数据日益普遍,如图像、视频、社交网络关系和用户行为数据等,被广泛应用在特征预测、视频分类和推荐系统关系挖掘等各个领域。而传统的机器学习算法需要先对数据进行向量化或矩阵化处理,这通常会破坏高维数据携带的内部结构信息,并常常会带来过拟合的新问题。近年来,将张量形式的数据应用到经典的线性回归模型中引起了广泛关注,一方面,可以尽可能地保留数据的结构信息,达到更优的预测效果,另一方面