【摘 要】
:
随着互联网的飞速发展,网络中充满着大量的文本、图片、音频、视频等形式的数据,而其中以文本数据最为常见。面临纷繁复杂的文本信息,往往需要对其进行有效地辨识和归类存档,所以文本分类技术应运而生。文本分类已经被广泛应用于搜索引擎、信息检索和情感分类等领域。早期的文本分类通常使用有监督学习的方法进行,需要利用有标记样本来训练分类器,但有标记样本需要由人工标注,这一过程耗时耗力,并且仅仅利用有限的有标记样本
论文部分内容阅读
随着互联网的飞速发展,网络中充满着大量的文本、图片、音频、视频等形式的数据,而其中以文本数据最为常见。面临纷繁复杂的文本信息,往往需要对其进行有效地辨识和归类存档,所以文本分类技术应运而生。文本分类已经被广泛应用于搜索引擎、信息检索和情感分类等领域。早期的文本分类通常使用有监督学习的方法进行,需要利用有标记样本来训练分类器,但有标记样本需要由人工标注,这一过程耗时耗力,并且仅仅利用有限的有标记样本得到的分类器效果有限,而在互联网上存在着大量的无标记数据,于是人们开始研究使用半监督学习的方法来进行文本分类。半监督学习是同时利用一部分有标记样本和大量未标记样本来训练分类器的方法,通过利用未标记样本的信息来提高分类器的性能,其已经被广泛应用于解决文本分类等自然语言处理问题。近年来随着深度学习的发展,深度神经网络被应用于诸多领域并取得了突破性的成绩,其中对抗式生成网络大放异彩,它所使用的对抗学习方法可被用于解决诸多实际问题。本文基于此方法将对抗学习应用到半监督文本分类领域。本文的研究工作主要包括以下几部分:(1)对经典的文本分类技术进行介绍和分析,详细介绍了常见的有监督文本分类算法和半监督文本分类算法的主要内容和优缺点;介绍了对抗学习方法的内容,并对其研究进展进行了综述。(2)针对传统的半监督文本分类算法存在性能不佳、无法有效利用大规模数据资源的不足,构建基于对抗样本训练的深度学习模型ATN,ATN模型使用结合attention机制的双向LSTM作为基本网络模块,向输入的词向量中添加对抗扰动生成对抗样本,使用混合的代价函数进行对抗训练,并通过实验验证ATN模型的有效性。(3)针对ATN模型中未标记样本不能直接应用于训练分类器这一不足,设计基于强化对抗网络的对抗学习模型RLAN,其中强化对抗网络包含预测网络和评判网络两个子网络,通过预测网络和评判网络的对抗学习不断迭代提升RLAN模型的分类效果,最后通过实验验证RLAN模型的可行性和鲁棒性。(4)为了进一步提高分类性能,将ATN模型和RLAN模型进行结合,组成AT-RLAN模型。从数据层面上,借助基于对抗扰动生成的对抗样本防止过拟合的发生,从框架层面上,借助强化对抗网络中子网络的对抗进行迭代训练,两者结合互补可以有效提升AT-RLAN模型的泛化性能,相比其他模型,最终准确率有明显的提高。
其他文献
“程度副词+名词”结构言简意赅、形象生动,在汉语中的生命力不容小觑。从事语言本体研究的学者们从语用、语义、语言演变等许多角度对这一现象进行了大量研究。但是对于程度副词和名词组合的机制,目前还没有人能够深入细致地解释清楚。程度语义学视角下语言的等级性问题是近几年语义学研究中的新兴和前沿理论。把名词的等级性这一概念引入对“程度副词+名词”结构的研究中,可以为进入该结构名词语义的转变提供一个更容易刻画的
在三十年代的女性刊物中,《女子月刊》的文学色彩异常鲜明,其文学意识突出体现在编辑有意识地引导女性创作、培育女作家,并配合女子书店出版发行女性书籍。《女子月刊》以及女子书店共同营造出丰富的文学创作面貌,使刊物具有一定的文学史料价值。作为中国现代化转型的过渡期,三十年代的上海女性期刊记录了女性主体在现代化转型中的困境。随着女性经验的变化,女性文学在继承前期女性文学成果的同时又显示出其特有的新质。因此有
机器学习方法在现实环境中被广泛应用,而强化学习是机器学习的一个重要组成部分。强化学习旨在学得一个策略,以最大限度地从未知环境中获得累积奖励。在实际应用中,强化学习的环境是开放的,即智能体并不能观测到完整的环境信息,而是需要通过不断地学习和探索环境,而后在开放环境中更新自身策略,完成强化学习任务。在开放环境中,智能体首先需要辨别已见信息和未见信息,例如,对于传统的分类任务,在现实应用中,测试集很可能
随着改革开放的推进,近十年来的中国电影作为大众媒介和艺术产品,呈现出一系列异质样态——票房神话与口碑危机并置、档期投放与恶性营销频繁、类型窄化与观影人群分化。问其根源,指向的其实是以导演为中心的创作主体失格。与此种状况对位,改革开放之初的八十年代被称为中国电影的“黄金时代”——理论指导下的话语革新、多代影人的同台登场、对话传统的美学探索、叩问现实的严肃题材……基于此,回到与当代同构八十年代社会文化
风险已经渗透在我们生活的方方面面,成为当代社会无法规避的重要议题。虽然风险的模糊性、复杂性、系统性无形中增加了治理的难度,但人类命运共同体从未停止过对风险治理的探索与实践。在中国情境中,政府作为风险治理的核心主体更是如此。中国共产党十九大报告将防范化解重大风险作为三大攻坚战之首提出,这标志风险治理正式成为国家治理体系的重要组成部分。信访制度是一项具有鲜明中国特色的民主政治制度,是社会矛盾的“晴雨表
在人们的日常生活或工作交往中,不可避免会出现语言表达方面的差异,也因此会造成误解。在当今国与国之间的交流日渐深入,各国人员交往密切,在政治、经济、外交、文化、学术交流等活动中也不可避免会出现误解现象。鉴于此,本论文尝试研究误解的形成和消解机制。研究问题如下:何为误解?误解是怎样产生的?误解的内在机制什么?本论文研究语料来自于长期生活在中国并与中国同事有密切合作关系的德籍人士的采访文本。本文旨在通过
在“十二五”阶段,我国出版业标准化工作高速发展,在标准化机构建设、标准制定数量、标准国际化程度等方面取得突破性进展。“十三五”阶段,国务院在《国家标准化体系建设发展规划(2016-2020年)》中提出我国要在2020年迈入世界标准强国行列,并在规划重点领域中明确提到出版。据国家新闻出版署公布的报告显示:截至2018年7月,出版业已成立5个标准化技术委员会,已发布归口单位为国家新闻出版署的国际标准3
我国的教育资源分布不均衡,东部地区比西部地区、城市学生比乡镇学生享有更好的教育资源,这一直是不争的事实。许多人认为,东部学生的平均英语水平要高于西部学生。本文旨在对比我国东西部乡镇同层次高中的学生英语写作能力的高低,探究其具体的差异以及差异产生的可能原因。从文献来看,学术界尚未有统一的英语写作能力模型。在对比两个比较有影响力的模型后,作者确定了本研究中英语写作能力的组成。国内有关高中生写作能力的实
2017年,木心的小说《豹变》出版,这本书以“短篇小说循环体”的身份进入读者的视线,但并未带来任何新的文本,而仅是把木心的十六篇已经出版的旧作重新排列,进而作为一本新书问世。《豹变》是木心将旧作进行重新整合的一次尝试,也打破了他一贯以来不注重体系、碎片化的创作特点,其中的整合过程、背后原因是值得探究的,这也是本文的行文线索。本论文以《豹变》为节点,总结了木心小说创作的特点转向。在创作前期,木心小说