基于深度学习的文本主题分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hakhid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,用户生成内容成为互联网的重要基石。针对用户生成内容的文本主题分类作为数据挖掘的基础工作,在内容检索和信息筛选中应用广泛。文本主题分类的核心问题可分为两部分:文本表示和分类模型。在自然语言处理领域,最常用的文本表示方法为词袋模型,该方法认为文档是无序词项的集合。由于丢弃了词序、语法等文档结构信息,并存在数据稀疏的问题,因此,早期基于该方法的文本分类研究,往往只能对特定语料带来性能提升,无法满足海量用户生成数据的需求。近年来,对文本分类问题的改进研究主要集中于深度学习方法。本文针对互联网生成内容进行了文本主题分类研究,使用分布式词向量对文本进行表示,使用卷积神经网络作为分类模型,具体工作如下:对分布式词向量表示方法进行研究与实验分析。本文分析了现有的词向量表示技术,包括随机正交词向量、基于上下文的word2vec词向量模型和基于“词-词”关联矩阵分解的GloVe词向量模型;并针对三种词向量模型在对词义建模过程中的不足,提出基于主题模型的topic2vec词向量表示方法。该方法在词的上下文空间中融入了全局文档主题信息,克服了此前三种词向量模型无法获取全局文档信息的问题。本文通过词项的语义特征对比实验和文本分类实验对不同词向量的性能进行评估,实验结果表明,通过topic2vec训练词向量,较现有的词向量表示技术,有显著的提升。基于卷积神经网络对中文文本分类模型进行研究与实验分析。本文研究了卷积神经网络在中文文本分类问题中的应用,并选取具有代表性的互联网用户内容生成社区“知乎”作为中文语料,以不同的分布式词向量表示方法作为模型的输入,对其进行分类实验与分析。实验结果表明,利用topic2vec词向量表示的卷积神经网络,在长内容文本和短标题文本的分类问题中较已知词向量模型均有显著提高。
其他文献
丝氨酸羟甲基转移酶(SHMT)在植物应答逆境胁迫中发挥着重要作用。本研究以坛紫菜(Pyropia haitanensis)为研究材料,采用普通PCR技术克隆得到2条坛紫菜的SHMT全长基因序列,分
目的:分析北沙参挥发油的化学成分。方法:采用水蒸气蒸馏法提北沙参挥发油,用气相色谱-质谱联用法分析鉴定其化学成分,并应用面积归一法测定各成分的相对百分含量。结果:水蒸
<正>目的:观察推拿手法配合中药熏洗法治疗桡骨茎突狭窄性腱鞘炎的临床疗效。方法:将60例患者随机法分为两组,观察组采用推拿配合中药熏洗治疗;对照组采用局部封闭治疗;观察
会议
研制了含荧光色素、光稳定剂、有机颜料、矿物填料的聚乙烯薄膜,进行了农田扣棚覆盖作物应用试验.
习主席指出:“现代战争的时空特性发生重大变化,多维战场空间融为一体,战略、战役、战术行动界限趋于模糊,时间要素不断升值,战争进入发现即摧毁的‘秒杀’时代。”战争节奏的深刻
以油酸钠为捕收剂,研究钛铁矿与钛辉石表面离子的溶出行为,并考察加入与脱除Ca2+对钛铁矿和钛辉石浮选行为的影响。研究结果表明:在浮选体系中加入Ca2+,对钛铁矿的浮选影响不大,
风湿免疫性疾病患者大多处于异常的免疫状态,尤其是长期口服激素和免疫抑制别的患者,其免疫功能更为低下。因此,他们对于病毒的抵抗力较正常人群弱,而且一旦感染,病情也更不
报纸
本文通过对商务英语语言文化特点的解析,明确了商务英语术语、句型结构以及文体的基本特征,并运用尤金&#183;奈达的对等翻译理论,立足于目标读者,针对商务英语的具体特点,从词汇上
本文分析了目前大学英语专业阅读阶段的教学现状,论述了加强专业阅读教学的必要性并提出加强专业英语教学从而提高教学质量的具体措施。
本文主要探讨了钱君匋的书籍装帧艺术历程,并对其书籍装帧设计风格进行了简要分析。从求学时期对艺术满怀着憧憬,到工作及创业时期将书籍装帧艺术付诸实践,再到历史变革进入