基于多样化文本表示的文本分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yyaizy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域一项非常重要的基础工作,在学术界与产业界均得到广泛的应用与研究。提升文本表示质量是改进文本分类的重要途径。文本是由字或字符构成词,由词构成短语,再由短语构成句、段、节、章、篇等。机器学习算法无法对文本直接进行处理,需要转化成特定的格式作为机器学习模型的输入。文本表示是将文本数字化的过程,将文本表示成机器学习模型可以识别的实数向量或矩阵的形式。文本表示的核心是真实地反映文本内容的同时,对不同的文本保持区分度。文本数据包含多样化的内容特征,如主题、语言风格、情感倾向等。每个内容特征分别包含文本不同的关键信息点。当前的文本表示方法,如向量空间模型、主题模型、词向量模型等,均只生成单一的文本表示。使用单一的文本特征还原具有多样化内容特征的文本信息,会削弱文本不同内容特征的特征描述,不利于还原文本的真实内容。针对该问题,本文提出一种新的文本表示方式方法,即多样化文本表示。本文认为,使用多样化的内容特征,可以增强特征提取的能力,更好的还原文本的真实信息。多样化文本表示是一种使用无监督学习强化特征提取的方法,其关键在于如何获取多样化的文本表示。本文提出了如下三种解决方案:1.Alter K-Means模型。Alter k-Means模型可以生成多组、差异较大的聚类,每个聚类对应一组表示向量。聚类的差异性将在下文中进行详细描述。每个聚类的一组表示向量作为基底,将样本映射到新的特征空间当中,通过捕获样本在新的特征空间当中的位置信息,强化对样本的特征提取。2.Alter LDA模型。Alter LDA模型是对主题模型LDA的泛化。可以生成多组、差异较大的主题结构,捕获文本在不同主题结构下的特征表示。Alter LDA模型使用“主题-词”分布描述文本的主题结构,使用“文档-主题”分布作为样本的特征表示,主题结构的差异将使用KL散度进行度量。3.横向多样化文本表示模型。横向多样化文本表示模型使用不同的文本表示模型,分别挖掘文本数据中不同的内容特征,生成差异较大、包含不同特征信息的文本表示。实验结果表明,多样化文本表示可以提升文本分类的效果。同时,多样化文本表示相较于已有的文本表示方法有着明显的降维效果。
其他文献
光电化学(PEC)传感器是基于纳米功能材料的光电转换性能发展起来的一种分析检测方法。近年来,PEC适配体传感器因其装置简易、成本低、灵敏度高,而且巧妙结合适配体靶向识别特性
路基是道路的承重部分,承受着道路上部过往车辆及其自重的荷载,路基的稳定性如果降低,道路上部结构将会受到影响,为道路埋下安全隐患。若路基失稳,道路上部结构也就无法继续
近年来,针对图像去噪问题提出了很多网络去噪框架,经深度学习方法处理后的图像质量高于优于传统的去噪模型。但是,基于深度学习算法的缺点尚未找到解决办法,如不可解释性和不
手势识别是计算机领域中一个重要且具有挑战性的研究课题,同时作为人机交互的重要组成部分,其发展影响着人机交互的自然性和灵活性。然而,传统手势识别方案以彩色及深度图像
信息化战争背景下,现代雷达不仅能够提供目标的位置和速度信息,还能对目标进行成像获取目标的几何和姿态信息,雷达自动目标识别技术也随之产生。其中,由于我国复杂的海洋争端
由于车辆数目的快速增长,边缘缓存的技术获得了广泛关注。车辆和路侧单元作为网络边缘节点,为其他节点提供数据存储、计算和低延迟无线连接,避免了从核心网获取缓存内容带来
在海洋工程领域,自主式水下航行器(Autonomous Underwater Vehicle,AUV)是实现海洋科学调查、海洋目标监测、深水探查、和海下油气勘探的重要工具。AUV的运动控制技术是其完
随着“十三五”时期的到来,跨区域重大工程项目的需求日益增长,对于区域经济社会发展的重要性也日渐凸显。跨区域重大工程项目是跨越多个省级行政区域,对区域经济乃至整个国
事件抽取是信息抽取中一项重要的技术,该技术可以追溯到上个世纪80年代,随着大数据时代的到来以及自然语言处理技术的迅猛发展,事件抽取逐渐流行起来。事件抽取系统可以帮助
近几年,随着部队抢险救灾任务越来越频繁,救灾物资运输和保障任务日趋繁重。以往的应急救援物资工作模式陈旧,主要依靠大量的手工方式进行作业,不仅效率低下,而且经常会在清