面向模糊文本分类的文本表示模型研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:dudu123abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息网络的高速发展,文本信息呈现着指数级别的增长,而文本挖掘技术则能够很好地帮助人们去处理这些海量的文本信息,其中文本自动分类技术可以自动化地帮助人们完成文本分类任务。但是文本内容多种多样,对类别相差较远的文本进行分类时,单纯使用主题模型来表示文本就可以达到较高的分类准确度,而对于类别相近的模糊文本,由于不同类别的模糊文本间共享大部分主题,使用原始主题模型无法有效地完成分类任务。这是因为主题模型只考虑了主题级别这类高级信息,没有考虑到底层的词语间隐含的信息,多数主题内的信息复杂、中心不明确。因此本文通过分析类别模糊的文本在主题模型上的表现,并结合词向量模型提出了两个文本表示模型r-LSA_vec与s-LDA_vec,对类别模糊的文本进行分类研究。论文内容主要包括如下几个部分:(1)使用潜在语义分析模型与潜在狄利克雷分布模型对模糊文本与普通文本进行建模分析,并对文本的主题分布矩阵进行降维,使用三维视图来直观分析模糊文本与普通文本在主题模型上的区别。(2)重构潜在语义分析模型中的语义空间,将语义空间中的主题映射到word2vec词向量空间内,计算文本与各个主题的距离,并将计算结果作为最终的文本表示模型r-LSA_vec,使得文本表示模型中既包含利于分类的主题信息,又包含基础的词语信息。(3)根据不同类别文本在潜在狄利克雷分布模型中主题内的分布来选择利于分类的主题信息,并将主题映射到word2vec词向量空间中,在词向量空间中计算文本与各个主题的距离并将计算结果作为最终的文本表示模型s-LDA_vec,使得模型中包含利于分类的主题信息与基础的词语信息。(4)使用r-LSA_vec模型与s-LDA_vec模型以及目前流行的文本表示模型来表示模糊文本与普通文本,进行分类实验来验证本文提出模型的有效性与鲁棒性。论文验证了r-LSA_vec模型与s-LDA_vec模型对于模糊文本分类更加有效。相较于其他方法,这两个模型能够很好的避免冗余信息对分类的干扰,并且对于普通文本的分类任务也有较好的表现。
其他文献
薄壁柔性管铰链是一种可用于航空航天的新型可展开结构,具有结构简单、展开可信度高、驱动性能好以及自我锁定强等优点。管铰链的正常展开直接关系到航空器运行性能与航天任务的成败,因此对其工作时的力学性能研究至关重要。与此同时,随着航空航天任务对可展结构性能要求的不断提高,具有比强度、比刚度大的复合材料在航空航天任务中得到较好地应用。然而复合材料属于脆性材料,在其应用于管铰链展开结构后,受到弯曲折叠载荷过程
马克思主义与道德的关系是当代道德理论研究的热门话题,西方马克思主义者围绕着这一问题展开了激烈争论,并因此形成马克思主义道德论与非(反)道德论截然对立的两大阵营,凯·尼尔森属于马克思主义道德论的重要代表。尼尔森认为,必须立足于历史唯物主义研究马克思主义道德问题,实现历史唯物主义、意识形态和道德的内在统一。他由此批判了“经济决定论”,将历史唯物主义看作关于时代社会变迁的科学理论,要求从道德社会学视角研
分布式发电在电力领域变得非常重要,是传统电力供应的一个很好替代品。在因电力紧缺而电价很高的国家(例如塞拉利昂),光伏(PV)发电的配电网低压接入已受到了极大的关注。本论文开展PV接入低压馈线的影响及其优化配置研究,论文的主要工作和内容如下:讨论了 PV的最大功率跟踪控制策略,给出了 PV拟接入馈线的典型系统拓扑结构和低压配电馈线所有参数。基此,建立了相应的塞拉利昂国家典型馈线和PV接入的PSCAD
钯(Pd)作为铂族金属(PGMs),是天然存在的具有良好物理化学性能的化学元素。但它在高科技领域及汽车制造行业中,是一种不可或缺的关键性材料,尤其是在航海、航天、航空、核能等中。而且钯属于一种较为珍贵的投资品种,因为在国际贵金属投资市场上占据及其重要地位,加上市场需求高,导致钯的商业价值提高。因此,从二次来源回收PGMS,如废弃的电气设备和失活催化剂所以对于钯离子的回收方面,具有重要的意义。本课题
二十世纪末以来,我国人大选举过程中暴露出大量的舞弊问题。在该问题的解决过程中,现实和理论都反映出对人大选举舞弊行为的认识有待于进一步加强,法律在解决人大选举舞弊问
固体燃料一直是电力生产中的主要供应能源之一,但这些固体燃料的大量使用带来了大气污染、温室效应等一系列环境问题。如何更加清洁、高效地使用固体燃料也因此成为人们关注的焦点。微观单颗粒燃料的燃烧特性是深入理解电厂锅炉中宏观煤粉燃烧的基础。考虑到目前对单颗粒固体燃料的研究多为定性研究的现状,本文用可视化测量方法获得单颗粒烟煤在管式沉降炉中的燃烧图像,而后着重运用图像处理技术进行深入的煤颗粒燃烧特性定量分析
随着社会经济不断发展,人类逐渐迈入体验经济时代。消费者在消费商品时,从注重产品功能价值逐渐转移到情感价值。就服务业而言,消费者消费的对象是服务,更加看重服务过程的情
数学家霍普夫在研究李群拓扑性质的时候,引入了 Hopf代数的概念.域K上的Hopf代数是同时具有K-代数结构和K-余代数结构并满足一定相容条件的代数系统.Drinfeld在其上引入了拟三角结构,它提供了量子Yang-Baxter方程的解.另一方面,代数的自同构群反映了代数结构的对称性,对理解代数结构具有重要的作用.Hopf代数的拟三角性以及它的自同构群是Hopf代数的研究内容之一,也是研究Hopf
随着计算机和互联网技术的快速发展,通信技术已经成为人们生活中不可或缺的一部分,比如手机通信、网上视频聊天等人机交互。而语音通信,作为人们之间交流最自然、有效、便捷的方式,成为通信领域中一个重要的研究方向。但是,在实际的通信过程中,语音信号不可避免地会受到各种噪声的干扰,比如车内噪声、工厂内的机械噪声、超市内人的说话声等等,这样严重影响了通信的质量,因此语音增强应运而生。语音增强是提高噪声场景语音质
动力电池作为电动汽车的主要动力来源,其安全性和可靠性一直是厂家和消费者关注的焦点,对动力电池健康状态进行有效地监控和预测可以提高电池系统的可靠性和行车安全性,因此