基于Wikipedia语料扩展的短文本数据流分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:shaoyuqi521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络等领域产生了海量的短文本数据流,一方面,由于短文本自身长度短,语义信息不足,带来文本的高维稀疏问题,同时流环境下的短文本数据又隐含概念漂移等特点,导致传统的文本分类方法难以直接应用。另一方面,随着短文本数据的快速产生,人工标注所有短文本数据不仅费时费力,且几乎是不可能完成,因此,如何在少量的有标签短文本数据的情况下,充分利用丰富的无标签短文本数据提升分类精度也是一大挑战。针对以上问题,本文对短文本数据流分类算法进行了研究,其主要工作如下:(1)概述已有的短文本分类的相关工作,包括:有监督短文本与短文本数据流分类方法、半监督短文本分类方法以及半监督数据流分类方法。(2)针对短文本数据流存在的特征高维稀疏以及概念漂移问题,提出一种基于文本扩展和概念漂移检测的短文本数据流分类算法。该方法首先从Wikipedia获取外部语料用于扩展短文本,同时借助在线BTM模型(Online Biterm Topic Model)选择代表性主题表示短文本,从而解决短文本的高维稀疏问题;其次,为检测短文本数据流中的概念漂移问题,提出一种基于主题的概念漂移检测算法;最后,该方法基于数据块构建集成模型,同时根据概念漂移检测结果利用当前数据块更新集成模型。实验结果表明:该方法在短文本数据流分类精度上表现优异,所提的概念漂移检测算法具有良好的检测性能。(3)针对大量类标签数据缺失问题,提出一种基于标签传播的半监督短文本数据流分类算法。首先,从Wikipedia中获取外部语料,并借助Word2Vec模型训练获得原始词向量集合用于短文本数据的向量化表示,以解决短文本数据流的特征高维稀疏问题。其次,分别针对有标签和无标签数据构建分类器与聚类器形成集成模型,并采用基于簇相似度的方法传递聚类簇间的标签信息为其打上标签。同时,为了适应概念漂移,提出一种基于聚类簇的概念漂移检测机制。实验结果表明该方法能有效处理带缺失标签和概念漂移的短文本数据流分类问题。
其他文献
<正>本项目是有机水果包装工厂的一栋建筑。设计要求建筑的形象也要体现有机的概念,能让人联想到干净、无农药的农作物。在前工业时代,建筑都是由非批量生产的材料建造的,也
目的对快速康复外科理念在骨科全麻术后患者麻醉复苏期的护理效果进行研究。方法将我院收治的110例全身麻醉骨科手术患者作为研究对象,随机将其分为观察组和对照组,给予对照
目的莲威阿纳其颗粒中5种成分的一测多评含量测定方法的建立。方法采用高效液相色谱法,色谱柱Inertsil ODS-3(5μm,4.6mm&#215;250mm),流速1.0mL/min,检测波长270nm,柱温30℃,
传统的轴系安装方法是先在船台安装轴系,后下水通过调整主机位置进行轴系对中安装.大连造船厂承造的某型船舶由于其动力系统结构复杂,设备及管路舾装周期很长.为确保总船的建
村上春树的短篇小说《第七个男人》在其作品贯有的"丧失与恢复"的表层叙事下,隐藏了父子关系这一"审父"叙事。本文通过对《第七个男人》暗藏的"从父——反父——离父——寻父"这一
自新课程标准实施以来,数学教学方式实现了快速转变。其中,面向学习成绩差异较大的全体学生而采取分层教学的具体方案在各中学逐渐形成,以增强学生学习目的性和积极主动性。
语法教学在英语学习中一直是不可忽视的内容,是英语表达的基础,通常高校的英语教学也一直沿用的是以前的教学方法,即"复习—讲解新知识—练习—总结—布置作业",教学方法缺乏创
学科阅读在音乐教学中有着独特的魅力和优势,它改变了原有的枯燥讲解,调动了学生主动学习的兴趣,丰富了课堂教学的形式,使得课堂变得更为丰满。学科阅读如同一座桥梁,助力学
<正>近年来,随着全球经济一体化的浪潮不断推进,中国与周边国家开展了一系列的多样化创新性的经济与贸易合作。其中,2013年由中国提出的共建"一带一路"倡议得到了周边国家的
随着无人机技术的发展,自主空中加油已经成为衡量无人机性能的一项重要指标。实现无人机自主空中加油技术,可以有效提高无人机的航程和航时,扩大无人机的使用范围。在自主空