【摘 要】
:
随着互联网与社交网络的飞速发展,类似搜索新闻、微博等社交平台每天会产生海量的短文本数据流。与静态数据不同,这些短文本数据流具有文本长度短、包含的信息量少,快速、海
论文部分内容阅读
随着互联网与社交网络的飞速发展,类似搜索新闻、微博等社交平台每天会产生海量的短文本数据流。与静态数据不同,这些短文本数据流具有文本长度短、包含的信息量少,快速、海量以及隐含概念漂移、新类凸现等特点,使得短文本数据流的分类工作面临巨大的挑战。如何挖掘这些数据流中蕴含着的有价值的知识成为短文本数据流分类的重要任务。本文旨在针对短文本数据流存在的特征高维稀疏、概念漂移与新类凸现问题开展分类方法研究,主要工作包括:(1)针对短文本数据流的特征稀疏与概念漂移问题,本文提出一种基于Probase外部语料库特征扩展的短文本数据流分类方法。该方法利用了由Web文档自动构建的外部语义网络Probase,同时,该方法基于增量式的集成模型。首先,根据外部语义网络,引入更多地语义信息用于扩展短文本以弥补文本稀疏问题;同时,通过语义信息消除文本中实体的歧义性以降低噪声的影响。最后,提出基于聚类簇信息的概念漂移检测方法。大量实验表明:与经典数据流概念漂移检测算法相比,所提方法能够有效检测概念漂移;同时,与经典短文本分类算法相比,能够提高短文本分类的精度。(2)针对短文本数据的特征高维与新类凸现问题,提出一种基于特征选择与新类凸现检测的短文本数据流分类方法。在基于Probase外部语料库特征扩展的基础上,该方法通过最大相关最小冗余方法(MRMR)将无关联和冗余的特征去除,得到新的最优子特征空间实现特征降维。最后,引入一种新标签检测方法用于检测短文本数据流中的凸现新类。实验结果表明:所提方法对短文数据流中新出现的标签能有效进行检测,同时提高了分类精度。
其他文献
纽约大都会博物馆收藏的三件西周早期云纹编钟,应属中原地区周文化系统编钟,其产地可能在周朝王畿范围。继西周早期三件组合的云纹编钟之后,出现了四件和五件组合的编钟。中国南
工业蛋白酶制剂成分复杂,对皮内结构蛋白的作用难以控制,容易造成皮的粒面损伤。用Superdex 75 prep grade凝胶过滤色谱对几种碱性和中性蛋白酶制剂的组分进行分离纯化,得到
采用基于罚函数思想的约束处理技术改进鸽群智能算法,应用于复杂的带约束的飞行器轨迹优化问题。以高超声速飞行器爬升段轨迹优化为例,建立其包含微分方程约束、路径约束和终
为克服保加利亚乳杆菌不耐酸的缺点,建立制备保加利亚乳杆菌微胶囊的方法。本研究以海藻酸钠和壳聚糖复合包埋保加利亚乳杆菌,通过单因素试验和正交试验,确定了制备微胶囊的最佳
在明确DBD放电反应器工作原理的基础上,讨论放电功率的几种测量方法的优缺点,其中包括功率表法、瞬时功率曲线法和电压/电荷利萨如图形法,介绍了基于PC的放电功率在线测量系
我国是农业发展大国,农业的发展直接关系到经济发展、社会稳定等重要问题。如今我国国民经济飞速发展,“农业+企业”强强联手,也取得一定的成就,但是仍然存在着一些问题,严重影响
为了解决分拣搬运机器人在路径规划过程中,遇到目标点众多的情况时存在路径寻优效率低、容易出错等问题;针对A*算法存在多个最小值时,无法实现路径最优化的问题进行研究,提出
古往今来人们对快乐的追求都是一致的,体育教学也同样如此。快乐教学由来已久,在不断地实施中已然取得了显著的成效,本文借助"快乐体育"精神,通过为学生塑造诸多快乐的元素,
随着工业化和城镇化的快速发展,CO2等温室气体的大量排放带来的全球极端气候问题越来越严重,而城市是全球温室气体排放的重要源头,因此建设低碳城市是发展低碳经济的重要手段。
高速铁路在勘测设计、施工、运营维护阶段均需进行多项测量工作,介绍了高速铁路工程测量的主要内容,分析了高速铁路 CORS建设的必要性,提出了高速铁路 CORS建设的具体方案,指出了