【摘 要】
:
随着互联网的不断发展,微博、电商、新闻媒体等主流应用中涌现了大量的文本数据流且其中的概念漂移也出现了新的特点:如快速,频繁、多样。而传统的概念漂移检测方法多基于分
论文部分内容阅读
随着互联网的不断发展,微博、电商、新闻媒体等主流应用中涌现了大量的文本数据流且其中的概念漂移也出现了新的特点:如快速,频繁、多样。而传统的概念漂移检测方法多基于分类错误率的变化,基于概念漂移导致的分类错误率上升的现象进行概念漂移检测难以适用文本数据流中的概念漂移。为此,本文面向文本数据流,针对其中的概念漂移检测工作开展研究,主要内容如下:(1)介绍了概念漂移的定义、分类,并按照数据流自身的分布特点,从监督、无监督或半监督两个种类分别介绍了传统的概念漂移分类检测方法。(2)针对传统概念漂移检测方法难以适用于复杂多变的文本数据流的问题,从概念漂移的诱因进行了分析和归纳,提出一种基于诱因的概念漂移分类方法,并在此基础上提出了对应的三层概念漂移检测模型。该方法分别从标签空间、特征空间以及特征和标签的映射关系三个层次进行概念漂移检测。实验结果表明该检测方法基于对比算法在概念漂移检测准确程度以及分类精度上的提高,尤其是在文本数据流上效果显著。(3)针对文本数据中频繁存在的漂移现象带来的概念有效信息量不足的问题,引入了LDA模型,提出了一种基于语义的概念漂移检测方法SSCD(Semantic Similarity Concept Detection),利用相邻数据块的语义信息弥补概念有效数据样本不足的缺陷,基于词和主题两个特征空间的语义相似度检测概念漂移。实验结果表明该算法可以有效提升文本数据流中的概念漂移检测效果,尤其是在概念漂移频繁程度较高时可以显著减少漏检数量。
其他文献
随着信息技术的迅猛发展,金融科技与新兴业态不断冲击着商业银行,客户线上化进程速度加快,传统的商业银行普遍面临着严峻的发展挑战。而此时,商业银行个人金融业务正处于重要的机遇发展期。从经济大背景看,国内宏观经济长期向好,居民收入与家庭财富快速增长,国民消费不断升级;从个人金融业务本身来看,对银行缓解资本约束压力、分散业务经营风险、平滑经济周期波动均有着显著影响。因此,商业银行实施数字化转型成为新时期提
如今,互联网技术得到了空前的发展和普及,计算机科学也日渐成熟,企业的办公方式也越来越趋向于信息化、自动化、网络化。但部分企业在人事的管理上,还停留在通过手工处理的层
当前我国经济社会面普遍面临经济下行的压力,随着法律制度和市场监管体系的日益完善,金融领域的管理也日益规范化。新背景之下,商业银行对公贷款的比重也日益降低,商业银行被迫进行业务结构的调整,零售业务也就成了各家银行在新经济形势下促进利润增长、降低经营成本的主要途径。于是,转向零售业务发展已经成为大多数银行的新战略,这也是在利率市场化背景下各大商业银行不得已的选择。目前无论是大型股份制银行还是一些小型银
数字信息化时代,多媒体是信息传递的重要载体和现代化发展的动力,广泛应用于生产和生活当中。一般地,主要包括两大研究领域,分别为数据库存储系统与计算机视觉技术。计算机存
通信设备企业作为高新技术产业中的代表性企业,其技术变革的速度非常迅速。为了提高自身技术水平和技术创新能力,通信设备企业更多地选择与其他有竞争性的企业构建技术联盟作
多目标跟踪自提出以来,涌现了诸多经典目标跟踪算法,诸如卡尔曼滤波、粒子滤波等经典目标跟踪算法都有着较好的滤波性能,目前已经被广泛应用于军事,民用等诸多领域。但由于经
随着经济的发展,科技的进步,大跨度空间钢结构在工程中应用越来越广泛。利用其轻质高强的性质,越来越多的大跨度、大空间的复杂结构形式不断出现。然而,伴随着优越性能的同时,是复杂的施工过程和对其工程质量更高的要求。一旦结构在施工建造、拼装焊接的过程中发生破坏甚至倒塌,将会造成巨大的经济损失,甚至会对人身安全造成威胁。为了保证结构施工过程安全可靠,大跨钢结构多采用地面拼装,整体顶升的施工工艺,因此,保证顶
随着互联网的飞速发展,图像数量呈爆炸式增长。针对海量图像进行分类和管理已经成为新的研究热点,其目标是将特定的图像归类到某一特定的语义类别之中。近年来,视觉词袋模型
情感的理解和表达是人类进行交流活动的重要手段。随着人工智能等领域的快速发展,智能化的人机交互需要满足用户与机器之间的“自然”交互,而达到“自然”交互的关键是让机器
FCM算法的有效性很大程度上局限于类内紧致、类间较好分离以及球状的星团,虽然可以采用映射非线性数据到高维特征空间来解决这个问题,然而在高维特征空间里面,对于核的选择有