【摘 要】
:
随着互联网的快速发展,随之出现了大量的微博、商品评论信息,这些信息往往带有一定的感情色彩,反应了人们对社会、经济等事件的关注;对这些信息进行分析挖掘对消费者、生产者
论文部分内容阅读
随着互联网的快速发展,随之出现了大量的微博、商品评论信息,这些信息往往带有一定的感情色彩,反应了人们对社会、经济等事件的关注;对这些信息进行分析挖掘对消费者、生产者及政府部门显得日益重要。然而这些数据具有数据量大、产生速度快、数据分布差异性大及标签信息大量缺失等特点,给当前的数据挖掘工作带来了巨大的挑战。本文针对在线环境下数据分布差异性大及标签信息大量缺失等问题展开研究并探讨其对于数据量大及产生速快的在线环境的适应性,主要工作如下:(1)首先对跨领域情感分类及数据流挖掘进行了总体的概述,主要包括其发展背景及意义、相关理论、研究现状及在线环境下面临的挑战。(2)针对数据标签信息大量缺失及分布差异性大等问题,提出了一种基于词向量特征聚类的跨领域情感分类方法(PTWE)。该方法利用词向量对数据进行向量化,基于词向量在两个领域的相似性来区分共享特征集与专有特征集并形成特征簇,最后利用共有特征簇进行极性传递。实验表明了方法的有效性。(3)针对在线环境下,已有的数据流分类方法对标签大量缺失及概念漂移适应性较差等问题,提出一种在线跨领域自适应分类方法(SAOC),该方法以一个标记数据块作为起始数据块,提取数据块间的共有特征集,基于特征的相似度进行概念漂移检测,并利用共有特征作为桥梁来进行极性传递。实验表明算法在分类精度上的优越性,尤其在标记信息较少和概念漂移较为频繁时。
其他文献
随着万维网(World Wide Web)上越来越多的多媒体数据的出现,从它们中挖掘信息在互联网应用技术中显得越来越重要。注意到互联网上目前已经存在着大量带标注的文本信息,考虑到
随着人们对快速、准确地获取信息的需求,问答系统以其能用准确、简洁的自然语言回答用户的问题而备受研究人员的关注。随着Internet技术的发展,互联网上存在着大量的在线论坛
有色Petri网作为一类特殊的Petri网模型语言,特别适用于并发、同步和资源共享起主要作用的系统。它结合了一般Petri网过程互操作特性和高级程序语言的数据类型定义及数据处理
随着行业内文本数据的不断积累,如教育、财经、餐饮、旅游等领域拥有大量的doc、pdf等格式的非结构或半结构化的数据。同结构化的数据管理相比,这些非结构或半结构化的数据管
信息隐藏技术是一门关于信息隐藏的技巧与科学,所谓信息隐藏指的是不让指定的接收者之外的任何人意识到信息的传递事件或者信息的内容。隐写分析主要是针对图像、视频、声音
随着科学技术的高速发展以及信息量的急速膨胀,在大规模科学计算可视化、计算机支持的协同工作、军事仿真、工程设计、遥感、指挥、会展行业和数字影院等诸多领域,人们对显示
网格计算环境下,由于资源的异构性、动态性、自治性以及网格任务的多样性,任务调度一直就是网格计算的重要环节。因此,任务调度算法的效率决定着网格计算的效率,调度算法的设
信息抽取是解决从海量Web页面中提取有价值的信息和知识的重要技术手段,而页面结构特征的挖掘和提取是信息抽取过程的关键步骤。然而,已有的页面结构挖掘方法大多数依赖于启
随着计算机处理能力和存储能力提高,视频数据的采集和存储越来越容易,视频也广泛的应用到了人们生活的各个方面,通过网络分享各种视频使得网络上的视频数据量急剧增加,监控视频作
在经济全球化趋势下,越来越多的企业开始在不同区域内创办分支机构。为了满足办公信息化的需要,企业经常会基于广域网的传输通道建立集中化的数据、信息服务中心。因此,广域