关系网络数据的半监督分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:owenming521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,特别是移动互联网和社会化媒体的普及,实际应用中需要处理的数据样本,不再是单独存在的个体,而是与其它数据样本相互依赖。这种存在相互依赖关系的数据样本集合,被称为关系网络数据。如在微博应用中,用户与用户相互关注,构成了一个以微博用户为节点,关注关系为边的关系网络数据。对关系网络数据中的样本进行分类时,有效利用样本间的依赖关系能提高分类精度。如相互关注的微博用户倾向于有相似的兴趣爱好,存在超链接关系的网页倾向于有相似的主题。关系网络数据的分类问题也被称为协同分类问题。近十年来,国内外研究人员对协同分类问题进行大量的研究并提出很多能利用关系提高分类精度的算法。然而在实际应用中,要构建大量的训练样本,成本非常高,会耗费大量的人力和物力。于是在训练样本稀少的情况下,如何利用大量测试样本进行半监督协同分类成为近几年的研究热点。本文研究了关系网络数据的半监督分类问题并提出一些解决方法。主要工作包括:(1)将关系网络数据的半监督分类问题分解成三个核心子问题:基于内容属性的半监督分类问题、关系的类标传递能力的学习问题和内容属性与关系信息的结合问题。(2)提出一个强同质关系网络生成方法,在训练样本稀少情况下,将弱同质关系网络转换成强同质关系网络,解决弱同质关系网络数据中关系的类标传递能力的学习问题。(3)提出一个网络正则化生成模型,解决强同质关系网络数据的半监督协同分类问题。网络正则化生成模型构建了一个基于概率隐含语义分析(PLSA)的生成模型,并引入网络正则化因子,将半监督协同分类问题转化成全局最优化问题。同时本文使用了期望最大化算法,通过最大化网络正则化生成模型的目标函数,训练模型参数并预测测试样本的类标。在三个基准数据集上的实验结果表明,本文提出的网络正则化生成模型显著优于其它前沿协同分类算法。
其他文献
当采用实视图来提高OLAP系统效率时,由于实视图往往并不恰巧是一个完整的格节点,即实视图是多维数据切片(MRFs),所以系统中会出现大量有重叠数据的实视图,这不仅占用了过多的存储
本文在研究CORBA和SOAP以及XML等相关技术的基础上,以OMG的CORBA集成规范为基础,在客户层、Web层、业务逻辑层和服务层四层开发框架下,构建了以SOAP/XML-ORB转换模块为核心的SOA
本文结合实际项目,在详细研究系统市场需求、技术以及测试现状、测试过程管理的基础上,以设计与测试作为研究课题,针对以上三个方面的问题进行改进,并在信令监测和与短信网关
首先,综述了各种航班需求预测方法,对简单均值法、简单指数平滑法、回归法、增量法做了分析、比较,增量法在准确性、时间复杂度、鲁棒性、可扩展性等方面都具有比较好的结果;提出
网格计算是近年来兴起的一个研究热点,它发展了最初元计算的概念,旨在使互联网上的各种资源实现全面共享与协同,使整个因特网整合成一台巨大的“超级计算机”。网格资源主要具有
现有的应用于疾病检测的电子鼻系统,虽然对于疾病的检测有一定的效果,但是因为它是通用设备,并没有考虑到疾病检测的特殊性和针对性,因此准确率还有待提高。本课题提出一种传感器
20世纪末,全球信息化浪潮此起彼伏。计算机技术和Internet的迅猛发展为企业实现内部资源的共享和协同提供了技术保障,使得企业准确及时的集成所有信息并加以处理,建立智能化的管
计算机从最初的电子管计算机到现在的超大规模集成电路计算机,短短数十年时间已经跨越了四代,在计算机技术飞跃发展的今天,人们利用计算机进行计算分析、信息存储、分布处理,计算
本文详细介绍了基于层次规范的嵌入式B/S模型—OIM模型,层次规范模型使得我们可以灵活装配规范。但我们同时也指出,其实质是利用商业竞争的成果来约束模型的使用,只有基于成
随着Internet的发展,群体之间的远程交互协作变得日益重要,人们希望能够借助于计算机和网络技术,彼此之间相互协调共同协同完成一项工作任务。计算机支持的协同工作(Computor