论文部分内容阅读
随着互联网的发展,特别是移动互联网和社会化媒体的普及,实际应用中需要处理的数据样本,不再是单独存在的个体,而是与其它数据样本相互依赖。这种存在相互依赖关系的数据样本集合,被称为关系网络数据。如在微博应用中,用户与用户相互关注,构成了一个以微博用户为节点,关注关系为边的关系网络数据。对关系网络数据中的样本进行分类时,有效利用样本间的依赖关系能提高分类精度。如相互关注的微博用户倾向于有相似的兴趣爱好,存在超链接关系的网页倾向于有相似的主题。关系网络数据的分类问题也被称为协同分类问题。近十年来,国内外研究人员对协同分类问题进行大量的研究并提出很多能利用关系提高分类精度的算法。然而在实际应用中,要构建大量的训练样本,成本非常高,会耗费大量的人力和物力。于是在训练样本稀少的情况下,如何利用大量测试样本进行半监督协同分类成为近几年的研究热点。本文研究了关系网络数据的半监督分类问题并提出一些解决方法。主要工作包括:(1)将关系网络数据的半监督分类问题分解成三个核心子问题:基于内容属性的半监督分类问题、关系的类标传递能力的学习问题和内容属性与关系信息的结合问题。(2)提出一个强同质关系网络生成方法,在训练样本稀少情况下,将弱同质关系网络转换成强同质关系网络,解决弱同质关系网络数据中关系的类标传递能力的学习问题。(3)提出一个网络正则化生成模型,解决强同质关系网络数据的半监督协同分类问题。网络正则化生成模型构建了一个基于概率隐含语义分析(PLSA)的生成模型,并引入网络正则化因子,将半监督协同分类问题转化成全局最优化问题。同时本文使用了期望最大化算法,通过最大化网络正则化生成模型的目标函数,训练模型参数并预测测试样本的类标。在三个基准数据集上的实验结果表明,本文提出的网络正则化生成模型显著优于其它前沿协同分类算法。