论文部分内容阅读
伴随互联网发展的日新月异,中国网民的基数越来越大。数量庞大的网民活跃在各种网络平台,每时每刻都在生成大量的网络数据,可以对这些数据进行有效的挖掘分析,提高用户体验,也可以进行舆情监督,维护网络秩序。在大数据的环境下,数据更加多样化,且更新换代如此之快,难以满足传统机器学习需要充足已标记数据的条件。迁移学习可以应对这种困境,利用已有的其它领域的已标记数据,进行知识迁移,辅助模型训练。本文研究的是面向多领域的异构关系数据的迁移学习界限,数据形式的多样化导致领域异构,且现实中的数据大多都是关系数据,迁移学习界限研究为迁移学习效果提供理论依据,迁移多个领域的知识,可以提高模型效果。本文首先将异构域转换过程的损失考虑在内,总结了两种异构域转换方式,提出了转换复杂度来衡量转换函数的泛化能力,然后将前人提出的领域距离进行分解,将转换复杂度融入领域距离,得到新的领域距离公式,接下来再进行一系列推导得出基于异构关系数据的单源域迁移学习界限,之后将其拓展到基于异构关系数据的多源域迁移学习界限,最后对迁移学习的泛化界限进行了理论特性分析,验证其在理论上的合理性。本文将迁移学习应用于网络舆情数据集上的角色识别问题,观察迁移学习界限在其中的变化。首先给出了经验领域距离的计算方法,然后选择Markov逻辑网和贝叶斯逻辑网这两个关系型模型,作为基础模型,将迁移学习融入其中,给出了具体的建模过程,分别建立了基于Markov逻辑网角色识别迁移模型和基于贝叶斯逻辑网角色识别迁移模型。本文选取了新浪微博、网易新闻、天涯论坛和凯迪社区这四个网络平台的舆情数据,进行实验,首先计算四个领域两两之间的距离,然后选定新浪微博领域作目标域,使用充足得有标签数据得到模型,计算模型误差,接下来在选择一个或者多个源域进行对比实验,观察在变换源域或者改变相关参数的情况下,迁移学习界限的变化,分别在基于Markov逻辑网角色识别迁移模型和基于贝叶斯逻辑网角色识别迁移模型上进行实验,验证理论研究的合理性。