面向多领域的异构关系数据迁移学习界限研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ygp313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网发展的日新月异,中国网民的基数越来越大。数量庞大的网民活跃在各种网络平台,每时每刻都在生成大量的网络数据,可以对这些数据进行有效的挖掘分析,提高用户体验,也可以进行舆情监督,维护网络秩序。在大数据的环境下,数据更加多样化,且更新换代如此之快,难以满足传统机器学习需要充足已标记数据的条件。迁移学习可以应对这种困境,利用已有的其它领域的已标记数据,进行知识迁移,辅助模型训练。本文研究的是面向多领域的异构关系数据的迁移学习界限,数据形式的多样化导致领域异构,且现实中的数据大多都是关系数据,迁移学习界限研究为迁移学习效果提供理论依据,迁移多个领域的知识,可以提高模型效果。本文首先将异构域转换过程的损失考虑在内,总结了两种异构域转换方式,提出了转换复杂度来衡量转换函数的泛化能力,然后将前人提出的领域距离进行分解,将转换复杂度融入领域距离,得到新的领域距离公式,接下来再进行一系列推导得出基于异构关系数据的单源域迁移学习界限,之后将其拓展到基于异构关系数据的多源域迁移学习界限,最后对迁移学习的泛化界限进行了理论特性分析,验证其在理论上的合理性。本文将迁移学习应用于网络舆情数据集上的角色识别问题,观察迁移学习界限在其中的变化。首先给出了经验领域距离的计算方法,然后选择Markov逻辑网和贝叶斯逻辑网这两个关系型模型,作为基础模型,将迁移学习融入其中,给出了具体的建模过程,分别建立了基于Markov逻辑网角色识别迁移模型和基于贝叶斯逻辑网角色识别迁移模型。本文选取了新浪微博、网易新闻、天涯论坛和凯迪社区这四个网络平台的舆情数据,进行实验,首先计算四个领域两两之间的距离,然后选定新浪微博领域作目标域,使用充足得有标签数据得到模型,计算模型误差,接下来在选择一个或者多个源域进行对比实验,观察在变换源域或者改变相关参数的情况下,迁移学习界限的变化,分别在基于Markov逻辑网角色识别迁移模型和基于贝叶斯逻辑网角色识别迁移模型上进行实验,验证理论研究的合理性。
其他文献
基于对甘肃省民族地区782户农村居民入户调查数据,实证分析了收入、消费环境、消费观念以及人口学特征等因素对民族地区农村居民消费需求的影响.结果表明:家庭规模的增加会导
<正>税务筹划是指在遵循税收法规的前提下,纳税人对企业的组建、经营、投资及筹资等活动进行的旨在减轻税负,充分利用税法所提到的包括减免税在内的一切税收优惠,对多种纳税
逻辑思维能力测试的核心是逻辑推理和辨析能力,主要考察应试者能否把握事物的本质,思维的条理是否清晰,思维的过程是否敏捷和流畅,尤其是应试者有没有较强的辨析能力。
<正> 随着生态休闲旅游的不断升温,被誉为首都后花园的京郊怀柔县农民纷纷念起“旅游”经,吃起“旅游”饭,崛起了18个旅游经济村,这些旅游经济村人均收入都在5000元以上,比当
期刊
警务信息化,为更长时间段和更广地域内的案件并案侦查创造了条件,提供了更多依据,使之成为打击团伙流窜犯罪非常有效的侦查措施。
<正>上市公司已成为国民经济发展的主力军,是资本市场的重要组成部分。上市公司的优劣是资本市场能否健康发展的重要因素。特别是近年来,在全球经济环境和国家经济环境发生不
目的:分析18例药疹误诊为出疹性传染病的原因。方法:搜集我院近8年因误诊为出疹性传染病而住院的药疹病例18例,逐项统计整理。结果:1.麻疹是最易引起误诊的疾病。2.引起药疹
伴随"十二五"规划的收官,"十三五"规划编制成为各高校可持续发展的重要任务,然而规划编制近年来才受到部分高校重视,不利于实现高校综合治理。面对"十三五"时期发展环境、任
随着社会和经济的高速发展,生活节奏快、精神压力大引发了焦虑、易怒等“现代城市病”。在这种时代背景下,喜剧类综艺节目以其老少皆宜、轻松诙谐等优势,成为继歌唱选秀、婚