多源异构数据的跨域关联方法研究及应用

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:myna5726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动网络和大数据时代的到来,用户参与的网络活动越来越多,其一切行为逐渐被数字化记录,导致整个网络的数据形态和来源变得越来越丰富。虽然基于单一数据流的用户建模已有成熟的研究方法,但多源异构数据的急剧增长,给用户建模带来了更大的挑战,单一数据流已经很难全面刻画用户的多元化特征,难于进行精准的用户建模。多源异构数据融合研究将会产生更大的价值,多源异构数据的跨域关联研究已成为一个新的研究趋势。目前,大多数用户跨域关联是通过计算相似度来判断两者是否存在关联关系,这将导致海量数据下的关联并不精确,不能很好地解决大规模数据下的关联问题。因此,本文针对该领域存在的上述问题,首先对社交网络中的用户建模方法展开研究,然后建立跨域关联模型,最后研究了大规模数据下的跨域关联挖掘方法。具体工作内容如下:(1)跨域关联建模:本文首先分析了社交网络中多源异构数据的存在形式,从用户属性信息、用户生成内容、用户行为轨迹以及结构关系四个方面挖掘用户的行为模式,构建用户特征向量。在此基础上建立基于一对一匹配的跨域关联模型,该模型先采用无监督的方法获得用户相似度,将其作为连边的权重,然后利用基于贪心的匹配算法来得到一对一匹配结果。实验表明一对一匹配模型的F1值可以达到90%,高于单纯的有监督或无监督方法的结果。(2)大规模数据下的跨域关联挖掘:本文提出了两种模型,一个是基于最小哈希的跨域关联模型,该模型首先对用户标签集合做hash降维映射,然后利用一对一匹配算法进行用户关联;第二个是基于倒排索引的跨域关联模型,该模型先筛选出可能相似的用户对作为候选集合,然后再进行用户关联。实验表明,基于最小哈希的跨域关联模型的F1值可以达到89%,优于基于倒排索引的方法。说明基于最小哈希的方法不仅可以提高时间和空间的效率,而且精度几乎没有损失。上述工作可以较好地解决大规模数据下的跨域关联问题,本文进一步的工作是研究基于标签语义的跨域关联方法,以及将基于最小哈希的跨域关联模型应用于分布式环境中。
其他文献
基于海绵城市建设理念,分析在武汉的气候背景下既有小区的道路存在的问题,然后利用低影响开发的思路,对小区现有的道路施行海绵改造措施,使小区经过改造后变得更宜居。
目的探讨卡贝缩宫素用于预防有产后出血高危因素的产妇及治疗宫缩乏力所致早期产后出血的疗效。方法选择160例有产后出血高危因素孕妇及产后出血达到300 ml仍有活动性出血的
就业是最大的民生,今年的高校毕业生面临着前所未有的复杂严峻的就业形势。学院层面上应认真贯彻落实学校党委、行政决策部署,主动作为,凝心聚力,为毕业生提供全方位、多角度
目的:探讨卡贝缩宫素预防产后出血的临床效果。方法:选取该院接收治疗的具有产后出血高危因素的产妇80例,采用随机法将患者分为40例观察组患者与40例对照组患者。对照组患者
无线遥感技术是一种利用无线遥控器来发送特殊指令,从而达到控 制起重机运行的手段,着重加强并做好起重机无线遥控技术的应用研究 工作,其不仅可以克服并解决有线遥控当中所
夕阳西下,落日的余晖斑驳地洒在小区的石桌上。我慢慢地欣赏这美景。突然,我发现一只小麻雀站在石桌上,东啄啄、西跳跳,十分可爱。这只小麻雀眼睛很黑,乌溜溜地打着转,跟一颗
对某城市道路设计中可液化粉砂层路基进行咬合水泥搅拌桩地基处理(路基加固及管沟基坑止水止土),在地下水位较高的情况下完成管沟的开挖及回填,保证路基承载力、控制路面沉降
目的检测IL-17和IL-38在TNBC患者中的表达,并探讨他们在其发病中可能存在的作用。方法选择2017年11月—2019年3月空军军医大学第一附属医院就诊的71例乳腺癌患者为研究对象,
目的分析解放军总医院第二医学中心(以下简称“我院”)2018—2020年急诊老年患者疾病谱与10年前疾病谱的变化趋势,为改进急救工作、提高急救水平提供参考。方法选取2018年1月
通过对CA 1111 K2L2型载货车车架断裂情况的分析,阐述了车架设计中应注意的事项。