多源异构数据的跨域关联方法研究及应用

来源 :电子科技大学 | 被引量 : 8次 | 上传用户：myna5726

【摘要】

：

随着移动网络和大数据时代的到来,用户参与的网络活动越来越多,其一切行为逐渐被数字化记录,导致整个网络的数据形态和来源变得越来越丰富。虽然基于单一数据流的用户建模已

【作者】

：

郭馨蔚

【出处】

：

电子科技大学

【发表日期】

：

2016年01期

【关键词】

：

跨域关联用户建模多源异构最小哈希倒排索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动网络和大数据时代的到来,用户参与的网络活动越来越多,其一切行为逐渐被数字化记录,导致整个网络的数据形态和来源变得越来越丰富。虽然基于单一数据流的用户建模已有成熟的研究方法,但多源异构数据的急剧增长,给用户建模带来了更大的挑战,单一数据流已经很难全面刻画用户的多元化特征,难于进行精准的用户建模。多源异构数据融合研究将会产生更大的价值,多源异构数据的跨域关联研究已成为一个新的研究趋势。目前,大多数用户跨域关联是通过计算相似度来判断两者是否存在关联关系,这将导致海量数据下的关联并不精确,不能很好地解决大规模数据下的关联问题。因此,本文针对该领域存在的上述问题,首先对社交网络中的用户建模方法展开研究,然后建立跨域关联模型,最后研究了大规模数据下的跨域关联挖掘方法。具体工作内容如下:(1)跨域关联建模:本文首先分析了社交网络中多源异构数据的存在形式,从用户属性信息、用户生成内容、用户行为轨迹以及结构关系四个方面挖掘用户的行为模式,构建用户特征向量。在此基础上建立基于一对一匹配的跨域关联模型,该模型先采用无监督的方法获得用户相似度,将其作为连边的权重,然后利用基于贪心的匹配算法来得到一对一匹配结果。实验表明一对一匹配模型的F1值可以达到90%,高于单纯的有监督或无监督方法的结果。(2)大规模数据下的跨域关联挖掘:本文提出了两种模型,一个是基于最小哈希的跨域关联模型,该模型首先对用户标签集合做hash降维映射,然后利用一对一匹配算法进行用户关联;第二个是基于倒排索引的跨域关联模型,该模型先筛选出可能相似的用户对作为候选集合,然后再进行用户关联。实验表明,基于最小哈希的跨域关联模型的F1值可以达到89%,优于基于倒排索引的方法。说明基于最小哈希的方法不仅可以提高时间和空间的效率,而且精度几乎没有损失。上述工作可以较好地解决大规模数据下的跨域关联问题,本文进一步的工作是研究基于标签语义的跨域关联方法,以及将基于最小哈希的跨域关联模型应用于分布式环境中。

其他文献

基于海绵城市理念的武汉既有小区道路改造研究

基于海绵城市建设理念,分析在武汉的气候背景下既有小区的道路存在的问题,然后利用低影响开发的思路,对小区现有的道路施行海绵改造措施,使小区经过改造后变得更宜居。

期刊

海绵城市既有小区道路改造sponge cityexisting communityroad reconstruction

卡贝缩宫素防治产后出血的临床效果观察

目的探讨卡贝缩宫素用于预防有产后出血高危因素的产妇及治疗宫缩乏力所致早期产后出血的疗效。方法选择160例有产后出血高危因素孕妇及产后出血达到300 ml仍有活动性出血的

期刊

卡贝缩宫素预防治疗产后出血

卡贝缩宫素预防产后出血的临床效果研究

目的:探讨卡贝缩宫素预防产后出血的临床效果。方法:选取该院接收治疗的具有产后出血高危因素的产妇80例,采用随机法将患者分为40例观察组患者与40例对照组患者。对照组患者

期刊