社交媒体中基于用户兴趣的跨域数据挖掘研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:leneyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的广泛普及和用户规模的急剧扩张,数据呈爆炸式增长趋势。用户难以从海量数据中提取出有用信息。同时,为了更好地享受不同类型的服务,用户往往与多个社交媒体交互,产生的数据也呈现跨域(即跨社交媒体)分布特点并且相互关联。传统的数据挖掘方法主要针对单域进行设计,由于忽略了其他域的数据,这些方法深受数据稀疏性困扰。跨域数据挖掘方法通过聚合不同域中的碎片化数据,不仅能够弥补单域中缺失的信息,还可以更全面地挖掘社交媒体数据的价值。现有的跨域数据挖掘方法主要基于单一类型的数据或简化跨域信息间的关联以实现跨域联合挖掘,面对实际应用中跨域数据呈现出的异质性、匿名化和动态性的特点导致的信息间关联更加复杂的情况,将难以适用。用户兴趣实际上是用户产生数据的内在驱动。建模用户兴趣有助于社交媒体应用完整描述跨域信息间的复杂关联,实现跨域数据的全面融合。因此,在社交媒体中研究基于用户兴趣的跨域数据挖掘新方法,不仅能够有效应对跨域数据的异质性、匿名化和动态性带来的挑战,而且对于推动跨域数据挖掘的实际应用具有重要意义。论文的选题来源于北京市教委共建项目子课题“基于大数据的异构信息网络的信息传播及演化机理研究”和“基于社交感知和跨媒体计算的社会公共安全事件分析与预测研究”。围绕实际的跨域应用场景中面临的由跨域数据异质性、匿名化和动态性带来的影响跨域数据挖掘性能提升的关键问题,论文研究社交媒体中基于用户兴趣的跨域数据挖掘新方法,通过建模用户兴趣,挖掘跨域数据间复杂关联,以提升跨域数据挖掘方法的性能,同时也为跨域数据挖掘研究的实际应用奠定了基础。论文具体研究工作及成果如下:(1)针对跨域数据异质性导致跨域信息间关联交错复杂的问题,研究了异质跨域数据下基于用户兴趣的跨域用户身份识别方法。为了统一捕捉来自异质特征空间的跨域信息间的关联,提出了一种基于链接异质网络嵌入的跨域用户身份识别方法。该方法设计了链接异质网络来描述复杂的跨域信息间关联,并通过在同一兴趣空间中联合捕捉网络内和网络间的基于内容主题关系和基于社交关系的用户兴趣信息,以实现异质数据的融合,从而学习到跨域用户兴趣的完整统一表示。同时,设计基于负采样的联合训练算法来交替训练异质关系,以进一步提升模型的性能和训练效率。实验结果表明,所提方法的性能与假设不同类型的跨域信息相互独立的方法相比性能至少提升19%,证明通过充分挖掘不同类型跨域信息间的关联可以有效提升跨域用户身份识别的准确性。(2)针对跨域数据匿名化导致跨域信息间关联缺失不足的问题,研究了匿名跨域数据下基于用户兴趣的跨域推荐方法。由于用户匿名时只能获得少量行为数据,为了补充缺失的关联信息,提出了一种基于跨域异质关系嵌入的跨域推荐方法。首先利用双聚类算法挖掘基于类别的域间链接以补充域间关联。然后通过联合嵌入项目-项目和项目-类别的跨域异质关系,进一步丰富跨域信息间的关联,最终联合跨域碎片化信息获得跨域兴趣的完整表示。另外,通过设计基于异质关系的联合训练算法来高效地优化和训练模型。实验结果表明,在信息缺失50%且用户匿名的情况下,所提方法的推荐性能相比于传统的针对匿名用户的单域推荐和跨域推荐方法至少提升11%,证明了通过全面挖掘隐藏的跨域关联,可以很好地弥补缺失的跨域信息以提升推荐性能。(3)针对跨域数据动态性导致跨域信息间具有复杂动态关联的问题,研究了动态跨域数据下基于用户兴趣的跨域推荐方法。首先对于不同域信息的跨域全局动态变化和单域内局部动态变化存在差异性的问题,提出了一种基于多层循环神经网络的跨域推荐方法,以联合建模用户兴趣的跨域全局演化模式和在单域中的局部动态模式,实现了用户兴趣信息间动态关联的全面捕捉。其次,针对在捕捉跨域信息的动态变化时会损失掉部分单域行为间链接的问题,设计了一种基于跨域循环-门控神经网络的跨域推荐方法,从完整建模长期和短期跨域兴趣的角度出发,在捕捉用户兴趣的跨域全局演化模式和单域局部动态模式的同时,有效重建断开的单域行为间的链接。实验结果表明,所提的两个方法比其他基于动态数据的单域推荐和跨域推荐方法的性能至少提升8%,证明通过准确捕捉跨域信息间的动态关联可以有效提升推荐性能。
其他文献
目的:了解低档暗娼艾滋病感染情况及其影响因素.方法:对571名低档暗娼进行问卷调查,收集社会人口学资料、艾滋病相关知识、性行为等信息并进行采血检测.结果:571名低档暗娼中的
目的 探讨青年脑梗死患者TOAST分型特点,以寻求最佳防治方案.方法 选取青年(<45岁)脑梗死80例和老年脑梗死(>65岁)120例,比较两组一般情况、危险因素、梗死分型等.结果 高血
医院是应对突发公共卫生事件的关键机构,医院突发公共卫生事件应对能力评价是提高医院应对能力的重要措施。数字化医院是医院发展的必然趋势,但目前尚缺乏数字化医院突发公共卫
高校扩招之后,高职学生成为一个庞大的群体,思想政治教育效果不佳已是不争的事实,因此,建设一支高素质的辅导员队伍,是新时期加强思想政治工作的根本保证.应从辅导员队伍建设
目的对在肝移植术后血管并发症中超声造影、术中超声的应用情况进行探究分析。方法超声造影法对CDFI检查疑有肝动脉、门静脉及下腔静脉狭窄或血栓形成的20例患者进行病症检查
上海市青浦区于2009年开始引入并着手实施"户籍医生制"社区卫生服务模式,户籍医生以村庄为责任区,以农民家庭为服务单位,以村卫生室及健康俱乐部为服务平台,在村委干部、健康管
讲述了复合射孔技术的基本原理,对井筒内的压力和火药燃气破裂地层的作用时间做了理论上的分析和试验研究,为复合射孔技术的进一步完善提供了基础资料.
浅水湖泊沉积物有机质累积和内源释放问题已引起广泛关注。区别于缓慢的自然沉积过程,富营养条件下,湖泊藻类和水生高等植物碎屑经过快速搬运、堆积沉积形成的藻积层特征、物