基于图文数据与时间效应的微博用户兴趣挖掘研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tcjzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及社交网络的快速发展,微博信息更新速度爆炸增长,用户需要通过平台获取自己感兴趣的内容,然而庞大的信息流使用户面临“信息过载”的问题。基于这样的场景,分析挖掘用户的兴趣倾向,从而实现精准提供高质量、用户感兴趣的个性化信息及商业广告推送服务,对平台及用户都是行之有效的方法。在微博平台中,用户既存在长期的兴趣点,也会根据时间和当下流行事物的变化,产生短期的新生兴趣,而且随着互联网的发展,博文数据中呈现出文本短、条数多、图片占比大等现状。在以上所述环境下,充分利用数据特征,分析挖掘出用户当前兴趣倾向,具有很好的理论研究意义。首先对图文数据进行特征提取,然后提出一种基于Single-Pass的多阶段不完全聚类算法(multi-stage incomplete clustering based on Single-Pass,MIC-SP),解决了传统Single-Pass算法的时间代价高和次序依赖问题。之后对用户兴趣随时间变化的规律进行函数拟合,基于LDA主题建模方法的思想,对用户主题概率分布矩阵使用时间函数进行降维,最终提出一种基于图文数据与时间效应的微博用户兴趣挖掘算法(image-text co-occurrence data and time effect for microblog user interest mining,ICDTEMUIM),充分利用用户产生的图文数据,并根据兴趣变化的时间效应,计算出用户兴趣倾向概率。实验首先通过设计微博数据获取框架,获取真实数据作为实验数据集。然后对MIC-SP聚类算法与传统Single-Pass算法进行系统开销、聚簇结果进行对比;之后设置了预测准确率、漏测率、概率准确率、主题差异性四个评价指标,选择了已有相关研究的四种算法作为对照组,对ICDTE-MUIM算法挖掘效果和性能进行验证。经过多组实验对比分析,证明提出的挖掘方法对微博用户兴趣挖掘具有更精确的定位和更全面的覆盖,同时展现出较好的性能和效率。
其他文献
骨科疾病种类繁多、专业背景复杂,且极易出现漏诊误诊情况。基于医学图像处理关键技术的骨科疾病计算机辅助诊断系统能够利用二维、三维可视化方式定位显示病灶位置区域、测
数据缺失问题在实验研究过程中是普遍存在的问题.多协变量存在缺失数据的情况时常出现.如果仅仅忽略存在不完整信息的样本,可能会造成大量的信息丢失,甚至造成偏差.具有非单
目的基于人群资料比较肾部分切除术和肾根治性切除术在T1b-T2N0M0期肾细胞癌中的预后作用。方法从美国SEER(Surveillance,Epidemiology,and End Results)数据库搜集2004年到2015年T1b-T2N0M0肾细胞癌患者的资料。根据筛选标准建立分析数据集,将数据分为肾部分切除术组和肾根治性切除术组,根据术前接受肾部分切除术的倾向性进行倾向评分,肾部分切除术
伴随人工智能兴起的浪潮,机器学习和计算机视觉等领域也掀起了高涨的研究热情。随着人类对新兴领域的深入探索,70%以上的信息获取来自于视觉,那么图像拼接技术作为构成图像处
作为当代大数据背景下的新兴数据分析技术,可视化技术为数据分析的过程和结果提供一种直观明了的展示方式。空间数据可视化是信息可视化的重要组成部分,地图则是空间数据可视
随着时代的发展,世界人口爆炸式增长与人口老龄化所衍生出的一系列问题受到人们的重视,中老年人等特定人群的健康保健问题亟待解决。然而,传统的集中式医疗监控方法在对病患
供需失衡本身是一个中性的经济学概念,供给和需求总是在价格机制调节下不断向均衡状态收敛。然而,对配置效率和动态效率形成严重抑制作用的长期结构性供需失衡现象表明,我国的价格机制、竞争机制和产业进入退出机制仍存在制度性缺失和发展性障碍。当前我国制造业长期结构性供需失衡可以从高新技术产业和传统产业两个维度来分析,其中高新技术产业的供需失衡是发展性障碍造成的,主要表现为技术供给不足、过度进入、市场培养有限等;传统产业的供需失衡是制度性障碍造成的,主要表现为落后产能过剩、品牌效应不足等。为解决制造业长期结构性供需失衡
慢性阻塞性肺病、肺气肿、肺癌等肺部疾病严重威胁人类的健康和生命安全。肺功能定量评估对于肺部疾病诊断和治疗具有重要意义。基于肺部组织分割的肺功能评估系统能够对全肺
由于现代网络环境的复杂性以及多媒体数字产品的透明和易操作性,各种盗版、非法篡改、恶意传播越来越容易操作,严重危害了多媒体信息的安全。数字水印技术因其能解决以上问题,成为研究的热点。经奇异值分解得到的奇异矩阵,因稳定性强而被广泛应用到数字水印算法中。但目前,大多数的基于奇异值分解的数字水印算法存在一定的虚警率问题,且固定的嵌入因子不能同时兼顾不可见性和抵抗多种外界攻击。本文针对奇异值分解存在的虚警率
缓冲区溢出是一种非常普遍并且危险的漏洞,在各种操作系统和应用软件中广泛存在。利用缓冲区溢出攻击,可以导致程序运行失败、系统宕机、重新启动等后果。更为严重的情况可以