【摘 要】
:
随着5G时代的逐步到来,互联网行业正酝酿着一轮新的爆发。与此同时,承载人们表达愿望的微博社交平台也发展迅猛。用户在微博平台上留下了丰富的个人信息和海量的个人动态,并且这些数据都是用户的自发行为,具有极高的可信度和多样性。通过对用户产生的这些多样性数据进行收集、整合、分析,可以做到尽可能全面、准确地描绘用户画像。本文主要从微博平台中收集用户数据,分析和挖掘用户特征,构建一个较为完整的用户画像。针对常
论文部分内容阅读
随着5G时代的逐步到来,互联网行业正酝酿着一轮新的爆发。与此同时,承载人们表达愿望的微博社交平台也发展迅猛。用户在微博平台上留下了丰富的个人信息和海量的个人动态,并且这些数据都是用户的自发行为,具有极高的可信度和多样性。通过对用户产生的这些多样性数据进行收集、整合、分析,可以做到尽可能全面、准确地描绘用户画像。本文主要从微博平台中收集用户数据,分析和挖掘用户特征,构建一个较为完整的用户画像。针对常见用户画像构建过程中标签模型与画像生成相分离的问题,本文利用标签生成与画像生成相融合的方法,提出了基于WBC融合的用户画像生成模型,相比于两者分离的方法进一步提高了用户画像的准确率。本文的主要工作如下:1.基于爬虫技术收集用户在微博平台上的所有相关数据,利用自动登录、构建账号池和代理IP池技术,实现每日百万级的数据收集模块,并通过聚类算法和数据清洗等数据预处理技术,构建和维护一个规则整齐、真实可用的用户信息数据集。2.基于主题挖掘模型对已完成预处理的文本进行建模得到所有潜在的用户兴趣,并且对数据收集模块收集到的微博用户自定义兴趣标签的进行数理统计分析,提出二者相结合的方法来构建一个较为全面的标签模型。3.利用用户数据集和标签模型,提出基于WBC融合的用户画像生成模型,实现同时保留词粒度特征和文本粒度特征的目标,并且将用户画像构建过程中的标签模型与画像生成进行融合,从而进一步提高用户画像的准确性。4.设计并实现用户画像系统,包括用户管理及各具体功能的可视化操作等,并且对系统的响应时间、可靠性和安全性方面进行了针对性设计。
其他文献
2015年3月15日十二届全国人大三次会议通过了《关于修改的决定》,这是立法法自2000年制定以来的首次修改。此次立法法修改最大的亮点无疑是普遍赋予设区的市地方立法权,这使
视频目标跟踪是指在仅给定待跟踪目标初始帧目标框的情况下,通过一系列视觉方法提取到目标的特征,并在视频后续帧中自动地得到目标的位置和大小。近年来,基于孪生网络的目标跟踪算法在精度和速度指标上达到了很好的均衡,成为目标跟踪领域的主流研究方向。现有的基于孪生网络的目标跟踪算法主要研究的是任意通用场景下的任意目标的跟踪问题,然而在实际场景中,由于光照的存在,跟踪精度往往会受到目标产生的阴影的影响。此外,这
在减灾救灾过程中,如何在公共利益和个人利益之间、在人身自由和公共安全之间、在突发事件处置和平常秩序维护之间寻求平衡,不仅是政府制定有关法律法规的关键,更是对政府的
丙酮酸激酶(pyruvate kinase)是人类糖酵解过程中最后一步的关键限速酶,研究表明其M2构型在癌细胞中过表达并受游离丝氨酸的别构调控,与此同时该酶的活性还受果糖-1,6-二磷酸
近些年,我国对外直接投资加速发展,国际投资竞争力也在不断提高,中国对外直接投资排名已跃居世界前列。2003年,我国的对外直接投资总额为334亿美元,其中在东盟地区的OFDI占总额的比例为1.76%。相比2003年,2017年我国的对外直接投资总额已增长到18090.4亿美元,且中国在东盟地区的投资占总额的比重增加到4.9%。而值得注意的是,由于东盟国家间日益频繁的经贸往来,使得第三方效应因素对中国
如今,科技进步导致网上的信息数据成倍增加,这给用户对于大量信息的选择造成了麻烦。推荐系统的出现缓解了这个麻烦。面对繁多的信息和数据,它能够实现帮助用户筛选自己感兴趣的信息,摆脱大量数据对用户造成的困扰。然而,虽然推荐系统的出现带来便利,但是传统的协同过滤推荐算法由于严重的依赖用户外在行为信息而暴露了很多安全漏洞,一些不良商家通过注入大量有偏见的用户评分来人为的控制推荐结果,这种行为即为托攻击。托攻
阅读是学习者获取知识的主要途径之一。良好的理解能力能使读者从阅读材料中获得更多的信息。然而,当今英语阅读课堂中存在许多严重的问题。传统的阅读教学模式非但不能提高
原甲藻是典型的赤潮甲藻,对海洋生态环境有着重要的影响,因此一直引起人们的关注。同时它的代谢产物种类多样且具有很好的生物活性,其代表产物冈田软海绵酸(okadaic acid,OA)及其衍生物鳍藻毒素(dinophysistoxin-1,DTX-1)是导致腹泻性贝毒(diarrheic shellfish poisoning,DSP)的主要组分,通过在海产品中的积累会直接影响到人们的健康,并且可能会
随着移动通信技术与智能终端的不断发展,网络数据流量呈指数型增长,计算需求越来越大。移动边缘计算(MEC,Mobile Edge Computing)技术可以改善本地计算资源短缺现状,满足大计算量需求。然而随着应用场景的不断丰富,有限的MEC计算资源将无法满足进一步增长的计算需求,借助D2D(Device-to-Device)通信将任务卸载给邻近设备可以解决MEC资源有限的问题。因此,本文研究了如何
为了实现足够高的空间分辨率,地球静止轨道综合孔径载荷需要大量的天线阵元,每一个天线后面都需要连接一个接收通道,这增加了载荷的重量和体积。延时相关的综合孔径辐射计可以大大减少通道数量,有效降低系统的复杂度,为解决星上载荷过重,体积过大的问题提供了一种可行的解决方案。论文主要从实验上验证延时相关综合孔径辐射测量原理,实验过程中,取得了如下研究成果:1、对延时相关的综合孔径辐射测量的原理和方法进行了理论