用户画像系统的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhaoxin1987212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能各式产品的诞生,用户的行为数据在广度、深度以及精度上都有很大的变化,数据成为一种重要的资源。用户数据在简单统计查询层面上的技术已经比较成熟,现在倾向于利用深度学习、机器学习等人工智能相关技术对数据进行深入理解和探索。用户画像是通过对用户数据深度挖掘,得到用户的标签。商家可以依据画像全面了解用户分布,提供个性化的服务,提升产品的用户体验,并且用户画像可以为一些决策提供事实支撑。所以众多商业智能系统中用户画像必不可少。相较于以往研究者和相关从业者基于简单查询统计的方法构建用户画像,本文依据企业实际业务需求,应用大数据机器学习模型完成人口属性标签的构建,创新性地将深度学习模型引入了用户兴趣标签的构建。本文首先采集用户的APP行为或文本数据,然后从数据仓库清洗原始数据、抽取训练样本,人口属性标签选取的量级是253万,其中性别标签的用户量级27万,学历标签量级226万,兴趣标签中负样本60931,正样本110388。然后在人口属性标签的分类预测中,用到了APP行为数据,对比了不同特征构建方法和LR、SVM模型分别对结果的影响,在兴趣标签的意图识别上,用到了文本数据,对比了目前NLP领域最流行的几种深度模型Bert、Transformer、Bi-LSTM+Attention和CNN的效果。最后结果表明,对于人口属性标签构建,特征使用app名称的索引值映射为0或1,样本采样比例设为1.0,模型选择逻辑回归+L2正则地效果最好,年龄预测的整体准确率可以达到85.2%,学历预测的整体准确率可以达到74.5%。对于兴趣标签的构建,经过预训练得到的Bert模型在下游分类任务中的确有很大优势,能准确的判断用户意图,兴趣标签预测的准确率达到99.0%。
其他文献
本实验采用改变电路中R、C的值,比较RC与T的大小关系,并观察波形的渐变情况,研究将方波信号转换成三角波信号对电路参数的要求和构成积分电路的条件。
文章根据基层植物检疫工作人员、工作流程、工作条件等为主,分析了县级基层植物检疫工作中存在的问题,本着加强基层植物检疫工作的原则,针对性地提出了解决问题的措施。
本文应用免疫组织化学技术研究了大鼠三叉神经尾侧亚核(Vc)内代谢型谷氨酸受体7亚型(mGluR7)、磷酸激活的谷氨酰胺酶(PAG)和谷氨酸(Glu)免疫阳性神经元的定位.结果显示mGluR7
加强节约型军队建设,是军队贯彻和落实党中央、国务院建设节约型社会的要求,具有时代意义。从资源稀缺性角度探讨建设节约型军队的经济学要义,可以为建设节约型军队提供一个
GATT1994第4条是WTO规则体系中唯一一条直接涉及文化产品贸易待遇的条款,其对于文化产品特殊性的认定,国内配额措施背离于多边贸易规则之禁止数量限制原则并在特定条件下例外
在远程教育和大学教育等领域中,在线答疑系统已经成为重要的构成部分之一。在设计答疑系统的过程中,需要从学生的角度出发,按照课程逻辑结构对学生可能提出的问题进行归纳整理,并
金佛山方竹种子萌发后,接种5个不同丛枝菌根(AM)真菌菌株,测定方竹苗的菌根侵染率、生物量和部分生理指标。结果表明:接种不同菌株,根系菌根侵染率不同,A.c>BEG-141≥Sc.c≥F
目的 探讨健康教育对社区原发性高血压患者服药依从性的影响。方法 352例原发性高血压患者随机分为对照组和观察组,对照组给予常规治疗,观察组在对照组基础上给予健康教育,6
19世纪中后期,自然资源价值核算(Value accounting)开始在一些国家受到关注.经过近一个世纪的研究和发展,到20世纪七八十年代,资源价值核算开始受到普遍重视.联合国在世界环
目的探讨肝脏血管瘤术后并发症的危险因素。方法回顾性分析47例手术治疗肝脏血管瘤的临床资料,术后发生并发症的12例患者为研究组,未发生并发症的35例患者为对照组。采用单因