【摘 要】
:
用户画像是企业为了实现精准营销,通过对用户信息进行高度提炼,从而抽象出一个标签化的用户模型.而现阶段的用户画像方法大多采用有监督学习的方式,即通过对带标签的数据进行训练得出模型.利用带标签的数据进行训练得出的模型往往效果不错,但也存在着对训练样本进行打标签受到人的主观因素的影响,同时标注大量的数据样本又十分费时费力的问题.对此,我们希望通过无监督学习的方式训练模型,同时能够有效利用大量的有价值的未
论文部分内容阅读
用户画像是企业为了实现精准营销,通过对用户信息进行高度提炼,从而抽象出一个标签化的用户模型.而现阶段的用户画像方法大多采用有监督学习的方式,即通过对带标签的数据进行训练得出模型.利用带标签的数据进行训练得出的模型往往效果不错,但也存在着对训练样本进行打标签受到人的主观因素的影响,同时标注大量的数据样本又十分费时费力的问题.对此,我们希望通过无监督学习的方式训练模型,同时能够有效利用大量的有价值的未标注数据.传统的无监督学习的方式如朴素贝叶斯、聚类等是对文本处理的特征工程算法,其结果是对特征词进行提取从而得出词语的所属类别,但自然语言作为抽象的概念很难有效地进行明确划分.我们运用目前在无监督学习领域最火的生成对抗网络(Gans),先由生成网络对样本初始化一个联合概率分布,再由判别网络根据初始化分布对未标注数据进行判别,其结果用来更新生成网络.在二者的交替迭代中达成生成网络学习到样本的分布情况的效果,最终形成对每个词语的概率描述,同时该概率描述随着样本的增加不断变化,直到达到某一置信值为止.而现阶段的生成对抗网络仅体现了其在图像识别中发挥的巨大作用,而我们也希望通过这篇文章证明其在自然语言处理方面的作用.实验结果证明了其在用户画像中的性别画像中能够发挥较好的效果,性别画像可看作二分类问题,在多分类问题,如地域判断,实验的效果不如人工建立地方词库的效果.
其他文献
随着电子商务的发展,网购成为了人们生活中的重要组成部分.但网购中存在着严重的信息不对称问题,各大网购平台一般都会建立在线反馈系统,来帮助消费者更好地评估平台另一端的卖家.店铺半年内动态评分是淘宝网在线反馈系统中一个反映卖家信誉情况的重要指标,它由数字(绝对信用)和符号(相对信用)两部分组成.本研究主要从绝对信用和相对信用的角度出发,研究店铺动态评分中绝对信用(即数字)和相对信用(即符号)如何一起影
Structural holes theory is an important theory of social networks to conduct structural analysis.In this paper, on the basis of the three types of structures (DKSN, IKSN, and TKSN) of agile supply cha
以解释水平理论和调节定向理论为基础,通过混合设计的情境实验,探讨社会距离和调节定向在正面在线评论内容影响预订酒店意愿中的交互作用.结果显示,远社会距离评论者的正面在线评价描述主观体验时,消费者酒店预定意愿更强,且对促进定向的消费者更有影响;近社会距离评论者的正面在线评价描述客观属性时,消费者酒店预定意愿更强,且对预防定向消费者更有影响.
With the slowing-down of the global economy growth those years, the sharing economy, catalyzed by the information and communication technology development, is becoming a lucrative and attractive activ
Online takeout is increasing in popularity for consumers and restaurant owners.In this paper, we investigated the relationship between delivery time and customer satisfaction as well as the moderating
The positive effect of electronic of Word-of-Mouth (eWOM) on business performance has resulted in many e-commerce enterprises developing various incentives for encouraging existing customs to contribu
In this paper, BDM-NBI algorithm under Spark framework is proposed.It focuses on the analysis of a personalized recommendation algorithm that utilizes a weighted bipartite graph suitable for processin
为探索网络欺诈扩散影响因素及防治方法,在Lotka-Volterra模型的基础上建立了网络欺诈双边扩散模型,分别探讨了竞争系数、信息自然增长速率、初始状态等因素对扩散过程的影响作用.数理建模与仿真实验表明:网络欺诈扩散与竞争系数、信息自然增长速率和初始状态都相关,由此,提出了建立信息共享环境、多元参与机制等,以共享甄别信息的快速扩散和尽快抑制网络欺诈扩散并快速达到均衡.
User recommendation in mobile social network has become one of the most important channels for consumers to know and accept products.Existed studies mainly focused on explaining why users are willing
Reward-based crowdfunding provides an alternative fund-raising channel for innovative projects.The comments of backers and founder on crowdfunding projects could reveal their emotions.The emotions emb