融合社交媒体内容与行为数据的用户画像技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:hengheng5251984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展产生了大量的网络数据,为了帮助用户对网络信息进行筛选和过滤,并提升用户体验和用户满意度,需要对用户进行用户画像。用户画像(User Profiling)是根据用户在网络上所表达的内容和行为等信息对用户特征进行的刻画描述。简言之,用户画像就是对用户信息的标签化。标签是分析用户信息而产生的精准提炼的特征标识。在互联网中,用户信息主要有两个方面,其一是用户所产生的社交媒体内容数据,包含用户在各种网络社交媒体发布的文字信息。其二是用户的社交媒体行为数据,即用户在网络社交媒体中产生的一些互动行为信息。为了更好地实现用户信息的标签化,本文利用用户在社交媒体上发布的内容数据和产生的行为数据来完成两个用户画像任务:(1)基于分类的用户内容主题词自动抽取。使用了有监督的学习方式,将主题词自动抽取看作一个二分类问题。使用候选词识别技术中的非受控抽词方法结合基于N-gram的候选词识别技术进行候选词筛选。根据文档集选择合适的特征,使用支持向量机模型训练得到分类器。其中,特征向量的生成使用了加权特征集合的方法。特征集合是指一组可变数量的元素特征的组合。(2)基于改进词共现度和行为云的用户兴趣标签标注。将用户在社交网站上发布的所有内容数据聚合成一个伪内容文档集合,使用相对文档集频率和逆文档集频率两个抽取因素进行候选词筛选。由候选词表中词与词之间的共现度构成表达用户主题思想的连通图,并从中提取用户的伪内容文档集合主题词。由用户的行为数据生成用户行为相关用户表,根据用户行为相关用户表以及用户的伪内容文档集合主题词,得到行为云表示的用户兴趣标签。实验结果表明,通过训练加权特征集合得到的特征向量,可以训练出使内容主题词自动抽取性能明显提高的模型。该模型相比元素特征训练得到的模型更有优势。相比传统词共现度的方法,使用改进后的词共现度抽取得到的伪内容文档集合主题词,结合行为数据产生的用户兴趣标签,取得了较高的正确率。同时,在文本数据的可视化方面,使用行为云表示用户兴趣标签较传统的统计方法具有明显优势。
其他文献
为解决停车换乘(park-and-ride,P&R)停车位不足的问题,通过对北京市亦庄开发区2处停车设施进行停车调查及对出行者的停车换乘行为进行RP&SP调查,对P&R停车位不足下P&R的需求
社会主义核心价值体系融入大学生思想政治教育全过程,其意义在于满足了社会主义意识形态建设和大学生思想政治教育发展的双重需求;本质在于坚持社会主义核心价值体系在大学生
随着中国经济的发展 ,韩国对华投资在中韩两国经济交流中发挥着越来越重要的作用。韩资企业的特点是以中小企业为主的、集中于制造业的小规模投资。目前 ,韩资企业还存在着对
随着经济的发展,企业面临的市场竞争压力在不断的提升,这对于企业的发展而言非常的不利,企业在激烈的市场竞争面前想要获得发展更加需要不断地努力。企业财务管理是企业内部
邻苯二甲酸酯类化合物(phthalate acid esters,PAEs)是一类重要的环境内分泌干扰物,在人群中广泛、持续暴露,对雄性动物的胚胎和生殖系统发育以及生殖功能等具有潜在的生殖毒
<正>课堂回放《猫》教学实录(节选)一、品味语言,把握感情师:同是小猫,在"我"和家人看来却有天壤之别,接下来请男同学自由诵读文章叙述第一、第二只小猫的内容,女同学自由诵
期刊
基于人地关系视角,对东北地区资源型城市发展路径及演化机理进行了研究.结果表明:东北地区资源型城市发展路径演化经历了四个阶段,由恶化逐渐趋于缓和;城市产业结构、职能、
<正>一进入"十二五",经济腾飞的中国,大步迈上了社会建设的新征程。党中央审时度势,提出了加强和创新社会管理的重大战略任务。这一战略任务,事关党的执政地位的巩固、事关国
一、ERP系统的优势 ERP系统(即企业资源计划)是指建立在现代计算机网络技术基础上,以全新的系统化的管理思想,为企业所有者及经营管理人员进行决策管理的平台。系统包括管理ERP
综述了国内外社区压疮的预防的进展情况,包括从成立专业机构或压疮专业小组、压疮风险评估、护士和照顾者的培训以及其它一些干预方式等方面进行社区压疮的预防,认为社区医院