论文部分内容阅读
互联网的发展产生了大量的网络数据,为了帮助用户对网络信息进行筛选和过滤,并提升用户体验和用户满意度,需要对用户进行用户画像。用户画像(User Profiling)是根据用户在网络上所表达的内容和行为等信息对用户特征进行的刻画描述。简言之,用户画像就是对用户信息的标签化。标签是分析用户信息而产生的精准提炼的特征标识。在互联网中,用户信息主要有两个方面,其一是用户所产生的社交媒体内容数据,包含用户在各种网络社交媒体发布的文字信息。其二是用户的社交媒体行为数据,即用户在网络社交媒体中产生的一些互动行为信息。为了更好地实现用户信息的标签化,本文利用用户在社交媒体上发布的内容数据和产生的行为数据来完成两个用户画像任务:(1)基于分类的用户内容主题词自动抽取。使用了有监督的学习方式,将主题词自动抽取看作一个二分类问题。使用候选词识别技术中的非受控抽词方法结合基于N-gram的候选词识别技术进行候选词筛选。根据文档集选择合适的特征,使用支持向量机模型训练得到分类器。其中,特征向量的生成使用了加权特征集合的方法。特征集合是指一组可变数量的元素特征的组合。(2)基于改进词共现度和行为云的用户兴趣标签标注。将用户在社交网站上发布的所有内容数据聚合成一个伪内容文档集合,使用相对文档集频率和逆文档集频率两个抽取因素进行候选词筛选。由候选词表中词与词之间的共现度构成表达用户主题思想的连通图,并从中提取用户的伪内容文档集合主题词。由用户的行为数据生成用户行为相关用户表,根据用户行为相关用户表以及用户的伪内容文档集合主题词,得到行为云表示的用户兴趣标签。实验结果表明,通过训练加权特征集合得到的特征向量,可以训练出使内容主题词自动抽取性能明显提高的模型。该模型相比元素特征训练得到的模型更有优势。相比传统词共现度的方法,使用改进后的词共现度抽取得到的伪内容文档集合主题词,结合行为数据产生的用户兴趣标签,取得了较高的正确率。同时,在文本数据的可视化方面,使用行为云表示用户兴趣标签较传统的统计方法具有明显优势。