论文部分内容阅读
从电子邮件到博客再到Facebook、Twitter等网站的出现,社交网络发展速度之快在过去是难以想象的。社交网络逐渐融入人们的日常生活中,在各方面都有着举足轻重的影响。它不仅提供丰富的信息还有着强大的煽动力,不仅展现人们的日常生活还能为商家提供营销推广的平台。微博用户性别判断分析与研究在不同领域都具有研究意义和实用价值。本文的研究内容主要分为以下两个方面:首先基于用户原创微博文本判断用户性别。针对用户原创微博的短文本稀疏性的特点,提出一种结合word2vec模型和LDA主题模型扩充特征的方法。以中文维基百科数据集作为基准生成词级别的word2vec模型,海量原创微博文档经过word2vec模型扩充特征后生成文档级别的LDA主题模型。使用改进后的模型对训练样本和测试样本进行特征扩充后,用训练样本训练SVM分类器,测试样本测试分类准确性。实验结果表明,通过word2vec和LDA结合模型扩展关键词,能有效降低文本词稀疏程度,提高分类准确性。其次基于原创微博文本、用户标签、用户昵称三个视图判断用户性别。针对新浪微博用户数量非常大,且性别信息并不一定真实,造成样本打标困难的现状,采用了一种改进的半监督学习中的tri-training方法。通过分析构建三个不同的视图,结合熵值装袋查询构建六个分类器,利用少量已标记样本和大量未标记样本不断迭代训练分类器,每次迭代时选取投票熵最大的未标记样本进行人工打标后加入训练集,同时将隐式投票结果一致的未标记样本加入训练集。通过真实用户数据对分类器的分类性能进行试验,发现使用改进后的tri-training分类器准确性比原始tri-training算法提高了1.3%,比单视图监督算法平均提高了7.1%。