论文部分内容阅读
随着社交网络的迅猛发展,自动分析社交网络中的有用信息成为目前自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户属性识别是一项基本任务。该任务旨在根据微博用户产生的相关数据对用户的个体属性(例如,性别、年龄等)进行自动识别。准确识别用户的个体属性,可以帮助更好的进行智能营销、个性化预测及情感分析等研究。本文的研究内容主要包括以下三个方面:首先,针对微博中用户的个人与非个人属性,本文提出了一种结合微博用户的用户名和微博文本两类信息的分类方法。该方法针对两种文本训练不同分类器,并在此基础上提出了一种基于分类器融合的方法,同时利用用户名和微博两类信息进行分类。实验结果表明,本文的方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或微博文本的单分类器分类方法。其次,针对微博用户的性别属性,提出了一种基于交互式信息的半监督性别分类方法。传统的性别分类研究依赖大量的标注样本,而通常情况下人工标注样本费时费力。作为一种社交网络平台,微博提供了多种交互机制以供用户互动。因此,微博平台既包括用户发布的微博等非交互式信息,同时也包括回复等交互式信息。本文提出了一种基于交互式信息的半监督性别分类方法,该方法将交互式和非交互式两类信息作为协同训练算法的两个视图,充分利用未标注样本实现半监督性别分类。实验结果表明基于非交互式和交互式视图的半监督性别分类方法能够有效利用非标注样本提升性别分类性能。最后,针对微博用户的年龄属性,提出了一种基于文本和社交信息的半监督年龄回归方法。该方法通过协同训练算法同时结合用户的文本和社交两类信息,充分利用未标注样本实现半监督年龄回归。此外,我们提出了一种基于QBC的方法,解决了回归问题中样本置信度衡量的难题。实验结果表明,本文提出的基于文本和社交信息的半监督年龄回归方法,在数据平衡和不平衡两种情况下都能有效利用非标注样本提升年龄回归的性能。