论文部分内容阅读
近年来,社会关系挖掘受到了学术界和工业界越来越多的关注,研究者们希望从社交数据中还原出真实的社交网络原貌,其中非常重要的一项研究就是对社会关系具体语义进行推断。理解社会关系的语义,可以帮助把握社交网络微观动态结构的演化,在实际的应用中,可以用于商业领域的口碑营销、社交平台的好友推荐等。在目前的研究中,大多数工作所研究的社交网络中只包含单一类型的社会关系,如朋友关系、经理与职员关系或者支持关系等,与实际含有多种社会关系的社交网络有较大的差异。同时,在大部分的工作中,研究者只关注于如何在在线社交数据中挖掘社会关系的语义,忽视了对人们在互联网空间之外的交互行为产生的社交数据进行研究。因此,在本文的研究中,我们将对综合有多种社会关系的真实行为数据集进行研究,探索出一个可行的社会关系语义推断模型。在本文所研究的数据集中,包含有同事关系与伴侣关系,为了同时将这两种不同的社会关系与其他社会关系区分开来,本文首先分析了同事关系、伴侣关系以及其他类型关系在交互行为上的差异。从分析得出的结果可以看出,不同类型的社会关系在交互行为的频率、多样性、类型及时间属性上有较大的不同。之后,借助社交网络理论中的平衡理论、网络结构嵌入性和网络结构分散性的概念分析了各种社会关系在网络结构上的特征。在社会关系语义推断模型研究中,本文基于Boosting方法设计了一个可以挖掘行为数据中社会关系语义的模型。为了进一步提升模型的性能,针对Boosting方法的学习算法,本文提出了一种可以评估学习误差网络影响力的算法EIA算法。根据经典的SAMME算法与EIA算法得到了本文提出的EIA-SAMME算法。在本文的最后一部分中,本文首先测试了参数对EIA-SAMME算法性能的影响。在对比实验中,比较了不同学习误差网络影响力评估方法对SAMME算法的影响;对比了EIA-SAMME算法、Logistic算法和SVM算法在社会关系语义推断上的表现,实验结果显示EIA-SAMME算法在社会关系语义推断的能力上表现最优。同时,在实验过程中,还验证了交互行为特征以及结合社交网络理论设计的网络结构特征在各类社会关系推断中扮演的作用。结果显示,在交互行为特征不能很好地描述一些社会关系的差异时,网络结构特征可以很好地弥补这种不足,提升社会关系语义推断模型的性能。