论文部分内容阅读
社交网络是一个以用户为中心,由用户来产生各种信息的应用,而这些信息是观察用户间关系的基础,如何发现具有紧密关系的用户并为其提供信息推荐服务,进而服务于社区发现,是目前学术界和工业界关于社交网用户关系研究热点问题之一。Twitter作为典型社交网应用之一,由于拥有众多用户并含有丰富Tweets内容,因此能有效挖掘用户关系,本文基于Twitter平台从用户行为角度对用户关系问题进行了深入研究。首先,针对以往大部分研究仅以社交网用户间“关注”与“被关注”行为作为用户关系研究焦点所导致不能确切反应用户间紧密关系的不足问题。本文认为可根据与用户行为有关的两个关键因素,即活动和位置来分析用户关系,并由此提出了一种用户在相近地理位置进行相似活动的用户关系,即用户间行为关系(Behavior Relationship-BR),简称BR关系,该关系包括与会、旅游、购物等关系。进一步,将BR关系划分为用户对行为关系(User Pair Behavior Relationship-UPBR)和用户群行为关系(User Group Behavior Relationship-UGBR)。其次,由于Twitter平台“@”关系体现了用户关系的紧密程度,因而本文利用“@”关系提出了一种BR关系概率推演模型PIM (Probability Inference Model).该模型首先面向一对用户,计算二者之间的行为活动相似性概率及其位置相似度,从而以概率方法推演出他们是否具有UPBR关系;其次,通过基于BR矩阵的最大树聚类技术(BR Matrix-based Maximal Tree Clustering-BRMC),来发现用户群体间是否具有UGBR行为关系。最后,本文从真实数据与仿真数据两种数据集对BR关系推演的效果进行了扩展性实验。其中,真实数据检验了PIM推断用户地理位置的误差距离、准确率以及@次数与误差距离的关系,实验结果表明PIM在位置推断具有比较高的准确性。仿真数据则从两方面进行了实验,一是测试了不同活动阈值下PIM在推演UPBR的准确率(precision)、召回率(recall)以及F1-Measure;二是以NMI、F1-Measure为指标检验了BRMC的聚类精度,并从聚类敏感度角度测试了与BRMC相关参数,实验结果表明BRMC在发现UGBR具有很好的效果。