论文部分内容阅读
随着社会发展,人类的信息传播活动越来越明显地展示出分众特征,对用户的细致分类及预测成为信息传播领域一个重要的研究课题。在社会网络中,快速准确地对用户进行分类,寻找相似的在线社会网络用户,预测受众地理位置,对理解用户特点、改善用户体验、提高信息传播效果等方面都具有重要的意义。本文研究用户兴趣主题分类、多属性综合相似用户查找、视频受众地理位置预测,具体内容如下:(1)提出了三种对微博用户进行分类的方法。①提出了基于信息内容对微博用户进行分类的方法,首先使用LDA主题模型从信息内容中提取每个用户的主题分布作为特征值,然后采用支持向量机等模型对用户进行分类。②提出了基于粉丝拓扑关系对用户分类的方法,首先依据我们所发现的具有相同兴趣主题的用户倾向于拥有共同粉丝这一关系,使用平均值法从粉丝交集中提取每个用户的特征值,然后采用支持向量机等模型进行分类。③提出了比较概率估计值和合并特征值两种综合方法,用这两种综合方法把上述基于信息内容分类方法和基于粉丝拓扑关系分类方法的结果综合起来,得到更准确的分类结果。(2)提出基于直觉模糊集发现兴趣、行为、个人信息等多个属性综合相似的用户的方法。首先根据两个用户的某个属性的差值,通过计算相似度和差异度,构造出表示这个属性相似程度的一个直觉模糊数。然后采用集成算子,根据每个属性分别对应的直觉模糊数,计算得到表示多个属性综合相似程度的直觉模糊数。最后对每个表示综合相似程度的直觉模糊数,计算出它的得分值和精确度,并进行排序。多个属性综合相似的用户就是与得分值和精确度排名靠前者相对应的用户。(3)提出了基于k近邻多标签分类的在线视频受众位置预测方法。首先把受众位置预测转换为多标签分类问题,在线视频受众位置预测即是预测视频最受欢迎的地区排名,把在线视频看作样本,把受众地区看作标签,则受众位置预测问题即看成多标签分类问题。然后对经典的k近邻多标签分类方法ML-KNN进行了两点改进:①引入基于权重的样本相似度测量方法,并给出了计算特征权重的方法;②设计了快速查找相似样本的算法,提高了查找速度。在此基础上,提出基于k近邻多标签分类的受众位置预测方法AL-KNN。这三部分的研究内容,都使用了大规模的数据对研究的结果进行了验证:对用户兴趣分类和相似用户查找,使用了最具影响力的微博网络Twitter的数据进行实验验证;对视频受众位置预测,使用了最流行的在线视频分享网络Youtube的数据进行实验验证。