论文部分内容阅读
问答式社交网络,作为一种新兴的社交网络,由于其专业性与知识性,近年来受到了广大学者的关注。知乎作为最大的中文问答社区,自然也吸引了大量研究者的目光。与传统社交网络不同,知乎用户往往根据共同兴趣话题相互关注,且倾向于关注高质量内容的创作者,因此知乎网络具有重内容、轻社交的特点。对于知乎用户进行划分,有助于知乎运营者对用户的精准定位,区分专家型用户与普通用户,并可优化内容推送与优质内容提供者推荐,促进知识付费活动的开展。根据知乎网络特点,本文从两方面出发进行用户划分:第一,对具有不同行为特征的用户进行划分;第二,对关注领域不同的用户进行划分。行为特征包括用户的创作特征、浏览特征、用户影响力等。在创作特征中,用户创作内容质量评估是难点之一,通常采用其他用户对创作内容的评判来反映其质量高低,但该方法往往受到创作内容主题受关注程度的影响。对用户关注领域的划分,用户创作内容是最重要的依据之一,在根据文本内容进行用户划分的方法中,概率主题模型往往不能有效处理短文本问题,通常的文本聚类方法将每个用户划分到一个聚簇当中,而用户创作内容往往具有多于一个主题,使每个用户属于一个聚簇并不符合实际情况。本文的主要贡献如下:(1)本文通过网络爬虫,爬取了知乎网络的大量数据,构建了一个时新、全面的大规模知乎数据集,为研究工作打下了基础。(2)本文分析了知乎用户行为数据特征,提出从知乎行为数据入手,将用户划分为多种类型,并分析不同类型用户对提供付费知识和消费付费知识的倾向。本文提出了一种回答质量评估方法,该方法削弱了所属话题差异对回答质量评估产生的影响,并利用该方法提取出一种用于用户划分的行为特征。(3)本文提出针对用户回答内容,构建用户关键词重要度向量,采用聚类方法对知乎用户回答内容进行聚类分析,并根据每个聚簇用户的关键词特征,确定每个聚簇用户的关注领域;在聚类结果的基础上,提出可在一定文本相似度阈值内,寻找用户的多级标签。根据标注数据对用户划分结果进行了评估,发现本文提出方法效果要优于LDA模型与AT模型,而次级标签在参数值较小时准确率较高。(4)本文设计并实现了知乎用户分析原型系统,该系统可在线爬取目标知乎用户数据,进行分析并将结果进行可视化;可根据目标用户回答内容计算关注领域标签;可根据目标用户点赞回答内容与数据库中已有用户回答内容的文本相似度计算结果给出推荐关注用户。