论文部分内容阅读
近些年,随着各种在线社区的发展,网络上积累了海量的用户信息,包括了用户账户信息(例如用户名)、用户人口信息(例如性别和年龄等)、用户社交关系(例如朋友关系和回复关系等)以及用户生成内容等。一方面,这些用户信息可以帮助企业更好的理解和定位客户,另外一方面可以为用户提供更好的个性化信息系统,同时可以帮助社会学家更好的理解人类行为。因此,挖掘在线社区中的用户信息是构建新的社会化应用以及理解人类行为的关键。然而,在线社区中的用户信息挖掘存在着各种挑战,包括了非结构化的挑战、跨社区的挑战和非度量化的挑战。非结构化的挑战是指在线社区中的用户信息以非结构化的形式呈现在各种不同类型的网页中,这些网页的布局结构的多样性和动态性为用户信息的自动抽取带来了困难。跨社区的挑战是指一个用户的信息碎片化的分布在不同的社区中,这为全方面理解一个用户带来了很大的困难。非度量化的挑战是指各种用户属性信息(例如影响力、专业水平等)缺少显式的直接度量,这为用户属性信息的直接应用带来了困难。本文主要针对这三个挑战进行了研究,并对用户信息的应用研究进行了一定的探索。具体的,本文的主要研究内容可概括如下:(1)针对用户信息的非结构化挑战,本文研究了面向用户生成内容网页的用户名抽取问题。本文提出了一种基于弱指导学习的方法。该方法利用少量的、由统计意义上稀有的字符串构成的用户名,自动收集和标注大量训练数据,解决了目前有指导学习方法需要人工标注训练数据的问题。同时,本文方法仅依赖于从单页面中抽取出的特征,克服了已有方法对于多页面特征的依赖性。实验结果表明,本文方法显著性优于仅基于单页面特征的有指导学习方法,并且和基于多页面特征的有指导学习方法性能相当。(2)针对用户信息跨社区的挑战,本文研究了跨社区的用户链指问题。本文将用户链指问题分为两步:(a)同名消歧,即判断使用相同用户名的用户是否属于同一个自然人;(b)不同名消解,即收集一个自然人所使用的所有不同的用户名。本文关注解决同名消歧任务。首先,本文进行了用户问卷调查和基于About.me数据的分析,量化的说明了解决同名消歧任务的重要性。这是第一个量化的研究人们使用用户名行为习惯的工作。然后,本文提出根据用户名的语言模型概率自动获取训练数据的方法。同时,本文在Yahoo! Answers的数据集上实验验证了该方法所基于的假设的合理性。本文方法解决了目前有指导学习方法需要人工标注数据的困难。实验结果表明,本文方法在自动标注的训练集上学习到的分类器是有效的。(3)针对用户信息非度量化的挑战,本文以用户专业水平估计为例研究了用户信息的度量。具体的,本文研究了问答社区中用户专业水平的估计问题。本文提出了基于竞赛模型的用户专业水平估计方法。该方法将用户专业水平的估计问题转换成了根据一系列二人竞赛的比赛结果估计选手的能力水平的问题。具体的,本文方法克服了基于链接分析的方法不能将问答关系和答案质量信息等异构信息进行统一建模的问题。同时,本文方法通过对每场比赛的难度进行建模,克服了基于答案质量的方法将每个问题相等对待的问题。实验结果表明,与基于链接分析的方法和基于答案质量的估计方法相比,本文提出的竞赛模型在估计活跃用户的专业水平时性能有显著性提高。(4)本文从应用的角度出发,在结构化、度量化、跨社区链指的用户信息基础上,研究了基于用户信息的众包任务难度估计。具体的,本文以问答社区中的问题难度估计为例进行了研究。本文利用用户专业水平的度量信息,提出了基于用户竞赛的模型估计问题的难度。用户专业水平的度量为问题难度的估计提供了指导,解决了之前方法不能处理观察值为偏序关系的问题。实验结果验证了本文所提出的模型的有效性。最后,本文利用跨社区的用户链指信息,研究了跨社区的问题难度估计问题。总之,本文一方面致力于解决用户信息挖掘中非结构化、跨社区和非度量化的挑战,另一方面从应用的角度出发,尝试了将结构化、度量化、跨社区链指的用户信息应用到众包任务难度估计的问题上来。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者提供借鉴。随着用户信息挖掘技术的不断完善,相信用户信息挖掘技术会为各种社会化应用以及社会计算相关的研究带来更大的帮助。