论文部分内容阅读
社会性标注是一种Web上的用户共享、组织、搜索和管理资源的一种机制。随着Web2.0的兴起,社会性标注系统得到了迅猛的发展,目前已经成为一种流行的共享网络资源的方式。本文研究社会性标注的关键技术及其在信息检索中的应用,主要内容包括:(1)社会性标注系统中的个性化标签推荐算法:社会性标注系统中的个性化标签推荐是指根据用户对资源的历史标注信息,为目标用户对特定资源推荐能够满足其个性化需求的标签。以往的研究大都假设用户是独立同分布的。这种假设没有考虑到用户之间日益增多的社会关系。本文研究如何利用用户之间的社会关系等信息改进标签推荐算法,提出一种能够有机结合用户个性化标签使用偏好和用户协同标注信息的个性化标签推荐算法。首先将社会性标注、用户之间的社会关系和资源之间的相似关系等数据用图建模。与以往的研究使用的基于特征向量计算相似度的方法不同,使用基于随机游走的方法来计算对象之间的相似度。在此基础上,利用用户和标签之间的相似度作为用户的个性化标签使用偏好,并将其融合到基于协同过滤的个性化标签推荐算法中。通过在Delicious数据集上进行实验,对不同的相似度函数和不同的标签推荐算法进行了比较。实验结果表明,与目前的代表性算法相比,本文提出的个性化标签推荐算法的在Precison、Recall和NDCG等性能指标上有明显提高。(2)社会性标注系统中的标签词义消歧算法:由于不存在一致的分类体系或本体论,社会性标注存在歧义性的问题,即相同的标签可以被用来表示不同的含义。研究在社会性标注系统中的标签语义消歧问题可以使很多基于社会性标注数据的应用受益。本文提出一种无监督的标签语义消歧算法。对于目标标签,通过将其相关的所有标注表示为三维张量来为其标注上下文建模,并在由此张量导出的超图上进行谱聚类分析来发现表示不同标签语义的标签簇。通过在从实际的社会性标注系统中采集的实验数据集上进行实验来评价算法性能。定性分析和定量评价结果表明了本文提出的标签语义消歧方法的有效性。(3)基于社会性标注的本体学习算法:由相互协作的用户在社会性标注系统中产生的大量的标注数据可以用来作为语义网应用的数据源。本文提出一种基于社会性标注的本体学习方法来挖掘蕴涵在社会性标注中的语义信息。提出一种隐含包容层次结构来刻画标签空间中潜在的结构,并基于此模型推导出本体学习算法。首先利用集合论的方法确定标签之间的包容关系,并用图建模包容关系。在将此图转化为层次关系时,注意到其中固有的包容关系的不一致性,并提出一种基于随机游走的标签普遍性计算方法。最后提出一种凝聚式层次聚类算法,利用标签普遍性的计算结果来生成概念层次结构。在实际社会性标注系统中采集的数据集上进行的实验表明,与目前的代表性方法比较,本文提出的方法无论在定性还是在量化比较上,均有较明显的提高。(4)基于社会性标注的网页排序算法:社会性标注系统作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中。由此产生的大量社会性标注数据成为网页质量评价的一个新维度。本文研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法。首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性。然后利用二部图模型刻画网页和用户间的互增强关系,使用相关标签与网页内容和用户兴趣的匹配程度为互增强关系赋予权重。最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的排序。实验结果表明,与目前的代表性算法相比,该算法在检索性能上有明显提高。