社会性标注关键技术及其在信息检索中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ceng0606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会性标注是一种Web上的用户共享、组织、搜索和管理资源的一种机制。随着Web2.0的兴起,社会性标注系统得到了迅猛的发展,目前已经成为一种流行的共享网络资源的方式。本文研究社会性标注的关键技术及其在信息检索中的应用,主要内容包括:(1)社会性标注系统中的个性化标签推荐算法:社会性标注系统中的个性化标签推荐是指根据用户对资源的历史标注信息,为目标用户对特定资源推荐能够满足其个性化需求的标签。以往的研究大都假设用户是独立同分布的。这种假设没有考虑到用户之间日益增多的社会关系。本文研究如何利用用户之间的社会关系等信息改进标签推荐算法,提出一种能够有机结合用户个性化标签使用偏好和用户协同标注信息的个性化标签推荐算法。首先将社会性标注、用户之间的社会关系和资源之间的相似关系等数据用图建模。与以往的研究使用的基于特征向量计算相似度的方法不同,使用基于随机游走的方法来计算对象之间的相似度。在此基础上,利用用户和标签之间的相似度作为用户的个性化标签使用偏好,并将其融合到基于协同过滤的个性化标签推荐算法中。通过在Delicious数据集上进行实验,对不同的相似度函数和不同的标签推荐算法进行了比较。实验结果表明,与目前的代表性算法相比,本文提出的个性化标签推荐算法的在Precison、Recall和NDCG等性能指标上有明显提高。(2)社会性标注系统中的标签词义消歧算法:由于不存在一致的分类体系或本体论,社会性标注存在歧义性的问题,即相同的标签可以被用来表示不同的含义。研究在社会性标注系统中的标签语义消歧问题可以使很多基于社会性标注数据的应用受益。本文提出一种无监督的标签语义消歧算法。对于目标标签,通过将其相关的所有标注表示为三维张量来为其标注上下文建模,并在由此张量导出的超图上进行谱聚类分析来发现表示不同标签语义的标签簇。通过在从实际的社会性标注系统中采集的实验数据集上进行实验来评价算法性能。定性分析和定量评价结果表明了本文提出的标签语义消歧方法的有效性。(3)基于社会性标注的本体学习算法:由相互协作的用户在社会性标注系统中产生的大量的标注数据可以用来作为语义网应用的数据源。本文提出一种基于社会性标注的本体学习方法来挖掘蕴涵在社会性标注中的语义信息。提出一种隐含包容层次结构来刻画标签空间中潜在的结构,并基于此模型推导出本体学习算法。首先利用集合论的方法确定标签之间的包容关系,并用图建模包容关系。在将此图转化为层次关系时,注意到其中固有的包容关系的不一致性,并提出一种基于随机游走的标签普遍性计算方法。最后提出一种凝聚式层次聚类算法,利用标签普遍性的计算结果来生成概念层次结构。在实际社会性标注系统中采集的数据集上进行的实验表明,与目前的代表性方法比较,本文提出的方法无论在定性还是在量化比较上,均有较明显的提高。(4)基于社会性标注的网页排序算法:社会性标注系统作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中。由此产生的大量社会性标注数据成为网页质量评价的一个新维度。本文研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法。首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性。然后利用二部图模型刻画网页和用户间的互增强关系,使用相关标签与网页内容和用户兴趣的匹配程度为互增强关系赋予权重。最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的排序。实验结果表明,与目前的代表性算法相比,该算法在检索性能上有明显提高。
其他文献
继当代茶圣吴觉农之后,荣任中国茶叶学会名誉理事长的王泽农教授,是江西省婺源县人,1907年出生。1928年春考入上海劳动大学农学院农化系,于1931年7月毕业。毕业后,在安徽桐城中学、福建厦门中学
当前,强化和完善人工成本的管理和控制,已经开始引起了转轨中的国有企业的广泛关注。本文拟通过对国有企业人工成本的观察和思考,探索在市场经济条件下,如何进行国有企业的人工成
发展中国家的新工业化道路是在通过吸收外来投资发展的企业的科学技术,依赖技术溢出,实现本土产业的发展。本文通过对买方垄断的市场势力模型因素分析,重点指出代工企业的联合水
印顺法师在重庆汉藏教理院的岁月是他思想形成的关键时期。法尊法师在这翻译的西藏经典,以及他们二人之间的讨论深刻左右了印顺法师的佛学建构。他的中观学从内容到形式都有
计算可以说是工作、生活、学习当中被应用最为广泛的一项数学知识。即便是科学信息技术发展迅速的当下,对于计算的教学也在整个小学数学教学过程中占有突出的地位。并且在数
本文从班组安全建设的管理出发,从小处着眼、分析了班组安全管理的重点、控制点及应对的措施,总结了做好班组安全管理是企业安全的前提。
由于问句表达的文本模糊性以及自然语言本身的复杂性,现有的web搜索引擎还不能很好的处理用户的自然语言提问。正是由于web搜索引擎的这种不足,问答服务型网站作为其有益补充
又到一年一度小学招生的阶段,每年招生和那些新生见面总会发现一些比较特殊的孩子。有一些孩子被称为自闭症儿童,今天,我又遇到了这样的孩子。当孩子的母亲在父亲的陪伴下带着泪
目的:观察补阳还五汤加味麝香治疗脊髓损伤的疗效。方法:65例随机分为治疗组一21例、治疗组二23例和对照组21例;所有病例均给予脊髓损伤常规治疗,治疗组一给予补阳还五汤加味麝香