论文部分内容阅读
作为一种全新的网络应用,社会化标注系统(Social Bookmarking System)通过Web2.0技术为普通用户提供了便利的网络资源的标注机制,由此收集到了大量用户标注资源:标签(User Tag),并形成了一种全新的信息分类模式:分众分类法(Folksonomy)。由于受到不完整与错误的用户标注行为的影响,标签的可重用性问题成为影响社会化标注系统数据质量的关键问题。该问题在一定程度上影响了社会化标注系统的信息索引能力,并降低了标签数据作为信息资源的可用性。因此,如何在不影响用户使用体验与标注积极性的前提下,解决标签的可重用性问题,成为了社会化标注系统中一个亟待解决的关键性技术问题。针对标签的可重用性问题,标签自动标注技术基于对用户的历史行为及待标注网络资源的深入分析与学习,作为一种辅助机制被提出并得到了广泛的关注。该技术可以自动筛选出与待标注资源相关的优质标签并实时的将其推荐给用户;通过标签自动标注技术,社会化标注系统可以在降低用户标注门槛的同时,鼓励用户贡献更多标签,并通过自动的质量控制策略,引导用户提供质量更高的标签,从而形成一个良性的自反馈学习系统,逐步提高标签的可重用性。本文针对大规模文档的标签自动标注技术展开了相关研究,研究内容包括以下四个方面:第一,通过对文本对象的深入分析,结合传统的信息推荐技术,将产生式的理论框架融入标签自动标注技术之中,提出了一种基于统计语言模型的文档标签排序标注框架(Language Model for Tag Ranking,LMTR),使得标签自动标注技术能够更为精确地描述标签集与文本对象之间的关系,并据此提出了两种排序标注语言模型,在随后的实验中,验证了上述模型的标注性能。第二,针对LMTR模型所存在的标注效率问题,就大规模文档的标注效率优化问题展开了研究。通过分析影响LMTR模型标注效率的相关因素,提出了一种基于候选标签生成策略的大规模文档自动标注系统框架架,以及基于向量空间模型、标签共现理论以及信息抽取理论的三种候选标签生成算法,并对上述算法进行了实验验证。第三,针对标签排序推荐技术所面临的优质标签词典的构建问题,就标签质量评估问题展开了研究,提出了基于明晰度和分类特征的标签质量度量方法,并通过实验验证了上述方法的性能。随后,通过排序融合算法就标签质量对LMTR算法的影响进行了实验探索。第四,基于对用户行为与社会化标注系统的深入观察,提出了最小描述标签集集((Minmum Description Tag-set, MDT))的定义,并据此提出了一种全新标签自动标注框架:基于最小描述标签集的自动标注框架(MDT框架架)),通过将自动标注系统的标注目标从单个标签扩展至最小描述标签集,更为泛化、形式化地描述了标签集与实体之间在特定用户偏好下的依赖关系。为解决MDT框架所面临的寻找最小描述标签集的问题,提出了一种基于贪心算法的标签集寻优算法,并使用语言模型对面向文档的描述函数进行了建模。实验结果表明,MDT框架展现出了与期望相符的标注性能。