大规模文档标签自动标注技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ccf107893228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种全新的网络应用,社会化标注系统(Social Bookmarking System)通过Web2.0技术为普通用户提供了便利的网络资源的标注机制,由此收集到了大量用户标注资源:标签(User Tag),并形成了一种全新的信息分类模式:分众分类法(Folksonomy)。由于受到不完整与错误的用户标注行为的影响,标签的可重用性问题成为影响社会化标注系统数据质量的关键问题。该问题在一定程度上影响了社会化标注系统的信息索引能力,并降低了标签数据作为信息资源的可用性。因此,如何在不影响用户使用体验与标注积极性的前提下,解决标签的可重用性问题,成为了社会化标注系统中一个亟待解决的关键性技术问题。针对标签的可重用性问题,标签自动标注技术基于对用户的历史行为及待标注网络资源的深入分析与学习,作为一种辅助机制被提出并得到了广泛的关注。该技术可以自动筛选出与待标注资源相关的优质标签并实时的将其推荐给用户;通过标签自动标注技术,社会化标注系统可以在降低用户标注门槛的同时,鼓励用户贡献更多标签,并通过自动的质量控制策略,引导用户提供质量更高的标签,从而形成一个良性的自反馈学习系统,逐步提高标签的可重用性。本文针对大规模文档的标签自动标注技术展开了相关研究,研究内容包括以下四个方面:第一,通过对文本对象的深入分析,结合传统的信息推荐技术,将产生式的理论框架融入标签自动标注技术之中,提出了一种基于统计语言模型的文档标签排序标注框架(Language Model for Tag Ranking,LMTR),使得标签自动标注技术能够更为精确地描述标签集与文本对象之间的关系,并据此提出了两种排序标注语言模型,在随后的实验中,验证了上述模型的标注性能。第二,针对LMTR模型所存在的标注效率问题,就大规模文档的标注效率优化问题展开了研究。通过分析影响LMTR模型标注效率的相关因素,提出了一种基于候选标签生成策略的大规模文档自动标注系统框架架,以及基于向量空间模型、标签共现理论以及信息抽取理论的三种候选标签生成算法,并对上述算法进行了实验验证。第三,针对标签排序推荐技术所面临的优质标签词典的构建问题,就标签质量评估问题展开了研究,提出了基于明晰度和分类特征的标签质量度量方法,并通过实验验证了上述方法的性能。随后,通过排序融合算法就标签质量对LMTR算法的影响进行了实验探索。第四,基于对用户行为与社会化标注系统的深入观察,提出了最小描述标签集集((Minmum Description Tag-set, MDT))的定义,并据此提出了一种全新标签自动标注框架:基于最小描述标签集的自动标注框架(MDT框架架)),通过将自动标注系统的标注目标从单个标签扩展至最小描述标签集,更为泛化、形式化地描述了标签集与实体之间在特定用户偏好下的依赖关系。为解决MDT框架所面临的寻找最小描述标签集的问题,提出了一种基于贪心算法的标签集寻优算法,并使用语言模型对面向文档的描述函数进行了建模。实验结果表明,MDT框架展现出了与期望相符的标注性能。
其他文献
为了使凉州区农村安全饮水向科学化、合理化的方向发展,本文根据武威市凉州区农村的地域特征及实际情况,在以往各类水质评价模型的基础上,综合考虑其合理性和不足之处,运用模
<正>追溯新中国石油工业五十多年的历史,是一部艰苦创业史,也积淀凝练了厚重先进的中国石油文化。管道文化作为中国石油企业文化的重要组成部分,从"八三"工程大会战的峥嵘岁
全日制专业学位研究生教育是我国研究生教育的重要组成部分,但其起步晚发展快,问题出现多,模式不健全。本文通过调研,对全日制专业学位研究生培养模式中问题出现的原因进行了
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
对美国规划协会(APA)过去十年的美国"最佳场所"奖("Great Places" Award)的评奖机制和获奖作品进行解析,从评选程序标准、典型获奖项目分布及特点分析,以及场所设计指南三个
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>除了跑步机、办公桌之外,Pieter Dorrestein位于美国加州大学圣迭戈分校(UCSD)的办公室没有什么特别的:一张圆桌旁围着椅子,书架上放着期刊、报纸和书籍,此外还有两三张
期刊
软件测试横跨整个软件开发周期,并占据其工作量的40%以上。它是保证软件质量的重要手段。软件测试是为了发现软件错误而执行待测软件的过程,它精心选择不同的测试用例生成技