单类中心学习及其在二元关系抽取中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:mengfengye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网上进行二元关系抽取,是当前信息抽取的重要研究方向。为利用互联网的大量未标定语料,许多文献提出了基于self-training机制的学习方法:即在小标注集上训练初始系统,然后在系统运行过程中,自动标定可靠候选,重新训练,以改进系统性能。实践证明:上述方法在二元关系抽取中是行之有效的,但已有文献缺乏对学习过程的理论分析。本文首先将在二元关系抽取中的模式学习问题转化为单类文本中心的学习问题。在文本向量空间中,当初始中心被给定后,可将其足够小邻域内的文本向量作为自动标定数据。本文要解决的核心问题是:当数据集具有何种特性时,利用自动标定数据能确定地改进对单类中心的学习?为解决该问题,本文研究文本向量空间的分布特性。为克服高斯混合模型在描述具有硬聚类特性的数据分布时的缺点,本文提出了基于k-means算法划分区域的TGMK模型,并揭示了TGMK模型与k-means算法、高斯混合模型的密切联系。实验结果表明:TGMK模型适合描述多类文本数据。本文在k-means算法基础上提出了single-mean算法。文中证明:当多类数据集适合被1-TGMK的泛化模型—1-TGMR模型所描述时,新算法从目标类的初始中心出发,将收敛到实际中心。至此,完成了对核心问题的解答。实验表明了新算法在文本数据上的有效性,从而说明了self-training机制在二元关系抽取中的有效性。本文为二元关系抽取工作建立了基于single-mean算法的形式化学习模型,并针对在互联网上进行二元关系抽取的特殊性,提出了新的候选评分方法和自动标定方法。本文将学习模型应用到中文问答对和中英文术语对的抽取中。与前人工作不同的是:本文将self-training机制引入中文问答模式和中英文术语模式的学习中,使得系统对人工标定语料的依赖度减到最小;本文利用启发规则,改进模式和候选的评分方法。实验表明:与同类系统相比,新系统能在更小的标注集上,实现更优的性能。
其他文献
凸多面体是几何学的一个古老而重要的研究对象,它与人们的生活密切相关。多面体链环是将古老的凸多面体结构和重要的纽结理论相结合,在解决近年来实验室中发现的病毒结构和合
品德与社会是一门综合性很强的课程,教学内容包罗万象。本文是笔者根据多年的教学实践,从合理开发资源、准确定位目标、选择有效策略、关注教学细节这几个方面入手,浅谈在品
北京正负电子对撞机(BEPC)及其大型通用探测器北京谱仪(BES)在2004-2008年间进行了第二次升级改造,并已于2008年中开始运行和实验取数。新升级后的BEPCⅡ是一个高亮度、多束团的
中国的旅游业自上世纪九十年代以来已步入了快车道。旅游风险是阻碍旅游业发展的一大障碍,而风险的存在又有其必然性。因此,加深对旅游风险的了解和认知,注重对旅游风险的防范,将
采用基于Struts框架开发技术来设计网站可以解决网站开发周期长,维护管理混乱等问题。本文结合Struts框架的优势,提出了基于Struts框架进行商务网站平台设计的思路。