论文部分内容阅读
随着互联网技术的迅猛发展,互联网已成为一个巨大的信息源,其中含有大量的关于现实世界命名实体的信息。这些命名实体包括机构、地点和人物等,既涵盖了名人也涉及日常生活中的普通人。命名实体搜索引擎从大量的网页中挖掘出命名实体,并总结出与用户查询的命名实体相关的知识,直接返回给用户。与普通搜索引擎返回的非结构化网页相比,这种搜索引擎更快捷、更直观,已成为工业界和学术界关注的热点之一。要构建既快又准的命名实体搜索引擎,就必须对命名实体知识进行深度挖掘。从网页中自动识别命名实体、对命名实体进行摘要和为命名实体建立联系并挖掘出其关系是实体知识挖掘的三个关键科学问题。本文围绕构建命名实体搜索中的这三个科学问题展开了深入的研究,提出了一个基于统计学习的自学习模型——统计滚雪球模型,弥补了现有自学习模型的不足。具体来说,本文的主要研究内容和创新之处如下:1.分析互联网搜索的需求,充分调研了互联网知识挖掘的特点,重点讨论了基于自然语言特征的有监督学习模型和基于模板的自学习模型的知识挖掘算法;分析了这两类方法的基本思想,讨论了每类模型代表性的工作,并发现了其中的不足之处。2.提出了一种基于自学习的关系抽取模型:统计滚雪球模型。该模型使用基于统计的模板评价函数替代传统的基于手动构造的模板评价函数,使之能采用更高效的模板特征;同时采用马尔可夫逻辑网络作为底层的统计模型,从而融入各级关系联合抽取,充分地利用信息达到提高抽取性能的目的。在互联网真实数据上的关系抽取实验表明,相对于传统的自学习方法,统计滚雪球方法能在保持相同准确率的前提下,明显提升抽取的召回率。3.提出了一种迭代式命名实体识别和关系抽取的联合抽取模型。该模型扩展了实体识别的条件随机场模型,将基于关系抽取的特征加入到实体识别的过程中,从而提高实体识别的性能;同时采用迭代挖掘的方法,在命名实体识别和关系抽取两个任务之间建立联系,使各自的结果能被另一个任务在决策时使用。在互联网真实数据下的实验表明,相对于传统的顺序式知识挖掘模型,联合挖掘模型对实体识别和关系抽取任务的性能都有较大提高。4.提出了一种基于统计滚雪球模型的命名实体摘要模型:摘要滚雪球。该模型充分利用互联网数据中命名实体的事实与摘要之间的对偶性,同时完成命名实体的事实挖掘与摘要排序;同时采用自学习统计滚雪球框架,可以从少量种子出发,迭代式地同时增加命名实体事实与摘要。在互联网真实数据上的实验和用户调研表明,该模型在事实挖掘与摘要排序问题上都取得了明显改进,也证明了统计滚雪球模型具有很广的适用性。5.构建了基于10亿网页的中文命名实体搜索引擎人立方和基于30亿网页的英文命名实体搜索引擎EntityCube。这两个命名实体搜索引擎能够在大规模互联网数据中挖掘出关于命名实体的各种有用信息,获得了巨大的成功和很好的反响。本文提出的关系抽取方法已经应用到实际系统之中,其他方法也都经过了真实系统数据的验证。最后,对全文工作进行了总结,并对下一步的研究方向进行了展望。