信息抽取中关键技术的研究

被引量 : 100次 | 上传用户:fanrongcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展和网上电子文本的日益增多,使得用户从网上获取有效信息变得日趋困难。面对信息爆炸带来的问题,亟需一些智能化工具来帮助人们从海量信息中获取真正需要的信息,信息抽取正是基于这一需求而产生的。信息抽取目前已经成为人们研究的热点,根据ACE(Automatic Content Extraction)会议评测任务的划分,它主要研究命名实体识别、实体关系抽取、指代消解、事件探测这四个领域。其中,实体识别和关系抽取又是这些任务中最重要的部分。本文对信息抽取技术的研究主要集中在命名实体识别和实体关系抽取两个方面,将先进的机器学习算法和全新的理论方法—全信息理论运用到我们的整个研究过程中。本文的贡献主要有以下几个方面:1、提出了一种专家知识和多模型相结合的命名实体识别方法,充分考虑了专家知识在命名实体识别中的作用。根据实体类型的不同,分别采用不同的实现方法,人名、地名识别采用先规则后统计的方法,而组织机构名识别则采用先统计后规则的方法。统计学习方法应用了最大熵(Maximum Entropy,ME)和条件随机场(Conditional Random Fields,CRFs)算法。命名实体识别的主要贡献详细描述如下:首先,命名实体识别系统利用专家知识和规则进行人名、地名的候选,然后再将候选的实体输入统计模型进行判断,其中,在处理候选人名时,为了防止一个外国译名被部分识别为一个或几个中国人名,提出了动态优先级方法,该方法首先建立高频的歧义字,这些字既可用作中国人名的姓氏,又可经常出现在外国译名中,实体识别系统在处理候选人名时一旦遇到这些高频歧义字,利用前后向探测方法灵活地调用中外人名识别模型,实验证明,该方法极大地提高了人名识别的性能指标。地名的候选也充分利用了“省、市、山、湖、自治县”等明显的后缀信息以及“奔赴、赴、故都”等前缀信息,作为触发地名识别模块工作的条件。模型中的特征包括了各个层面:实体的上下文环境、上下文的特定语义、实体中不同字或词对实体识别的贡献度等。本文使用了概率信息,增强了样本的差异性,提高了人名、地名识别的召回率和准确率。除此之外,还首次提出自信度函数、顺序等特征,这些特征在实体识别中发挥了巨大作用。其次,细化分类模型。为了提高实体识别的性能指标,采用层叠方式的多模型结构,模型分为中国人名、外国译名、地名和组织机构名等识别模型,针对不同的模型抽取了不同的特征。第三,由于组织机构名长度不一,很难直接用规则的方法进行机构名候选,因此,本文采用先统计后规则的方法,并借鉴了短语识别技术,与常用的短语BIO识别方法相比,本文定义了BILO四类标记,增加一类标记L。采用BILO方法,将机构名识别转化为相应的标记分类任务,使机构名识别任务简单化。并且,本文还针对不同的机器学习方法开发了相应特征。最后,利用规则——特殊模板来识别利用统计方法没有识别出的机构名。利用该命名实体识别系统参加了2006年SIGHAN中的命名实体比赛,实验语料来自微软亚洲研究院,获取了最好成绩。本文还利用1998年1月的《人民日报》进行实验,对比了ME、CRFs用于汉语命名实体识别的实验结果,通过对结果的分析和比较,表明CRFs模型在性能上优于ME模型。2、提出了基于CRFs的实体关系自动抽取方法,主要自动抽取句子中二元实体之间的关系,主要从以下两个方面完成:首先,收集和标注语料。以“人事变动”领域为例,基于《人民日报》和互联网进行语料收集工作,将收集到的语料进行切分、POS等预处理后,再改写为XML树。在此基础上,我们标注了三类实体关系:职位、人、公司三者之间的关系,以及一定数量的反例,从而为后续研究打下基础。其次,在完成语料的收集、整理和标注工作后,建立了实验系统模型,利用CRFs算法进行实体关系的自动抽取实验。针对不同的实体关系选取不同特征,实验结果证明,CRFs和其它算法相比,可以有效地解决二元实体关系的自动抽取问题。3、为了正确获取文本中隐含的实体关系并推送给用户一个更完整的结果,以全信息理论为方法论,在该方法论的指引下,充分利用语法、语义、语用等方面的知识,挖掘、获取多个实体之间的关系。具体表现为以下两点:首先利用机器学习方法获取分析实体关系时必不可少的语法知识,该语法知识由若干抽取模板组成。为了克服获取大规模标注语料这一困难,提出利用无监督的学习方法——Bootstrapping方法获取抽取模板,并提出了层次知识获取模型,该模型由内外两层知识获取模块组成,内外两层模块互相嵌套获取了实体关系抽取所需的领域专业特征词表和抽取模板库,从而完成语法知识的获取任务。其次,建立全信息知识库。采用语义框架的表示方法,结合“模式—行为”规则,对抽取模板进行语义分析和施效结果分析,挖掘出隐含的实体关系,同时修正已得到的错误实体关系,通过对最终实体关系的推理和整合,给用户推送一个完整的结果。实验结果表明,基于全信息的实体关系获取方法能有效地解决多个实体关系的同时获取问题。
其他文献
随着社会、经济和政治制度的发展变化,调整离婚关系的法律制度也将不断完善,而各国都用尽法律手段维护着离婚当事人的权益和社会利益。因各国的离婚制度规定各异,其所产生的
教师的心理健康是教师生活、学习和工作的基础,是教师综合素质的重要组成部分。只有具备健康心理的教师才能培养出心理健康的学生。目前,我国初中教育正处于全面进行素质教育
目的探讨冠心病患者的颈动脉内膜厚度(IMT)、血尿酸与斑块不稳定性的关系.方法选择冠状动脉造影确诊冠心病(CHD)患者148例为实验组,按造影结果分为单支、双支和三支病变组;依
随着计算机技术的日趋成熟,运用CG技术复原古代盛景已非难事.但具备创新性思维的复古创作,除却拥有强大的技术支持外,还需要设计师拥有开阔的思维与艺术创新的理念.作品《www
《英美报刊文章阅读》是一门有趣而又具有挑战性的课程,有助于学生增长知识开拓视野,了解国内外时事。然而,对于学生如何在该门课程的学习中快速而准确地获得英文报刊的信息,
追求平等是人类共同的美好理想。平等思想是资产阶级在反对封建专制制度时提出来的,标榜"自由平等"的资本主义国家却无法实现真正的平等,因为其生产资料的私有制控制着生产,
随着无线通信的快速发展,移动无线自组织网络技术在国内外越来越得到了重视,尤其是路由技术已成为研究的热点。由于移动无线自组织网络节点具有很高的移动性,拓扑结构会随时变化
河南现代服务业发展受省域经济发展水平、经济规模、经济结构、产业发展速度、消费需求水平、工业化水平、城市化水平、市场化水平、国际化因素影响。河南应通过提高以上各项
采用润滑理论解决异型材挤出口模中的流动问题;采用横截面法求解垂直于流动方向的横截面上的速度分布;在流动速率已知的情况下,采用假定区域法求得压力降.
新时期中期以后,许多小说中出现了“傻子”形象,形成了一道独特的文学风景线。现实生活中的傻子主要是从生理方面定义的,本文所论之傻子是一种艺术形象,除了生理和精神等方面