基于最大熵模型的共指消解研究

被引量 : 0次 | 上传用户:gululukuaican
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息爆炸式的增长和篇章处理技术的广泛应用,指代消解显示出前所未有的重要性,并成为自然语言处理的研究热点。共指消解是指代消解中极其重要的子任务,并且具有很大的应用价值和社会价值。在突发事件新闻报道中,共指是一种常见现象,并大量地出现在篇章或对话中。共指的使用可以使报道的表达不显累赘,简明清晰。消解共指,是进行信息提取的一个基本任务。共指消解一方面综合了多种自然语言处理技术,如词性标注、名词短语识别等:另一方面,又是自然语言处理应用技术的重要的组成部分,如在文本信息提取、问题回答等文本处理中,都不可避免的要进行共指消解。本文在深入分析突发事件中共指现象的指代特点的基础上提出了一种基于语料库的机器自学习的消解模型。本文采用最大熵模型探索性地对中文突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一对象的名词、代词和名词短语。该模型具有以下特点:1机器自学习。利用标注语料训练最大熵模型,产生特征集,取代了传统的手工构建特征集的做法。2易于扩展。根据实际情况可增减使用与领域有关的知识,方便系统的移植。3具有一定的鲁棒性。由于目前自然语言处理技术还不完善,而特征属性的取值主要依靠自然语言处理工具,因此,错误不可避免,而实验表明,该算法的抗噪声能力较强。本文对中文突发事件新闻报道中的共指现象进行了初步研究,详细描述了基于最大熵的共指消解模型的学习和实现,并对算法进行全面测试评估。我们标注了20万字规模的语料库用于训练和测试,封闭实验的F值为64.6%,开放实验的F值为59.98%,实验结果表明该模型在消解突发事件的共指现象上是行之有效的,尤其是对人称代词消解和互为别名和简称的待消解对的消解效果较好。本文分析了影响模型的主要错误类型,包括词性标注错误,名词短语识别错误和特征属性耿值的错误。另外,本文还指明下一步的研究方向,即引入句法特征消解共指;与ACE结合评测模型,为今后的研究奠定基础。
其他文献
在我国,私募基金还没有一个明确的法律地位,由于法律的缺失,使其运作不规范、不透明,在实践中产生了很多问题,给我国的证券市场带来巨大的灾害。本文试图从委托——代理角度,
预测控制是20世纪70年代后期直接从工业过程控制中发展起来的一类新型计算机控制算法。由于它采用多步预测、滚动优化和反馈校正等控制策略,因而其控制效果好,比较适用于那些不
土地整理是实现耕地总量动态平衡的主要途径,是提高我国农业生产物质基础条件,提高农业综合生产能力,发展现代农业的重要手段,也是改善农村生活条件和生态环境,推进农村城镇化,拉动
通过R32和R410A用于机车司机室空调的试验对比分析,研究R32在不同工况条件下的热工特性,发现当冷凝温度低于50℃时,R32换热效果明显优于R410A;高温工况下,R32换热效果差。结
买官卖官现在已经成为社会上一种较为普遍的现象,而且有越来越严重的趋势;并且,不同的部门、不同的地方、不同的职位都暗中形成了不同的价格。人们只有按照这个价格给主管领
空调与制冷系统对平流层臭氧的影响主要是与损耗臭氧层的冷媒泄漏联系在一起。它们对全球气候变暖的作用既由于冷媒的泄漏,又由于用能所带来的温室气体排放。因为与耗能有关的
本实验研究了国产异丙肌苷对小鼠几个免疫学指标的影响。结果表明,异丙肌苷在体内外均能有意义地增加淋巴细胞转化,但单独对小鼠淋巴细胞无明显作用。异丙肌苷还能显著增强巨
扁豆(Dolichos Cablab L.)为一年生或多年生植物。本实验以扁豆为材料,对嫩叶、幼果进行基因组DNA提取,试图建立和完善一套高质量DNA提取纯化检测技术体系。该技术的建立和优
目的:通过Meta-分析的方法比较术前服用非那雄胺组与口服安慰剂组的经尿道前列腺电切手术术中出血的治疗效果,包括术中出血量(Peroperative bleeding)、每克切除前列腺组织出血量
1994年印度就出台了具有法律效力的《环境影响评估最后通告》,先行一步。然而,此后印度环境影响评估法规的随意性逐渐增强,环评范围日益缩小,环评过程由重质量变成重数量的流