含“的”最长名词短语的自动识别

被引量 : 0次 | 上传用户:buffon149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最长名词短语的识别能够为自动句法分析、机器翻译系统提供有力的支持。以往的研究着力于短语边界的发现,而对于最长名词短语本身缺乏深入的探讨。汉语语法研究指出,多数偏正结构,可以根据是否带“的”,分为粘合式偏正结构和组合式偏正结构。从内部看,由于“的”字短语的存在,这些组合式偏正结构能够容纳更多的词类和句法结构;从外部看,两者的句法表现也有一定差别。因此,汉语最长名词短语可以进一步划分为含“的”最长名词短语和不含“的”最长名词短语。本文在全面调查含“的”最长名词短语的内部结构、句法分布、线性分布的基础上,提出了“先识别右边界,识别成果再参与左边界识别”的研究策略,系统地研究了该短语的自动识别问题。本文的研究内容主要包括两个部分:一部分是含“的”字短语的最长名词短语的自动识别,全面分析了该短语左右边界的不同特征,并基于边界分布概率的方法分别识别了其右边界和左边界;另一部分是含“的”字偏正结构的最长名词短语的自动识别,同样探讨了该短语的边界特征,在此基础上将识别短语转化为识别句法主语和宾语的问题;该部分采用边界分布概率的方法识别右边界,并提出了基于搭配的左边界识别方法,其中纳入了介词框架、介动搭配、介宾搭配、动宾搭配等四种搭配类型。本文采用组合模型和规则指导的训练算法缓解数据稀疏的问题。组合模型通过向条件子概率,相关频次,语义类等历史等价类的回退大大优化了模型参数;由于训练语料提供的搭配数量极为有限,规则指导的训练算法通过人工制定的三条规则从测试语料中直接提取搭配数据,使系统开放测试的召回率提高了27%以上。实验基于64万字的新闻语料进行训练,并在32万字的同质语料上进行了开放测试。整个识别系统获得了70.42%的调和平均值。从识别策略上看,右边界识别正确标注了91%以上的对象,为左边界识别提供了较好的基础;左边界识别获得了76.16%的调和平均值,并且随着搭配数据质量的提高,系统预期还能够取得更好的识别效果。
其他文献
当前,电信行业已呈三足鼎立之势,市场竞争渐趋白热化,员工的生活和工作压力剧增,导致各种心理障碍和精神疾病随之增多,引发的不稳定因素也日益突出。一个优秀的企业应重视人
一般人在谈到母语对二语学习的影响时首先想到的便是“干扰”,“负迁移”。因此传统观点认为,母语干扰二语习得。虽然母语迁移的正负之分很早就被提出,但在二语习得的研究中,母语
战略评价是战略管理的一个组成部分,绩效管理是保证战略实施的关键要素。介绍了英美等国在实施知识产权战略中开展绩效评价的措施和手段,结合对我国部分省市知识产权战略规划
<正>经过十年的跨越式发展,中国移动北京公司坚持系统性、连续性、创新性、实效性,持续推进企业文化建设,探索具有北京公司特色的文化建设模式,不断提升管理者文化领导力、班
融资融券业务自2010年3月31日正式启动交易试点以来,作为券商创新业务的重点,备受市场的关注。最近这两年证监会又在酝酿转融通业务,预计今年年底推出转融通的概率很大,从本
《人民日报》和《纽约时报》刊登的有关北京雾霾的报道在报道频率、议题分布、报道版面和配图、报道倾向等方面都有明显差别。两报对新闻客观性、平衡性的把握不尽相同,其议
老年2型糖尿病患者随着病程进展、胰岛功能下降,以及在感染、围手术期、急性并发症等应激状态时,均需要胰岛素强化治疗。老年糖尿病患者由于合并疾病多,胰岛素治疗的获益和风
以L-色氨酸为原料合成了72个不同取代基的β-咔啉化合物,其中31个新化合物,包括12对手性化合物.采用噻唑蓝(MTT)法对5种肿瘤细胞株及5种菌株进行了体外抗肿瘤活性、抗菌活性的
目前,在来华留学的人数当中,日本学生占大多数。为了更好地服务于对日汉语教学,也为了让热心于对日汉语教学的人们更多地了解对日汉语教学研究的状况,本文将对五十年来国内业
梁家楼油田纯56块高含水、高采出程度,剩余油主要富集于构造顶部及厚油层上部,常规措施挖潜效果越来越差,剩余储量动用难度大,油藏处于低效开发状况,为此,开展了氮气泡沫驱提