含“的”字偏正结构的最长名词短语的自动识别

来源 :第九届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户：jiaojiao82

【摘要】

：

含“的”字偏正结构的最长名词短语是汉语特有的一类最长名词短语。该短语的自动识别对于自动句法分析,机器翻译等自然语言处理系统都有重要意义。本文在考察其结构和分布特

【作者】

：

钱小飞陈小荷

【机构】

：

南京师范大学文学院南京 210097

【出处】

：

第九届全国计算语言学学术会议

【发表日期】

：

2007年期

【关键词】

：

偏正结构最长名词短语自然语言自动识别语料句法分析机器翻译分布特征处理系统正确率右边界训练新闻实验考察基础汉语测试

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

含“的”字偏正结构的最长名词短语是汉语特有的一类最长名词短语。该短语的自动识别对于自动句法分析,机器翻译等自然语言处理系统都有重要意义。本文在考察其结构和分布特征的基础上,分治了该短语的左右边界。实验基于64万字的新闻语料进行训练,并在32万字的同质语料上进行了开放测试,取得了70.52％的正确率。

其他文献

禾本科植物NBS-LRR型抗病基因的进化分析

运用生物信息学方法分析了禾本科植物水稻、高粱、二穗短柄草、玉米中NBS-LRR型抗病基因的进化特征,发现NBS-LRR型抗病基因在染色体上分布不均等,且大部分都位于基因簇中.NBS

期刊

Disease resistance genesTandem duplicationGene clusterPositive selection

UGC中产品评论信息的挖掘

随着web2.0的发展,Blog(博客)以及其他注重用户体验的各种新技术可以让很多普通用户(草根用户)方便快捷的通过自己的博客、社区或论坛,发布自己的心情和感想,其中包括对某企

会议

角色生活点滴

“角色的生活不是仅仅出现在舞台上,在演员自己的生活中,你的周围发生任何一件事情,你都应该尝试着以角色的身份去接触,这样角色就永远伴随着你……”库里涅夫专家在下课之

期刊

生活点滴规定情境剧作家中央戏剧学院刘燕瑾白玉山库里舞台自我感觉骤雨挑皮

分词规范亟需补充的三方面内容

本文认为,要构建高质量的健分词语料库亟需在现有的分词规范中着重补充以下三方面的内容：(1)命名实体(人名、地名、机构名)标注细则;(2)表义字串(数字、时间、日期、电子邮箱

会议

基于子串标注的中文分词:寻找更佳的标注单元

由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来。基于字标注的统计学习方法引起

会议

基于字的分词方法的实验研究

本文采用了目前汉语分词领域中一种优秀的分词方法-基于字的分词方法,通过实验的方式量化地探讨了在这一方法中不同的特征模板对于词表词和未登录词识别所起的作用。结果显示

会议

分词方法特征模板未登录词识别决定作用汉语分词上下文信息显示实验精度程度表词

上半年我国贸易顺差同比减少18.7%

工信部的最新数据显示,2011年上半年,全国进出口总额17037亿美元,同比增长25.8%;其中,出口8743亿美元,增长24%,增速比一季度回落2.5个百分点;进口8294亿美元,增长27.6%,增速

期刊

我国贸易顺差增速比进出口贸易顺差同比鞋类出口数据显示塑料制品轻纺产品灯具

语言学与统计方法结合建立汉语动词子类框架类型集

动词子语类框架(subcategorization frame以下简称SCF)在语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框

会议

基于组合方法的组块识别

给出了一种词性扩展与voting法结合的汉语组块识别方法(简称组合方法)。首先比较了特殊隐马尔可尖、SVM、CRF三种统计学习方法在组块识别上的效果。为了改善识别效果,对语料

会议

组合统计学习方法组块识别识别效果词性特殊符号识别方法扩展基本模型汉语组块并列关系标点符号召回率隐马尔精确率语料实验分割

一种结合BaseNP识别的汉语概率句法分析改进模型

基本短语,尤其是基本名词短语(BaseNP)一直是句法分析中需要特殊处理的一种结构。准确地识别基本短语不仅有助于降低句法分析的复杂度,提高效率;而且还能起到消歧的作用,从而

会议

含“的”字偏正结构的最长名词短语的自动识别

与本文相关的学术论文