汉语并列结构的自动识别

被引量 : 0次 | 上传用户:yangxfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并列结构的自动识别对提高自动句法分析器的性能和工作效率具有重要意义,同时该识别结果可以直接应用于机器翻译、信息抽取等领域。以往对并列结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的并列结构。本文在为提高完全句法分析性能的前提下,利用大规模语料库,分别展开了基于规则和基于机器学习方法的并列结构自动识别研究。本文首先分析了宾州中文树库中并列结构的语言学特征,主要从并列结构内部和外部两个方面进行考察。内部特征主要考察了并列结构中并列成分的词性序列分布,并列结构的平行性和嵌套并列结构;外部特征主要考察了并列结构的左边界特征词和右边界特征词。这些统计和分析结果可以为计算机自动识别并列结构提供丰富的语言学知识。本文分析了并列结构的相似性,以及边界特征词分布的规则性,探索了基于规则方法的并列结构自动识别。具体地,根据并列成分中心词词性,将并列结构分为五大类,分别针对每类并列结构特点实现自动识别。本文实现了基于最大熵模型的并列结构自动识别。该方法将并列结构的自动识别转化为一个分类问题,根据连接词的位置分别向左和向右搜索出并列结构的左右边界。本文根据并列结构呈现的特点,分析了探索了适合并列结构边界识别的上下文特征。为了减少因数据稀疏导致的识别错误,本文使用错误驱动的方法对最大熵的识别结果进行了校正。该方法首先对最大熵识别出的错误并列结构内部信息进行分析,获得候选校正规则集;然后,利用评价函数进行规则筛选,得到最终的校正规则集;最后,利用校正规则集对基于最大熵模型的自动识别结果进行校正。实验结果表明,基于规则方法的并列结构识别性能F1值为75.6%,而基于最大熵模型方法的性能F1值达到83.7%,使用错误驱动的方法之后进一步将性能F1值提高到84.3%,显示了较好的并列结构自动识别效果。
其他文献
<正> 现代的客厅设计,崇尚古朴的材质、简洁的造型、明快的色彩,而且材质、造型和色彩都处于强烈的对比之中。这类设计既满足了现代人对于家庭的渴求,又与现代生活节奏同步,
随着股票市场的发展,企业进行股市投资的机会日益成熟。如何获得较大收益并控制风险是企业关注的重点。本文针对中国股市的特殊性,利用马尔科夫链预测股票收益率,在此基础上
<正>《实用皮肤病学杂志》由国家新闻出版总署批准、北京军区总医院主办、国内外公开发行的皮肤病专业学术期刊,2010年11月入选中国科技统计源期刊(中国科技核心期刊)。本刊
空间是后天的产物,空间的生产是一个过程,空间具有创造性的能动力量。本文梳理与电影和空间相关的理论,甄别"多地性"与"跨地性"的联系,以强调中国在全球化中建构新的地方概念
目的探讨腹腔镜辅助下胰十二指肠切除术手术难点以及手术适应症。方法回顾分析我科于2010年1月~2011年9月共完成的9例腹腔镜辅助下胰十二指肠切除术。结果 9例患者手术顺利,手
为进一步利用信息技术提升高速公路通行效率和服务水平,促进节能减排,国家相关部委要求各省开展高速公路联网电子不停车收费(简称ETC)的推广应用工作。从贵州省情出发,全面介
随着工程招标投标的进程不断深入和规范,工程结算审核的重点逐渐变为对工程变更的审核。依照有关文件精神和个人工作实践经验,阐述工程变更方式及其原因,论述工程变更的审核
目的检测哺乳动物膀胱移行上皮细胞在个体发育时期脱落的机制。方法获取新生2d的小鼠膀胱上皮,做石蜡切片,进行Mallory’s染色,普通光学显微镜观察;做冷冻切片,进行DAPI染色和TUNE
随着经济的发展和科技的进步,各种新型的损害事故不断发生。侵权法的归责原则从单一的过错责任向多元化的归责原则体系发展,并发挥着传统的侵权法填补损害和预防损害发生的作
本文主要通过对胜任力模型、绩效管理模型等理论的研究,进而构建基于岗位胜任力的企业关键绩效指标体系,以期提高企业绩效管理水平。