基于依存关系的汉语复句关系词自动识别及规则挖掘

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:websea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理的字处理、词处理已经相对成熟,句处理和篇章处理是现阶段中文信息处理研究的难点及重点。复句研究是句处理到篇章处理的过渡,因此是目前中文信息处理研究的重要内容。复句是由两个或两个以上的分句构成,其中用于连接分句的关系词也称关系标志,充分体现了分句间的逻辑语义关系,是分句结构的重要标志,也是本文的主要研究内容。目前关于关系词搭配的研究主要集中在分词的字面特征,并未涉及语法分析。本文在基于字面特征的关系词搭配的约束条件基础上,研究基于依存关系的约束条件,利用依存语法中依存关系的五条公理分析汉语复句中关系词搭配的依存关系,从中总结出7类约束条件,并把这7类约束条件形成规则加入规则库,运用字面特征与语法特征相结合的规则自动识别汉语复句关系词。实验结果表明,对关系词的识别率可以达到90%以上。目前关系词识别规则库中共有规则734条,主要是基于字面特征的规则,仍需补充基于依存关系的规则。本文在依存语法的基础上,运用挖掘频繁项集的FP-tree算法对复句中依存规则进行自动挖掘。首先对语料进行预处理,为避免每次重复扫描数据库,先根据关系词对复句进行分类;同时排除数据集过小的分类结果,以保证挖掘规则的质量;然后利用特征分析器分析预处理后的语料,并对分析结果进行形式化表示得到复句的依存特征集合;接着用FP-tree算法对实验语料进行规则挖掘,共挖掘规则84条。本文从依存语法角度研究汉语复句关系词搭配的依存关系及依存规则的自动挖掘。通过对复句进行依存分析,运用关系词搭配的依存关系对关系词进行自动识别,在此基础上引入FP-tree算法对关系词搭配的潜在依存关系进行自动挖掘。实验结果表明,基于依存关系的汉语复句关系词自动识别率有明显提高,并且利用FP-tree算法成功挖掘出84条依存规则,证明了该算法对依存规则进行自动挖掘的可行性和有效性。
其他文献
低空风切变属于一种尺度小、强度大、危害性强、不易监测的极端天气,在飞机起降阶段严重影响着飞行安全。机载气象雷达能够沿航路实时探测低空风切变等恶劣自然现象并实时发
基于文本挖掘技术,本文提出了一种新的评价企业社会责任信息披露主客观性的方法 ;选取了2009—2015(1)年我国上市公司发布的社会责任报告全部样本,对信息披露主客观性的变化
在低速和零速条件下,通常采用旋转高频电压注入法来实现对内置式永磁同步电动机(IPMSM)的无传感器控制。然而d、q轴磁路之间交叉饱和效应的存在,会给IPMSM无传感器控制系统带
随着我国新课改大力推崇全面发展的素质教育,音乐教育地位也在不断提升。嵩县地方偏远经济落后,因此被评为贫困县,因各方面的不发达导致教育也比较落后,在新课改的教育环境下,尽管嵩县高中音乐教育的师资力量在不断增强,教学设施也在不断完善,但从整体上来说,仍存在很大的不足。在高考万人过独木桥的背景下,学校采用急于求成的教育模式,致使音乐课的开课率不达标,与音乐相关的教学用具不完备,教师教学模式过于单一,大部
目的:诺卡菌病极易误诊为肺癌、肺结核、脑肿瘤、孢子丝菌病、蜂窝织炎、结节性红斑、非典型分枝杆菌等疾病。误诊会延误治疗时机,细菌进入血液会引起全身播散性感染,使病情快速恶化,严重时导致患者死亡。针对这种情况,本文通过患者的临床表现、细菌培养、DNA提取及测序、临床治疗总结,旨在提出一种诺卡菌病的快速诊断和治疗方法,为临床医生对诺卡菌病的诊治提供一种新的思路,也为快速治疗诺卡菌病提供了临床经验和理论依