【摘 要】
:
提出了关联词搭配模式自动发现的基本方法。建立一个大规模语料库,然后作分词处理,并对关联词进行自动标注和人工校对;评估关联词搭配的三个重要参数(搭配距离、搭配强度MI值
【机 构】
:
华中师范大学语言与语言教育研究中心,湖南省第一师范学院信息科学与工程系
【基金项目】
:
国家自然科学基金资助项目(60703008);国家重点实验室开放研究基金资助项目(SKLSE04-018);教育部人文社科重点研究基地重大资助项目(10JJD740012);湖北省科技攻关资助项目(2007AA101C49)
论文部分内容阅读
提出了关联词搭配模式自动发现的基本方法。建立一个大规模语料库,然后作分词处理,并对关联词进行自动标注和人工校对;评估关联词搭配的三个重要参数(搭配距离、搭配强度MI值、搭配强度Z值),并设定阈值,超过阈值的格式自动作为候选搭配模式。通过实验,标注的准确率为88.75%,表明本方法具有较好效果。运用该方法,发现了以往大量未被注意的句法搭配模式,对研制高质量的关联词知识库起到了积极的促进作用,对复句句法、语义的自动分析具有重要的意义。
其他文献
<正> 讲解词,顾名思义,即讲解员向观众解说展品的文字语言。它是讲解员与观众之间交流思想的工具。讲解员通过讲解词,对展品作出准确、生动的描述,使观众了解展品的基本内容
随着经济的发展和社会的进步,合作意识和团队精神在企业内部越来越受到广泛的关注和重视。排球运动是一项使学生能产生深刻情绪体验的运动项目,在排球教学过程中,怎样才能让
<正> 富饶的四川,历来被誉为“天府之国”。古代蜀国先民是这块西方“乐土”的主要开拓者。蜀国之名最早见于《尚书·牧誓》,是参与武王灭商的八个盟国中的一个。此后,犹如昙
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法
【目的】探讨复发性自然流产(RSA)与中国南方夫妻双方及绒毛血管内皮生长因子基因多态性(-1154G>A)的关系。【方法】采用等位基因特异性扩增-聚合酶链反应方法,检测271对RSA
绿霉菌是灵芝生产中发病最普遍,危害最严重,造成经济损失最大的病害,严重威胁着灵芝的生产和发展,在对灵芝病害进行广泛、系统调查的基础上,对灵芝绿霉病进行了深入细致的调
精神分裂症是一种常见的、病因尚未完全阐明的精神病,多在青壮年起病,常有特殊的思维、知觉、情感和行为等多方面的障碍和精神活动与环境的不协调。病程多迁延,致残率较高,对
<正> 石斛为常用的中药,中医临床认为具有养阴清热,生津止渴和明目强壮的作用,但对其药用有效成份及免疫药理作用的研究尚未见有报道。我们从石斛属分离出多糖类,经人体及动
比较了添加碳纳米管材料的卷烟滤嘴对卷烟主流烟气中酚类化合物和其他有害物质(焦油、一氧化碳等)的吸附效果。研究结果表明:碳纳米管对卷烟主流烟气中酚类化合物具有较好的
本研究运用问卷调查法、访谈法、数理统计法,对红河学院公体排球教学现状进行了调查、分析,发现其中存在的问题有教师外出参加培训少、教师排球教学任务重、排球教学内容单一