现代汉语动态助词“了”的自动生成研究

被引量 : 0次 | 上传用户:gaorongqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言生成是当前以计算语言学和人工智能为基础的自然语言处理中相当活跃的一个分支,主要研究如何用计算机来生成自然语言文本,有着极其重要的应用价值。自然语言生成的研究可以作为检验特定语言理论的一种技术手段,不断为理论语言学提供反馈,推动语言学朝纵深方向发展。动态助词“了”一直是传统语言学界研究的热点和难点,而其特点和使用规则是难点之一,传统的研究方法多为语义和语法描写法,多是定性分析,且缺乏对动态助词“了”的全面考察,并仍存在不少分歧,因而缺乏整体的说服力,有的还需要重新考虑。而且,仍有许多问题没有解决,如现代汉语里动词带动态助词“了”的实际情况如何?有无规律性?如有规律,有何规律?本文主要探讨如何用自然语言生成方法自动在汉语的动词之后生成动态助词“了”。在传统语言学界已有研究成果的基础上,通过学习和借鉴前人的理论、方法、经验和教训,结合大规模真实语料,利用以规则为主,统计为辅,两者相结合的技术,从自然语言生成角度来考虑动态助词“了”的使用。语料的观察和统计是进行动态助词“了”生成研究的出发点。结合大规模语料库,对相当数量的动词带动态助词“了”的情况进行大量的考察,以此来统计现代汉语里动词带动态助词“了”的实际情况,来归纳总结动词带动态助词“了”的规律性等等。基于规则的生成策略是生成试验采用的的主要技术。在总结传统语言学的已有研究成果的基础上,通过对语料库的统计和观察来增进知识,完善生成规则库,形成两个主要的生成规则库:“不可加‘了/u’的规则”库和“可加‘了/u’的规则”库。在基于规则的生成系统中,通过对规则库中的规则进行有序组织来有效地解决规则间的冲突问题。按照不同的层次存放规则和尽可能细分每一类型的规则是主要策略。文中分别以标注为V的动词和句子为单位来衡量生成结果,数据更加有层次性,更加客观可信。同时,还考虑到汉语动词中复杂的可加可不加动态助词“了”的情形,采用两个底本来衡量生成结果。一是完全忠实于原文的硬性底本;二是加入了人工干预的弹性底本,有效提高了正确率。就精确率而言,封闭和开放测试都取得了较好的效果。
其他文献
<正> 上海机床厂专门生产磨床已经有三十年的历史.这个厂有这样几个特点:第一,品种多,适应市场的能力强;第二,产品质量好,在国内外享有一定的声誉.1964年生产的螺纹和齿轮两
为获得稳定的有机硅乳液,分别采用几种不同亲水亲油平衡值的非离子型乳化剂(Gransurf71,77,90,Span60,Tween85)制备了有机硅乳液。考察了乳化剂Gransurf77(R77)浓度、乳化剂并用、油水
高毒性、难降解的传统杀生剂的长期、大量使用对环境造成了严重的危害,因此开发、使用低毒性、环境友好型绿色杀生剂具有重大的意义。本课题在查阅大量资料的基础上,论述了绿
"大学计算机基础"是高职人材培养各专业计算机技术应用的基础。本文围绕这一问题,就如何培养学生更好地利用计算机去解决专业领域及日常事务中的问题,如何提高学生利用信息技
中国武侠电影是一种以武侠文学为原型,融舞蹈化的武术技击表演与戏剧化、模式化的叙事情节为一体的类型影片。中国武术自其诞生之日起,就带着舞蹈艺术的神韵,中国武侠电影,在汲取
唯美主义是西方十九世纪后期出现的一种文艺思潮和流派。在思潮迭起、流派纷呈的欧洲文坛,唯美主义以其鲜明强烈的艺术个性、一反常规的美学主张和特立独行的生活姿态引起了一
轻度认知损害(mild cognitive impairment,MCI)是指一个有轻度认知缺损但没有痴呆的疾病分类单元,是痴呆发病的预警信号和新的治疗靶点。欧洲MCI诊断标准及其诊断程序更加符
分析黄淮学院转型发展的困难和问题,阐述学校自觉探索转型发展的动因和决心,提出一条主线、两大突破、三个转型、四个提升的转型发展路径选择,介绍学校转型发展的初步成效。
1978年,作为“当今最重要的文学批评家之一”的萨义德出版了《东方学》,它标志着后殖民理论的体系化和理论化。以种族、帝国、族性为主要内容,后殖民理论开启了对“当代欧洲大陆
从专业定位、师资队伍建设、人才培养模式、实践教学体系等方面介绍黄淮学院软件工程专业的建设历程,提出增强专业价值的方法与措施。