论文部分内容阅读
本文研究了对汉语方言词汇进行语义描述、分析、检索的数字化方法和技术,建立了一个汉语方言词汇数据库系统,实现了基于语义的多方言词汇检索和比较,为方言词汇的调查研究提供了一个数据平台。这项工作有助于对方言词汇系统的总体把握和多方言词汇的比较研究,对系统地研究汉语方言词汇有重要的意义。
汉语方言词汇数据库系统的特点是,用概念关联来组织和描述各个分地方言的词汇语义。本文以汉语方言义类系统为基础,提出了义类系统的形式化描述和组织方式,以概念分类树的形式在计算机上实现。在概念分类树的框架下,建立了一个汉语方言概念库,汇集方言调查和研究中常用的各种词汇语义,作为概念项收录在概念库里,并且按照方言义类系统的规定描述每一个概念项的意义。然后对每一个分地方言建立一个词汇库,用概念库里的一个概念项代表不同方言里的一个方言词语或一组具有类似意义的方言词语。也就是说,一个概念项可以关联不同方言里的一个或一组具有类似意义的方言词语;各个方言里的每一组意思相近的词语,在概念库里都会有一个概念项与它关联。这样就为不同方言的词汇建立起一个共同的参照系,使不同方言的词语在概念意义的基础上关联起来。
汉语方言词汇数据库系统是由概念分类树、方言概念库和各个分地方言词汇库组成的,其中方言概念库目前共收录和描述了概念项4700余条,在此基础上对南京和成都方言词语(共约14000条)做了概念关联标注。数据库系统具有管理概念分类树和方言概念库、从几种概念关系的角度检索各个分地方言词语的功能,能够帮助我们实现基于语义的多方言词汇检索、整理和比较研究。
本文主要在以下几个方面进行了研究和尝试:
1、研究了汉语方言义类系统的形式化结构和组织方法。为了将义类系统应用到方言词汇数据库系统当中,对这个义类系统进行了结构化重组,改造了概念分类树结点分布,建立了相应的数据结构模型,并设计了在计算机上实现这个义类系统的算法和程序。
2、建立了汉语方言概念库。以《汉语方言词语调查条目表》为基础,根据南京话、成都话等分地方言词汇进行增补和删减,使汉语方言概念库收录了概念项4700余条,并且依据汉语方言义类系统对概念项的意义逐个进行了人工标注。
3、建立了分地方言词汇库。共收录了成都话和南京话的14000个条目,并把全部词语分别与经过语义标注的概念项逐个关联,使汉语方言概念库成为分地方言的词汇语义参照系。
4、以汉语方言义类系统和汉语方言概念库为基础,研究和开发了汉语方言词汇数据库系统。这个系统能够管理概念分类树、方言概念库和各个分地方言的词汇库(目前有成都话和南京话两个库),能够实现基于概念分类树的查询模式,用多种查询手段从几种概念关系的角度检索方言词语,并且具有相关的统计功能。