论文部分内容阅读
本文先用词频统计的方法,统计所有可能独立使用的两词结构,通过阈值确定能够独立使用的两词结构,再随机抽取其中部分与现代汉语常见短语进行比较,研究两词结构的构成规则、功能,判断两词结构能独立成句的类型。本文的研究工作共分为五章展开论述:第一章主要介绍了“搭配”的概念以及国内外有关有关搭配的实验研究,为本文的研究奠定基础,同时简要阐述了论文研究的目的、意义、研究方法与组织结构。第二章分别介绍了中文分词与词性标注的相关情况,包括定义、方法和面临的困难,并基于本文研究的实际,建立适合下文实验的词性标注集。最后通过分词与标注测评,检验本文使用的分词软件与词性标注软件的正确率,验证其可靠性。第三章通过测试语料实验确定合适的阈值,以获取能独立使用的两词结构,为下一步大规模语料实验做好准备。本章首先将所有在两个中文标点之间的两词结构全部抽取出来,并假设这些两词结构都能够独立使用,统计其独立使用的次数、在全文中出现的总次数和两词在全文中单独出现的次数,建立词表Fre1、 Fre2和Fre3。接着通过测试一划分高低频区并选择高频区两词结构,通过测试二(Frel/Fre2的比值判断某个两词结构在全文中共现是否偶然)和测试三(互信息值判断两词内部是否具有连接性及连接强度)共同设定阈值,排除不能独立使用的两词结构。第四章为大规模语料实验,通过将实验获得的数据和现代汉语常见短语进行对比,判断获得的两词结构的构成规则和功能,从词语搭配的角度看哪些类型的两词结构能够独立成句。由于汉语词组(短语)的和句子的构造原则基本一致,我们研究两词结构的组合规则和功能,将对我们分析两词句有所帮助。首先我们沿用测试语料实验中设定的阈值筛选高频区数据,获得最终的实验结果,随机抽取其中1000个两词结构进行手动分析,先与现代汉语常见十种短语的构成规则表进行对比,观察两词结构的所属结构,再与现代汉语短语功能功能表对比,观察两词结构的所属功能,最后论及能够立成句的两词结构的类型。第五章为结语,对本文所做的实验和结论进行总结,提出了本文客观存在的问题,并对未来可以开展的工作进行展望。