论文部分内容阅读
本文所要解决的主要问题是通过对大规模中文文本语料的词频统计和分析,对包括齐夫第一定律和齐夫第二定律在内的齐夫定律进行汉语适用性的验证研究。本文分为五章来开展研究工作:第一章是对词频统计进行总体介绍和概述,厘清词频统计的定义与特性,阐述词频统计国外和国内的发展历程,介绍论文研究的目的、意义和内容。第二章是对本文研究的主旨——齐夫定律的发展历程的研究,阐释了本文研究的理论背景和指导思想,从数理上对齐夫定律进行了推导和演示,并回顾了国内对于齐夫定律以及齐夫定律的汉语适用性的研究。第三章是通过对大规模文本语料的词频统计和分析,验证齐夫第一定律的汉语适用性。文章首先对词级和词序进行定义区分,为接下来的实验扫清方法障碍;接着通过实验1对词级确定方法进行验证和比较,挑选出较为适合的词级确定方法;然后通过实验2对实验1所用语料进行人工分词和统计,以比较计算机手段分词统计与人工手段之间的差别,验证计算机手段的可行性和可信度;最后通过实验3对大规模文本语料进行词频统计和分析,绘出六大分语料库的齐夫分布曲线及齐夫对数分布曲线,并同齐夫第一定律中所绘出的理想的齐夫分布曲线和理想的齐夫对数分布曲线相比较,以判断齐夫第一定律的汉语适用性。第四章则是对齐夫第二定律进行大规模文本语料的验证与分析,以确定低频词段中文词频分布的规律,及其对齐夫第二定律的适用性。文章首先阐述了齐夫第二定律的发展历程,及其与齐夫第一定律的区别和联系;接着设定了实验4,首先统计出五大分语料库语料的同频词数和同频词数对数,然后通过齐夫第二定律,对同频词数进行理论推导,计算出预测值同频词数和预测值同频词数对数,最后提出绘制五大语料库各自的同频词数分布曲线、同频词数对数分布曲线、预测值同频词数分布曲线和预测值同频词数对数分布曲线,并互相比较,以求判断齐夫第二定律的汉语适用性。第五章则是结语,对本文所做的统计和验证工作进行总结,对未来可以继续开展的工作进行展望。在对六大分语料库进行齐夫分布研究后,我们发现,大规模中文文本语料的词频分布在高频词和中频词阶段符合齐夫第一定律的分布,而低频词段的词频分布则与齐夫第二定律的分布规律更为吻合。相应地,大规模中文文本语料的低频词段的词频分布较之于齐夫第一定律所描述的线性递降趋势有很大偏差,呈现出抛物线状下降的状态;在其中高频词段的词频分布与齐夫第二定律所描述的分布规律也不相似,呈阶梯状下降趋势。这也从侧面反映出齐夫第一定律和齐夫第二定律各自适用的范围与区间。最终本文得出结论,大规模中文文本语料符合齐夫定律的分布。