论文部分内容阅读
中国素有“诗国”的美誉,自古至今,有无数的文人雅士留下了许多脍炙人口的作品,这些作品是中国文学中的明珠,也是传统文化的瑰宝.长期以来,在中国诗歌的研究中,对不同类型的作品进行分类,既是单独的一项研究内容,又是深入对内容意义研究的前提和基础,因此对诗歌的分类研究是诗歌文学领域中重要的一项内容.然而中国上千年的历史留下的诗歌作品浩如烟海,传统的研究方法需要研究者阅读大量的知识素材,还要作翻阅、查找、记录、整理等工作,再进行分析和统计,最后做出个人的判断,这样的过程既耗时耗力,又可能由于个人的喜爱偏好得到不客观的结论。本文利用现代的计算机理论和技术,结合古典诗词的特点,对古典诗词进行分类,使得计算机在一定程度上可以“理解”诗词,从而对相关领域的研究提供了参考。本文的研究工作主要包括以下几个方面:1、对当前利用计算机来研究古典诗词的现状进行了总结。详细介绍了古典诗词中意象的概念,并根据古典诗词中常用意境来表达内容的特点,提出了古典诗词意境分类的模型。2、对本文提出的古典诗词意境分类模型进行了详细的介绍。根据古典诗词中每个特征项都会表现出一定的倾向性,提出了把特征项表示成代表不同类别比重的向量。在经典的向量空间模型VSM(Vector Space Model)的基础上,通过对那些具有相似倾向性的特征项进行聚类,改进文本模型的表示方式,把每篇诗词表示为基于特征项聚类的模型。3、根据上面提出的诗词表示模型,把诗词分类问题转化为文本分类问题,通过分类算法对古典诗词进行分类判别。本文比较了不同分类算法对古典诗词分类准确性的差异,从中寻找出最适合诗词文本分类的算法。同时比较了基于字和基于词的特征项的差别,得出了基于字的特征项较好的结论,并对特征项个数和聚类角度阈值的取值进行了分析,最终取得了一个最佳的取值范围。4、在本文提出的分类模型的基础上,构建了一个简易的分类系统。用户通过输入诗词后,就可以得到计算机所返回的结果,同时还会返回给用户语料库中最相似的诗词和特征项的统计数据等结果。