论文部分内容阅读
随着计算机技术的迅速发展和普及,电子信息日益增多,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理有效的组织和管理文本信息已经日益成为信息处理领域一个十分重要的研究课题。近年来,作为保证文本挖掘质量前提的文本表示方法的研究受到越来越多学者的重视。
在本研究中我们从文本表示方法入手,将图论中的图结构技术应用到文本挖掘中,提出了一种新的基于图结构的文本表示方法。与传统的基于统计向量的文本表示方法相比,图结构更有利于文本的结构信息的表示。在保留了文本特征项的同时,还可以描述特征项间的位置关系及关联强弱。
研究内容主要包含以下部分。首先是文本表示模型的提出。在分析了传统文本表示模型现状的基础上提出了基于图结构的中文文本表示模型。将文本特征项表示成图结构节点,特征项间的共现关系描述为图结构的边,进而将文本映射为图结构,有效的解决了文本表示过程中的信息流失问题。
其次是相似度计算方法的引入。与图结构的文本表示方法相对应,我们提出了一种适于此文本表示方法下的文本相似度计算方法——最大公共子图算法。将相似度的计算分解成内容的相似度与结构的相似度,使得文本相似度度量考虑因素更加全面。假设两个图结构公共的部分越多,那么它们所对应的文本间的相似度就越大,因此利用最大公共子图的特性度量两个文本的相似程度。
再次是聚类算法的改进。提出了扩展的K-means聚类算法,引入了中值图的概念将其作为图集中心用以度量单个图结构与图集间的距离,使聚类算法适用于图结构表示的文本聚类。
最后是实验验证。通过对已有分类标注的分类语料进行聚类,应用准确率、召回率和F-Score指标对聚类结果进行评价。