论文部分内容阅读
随着信息技术的不断发展和计算机不断普及,个人数据信息急剧膨胀,Web也日益成为一个巨大的信息共享平台,各种数据随之呈现出一些新的特性:一是增长的快速性;二是数据共享性;三是数据结构多样性;四是数据分布的异构性。在这样的背景下,数据空间作为一种新的信息管理技术被提出以适应异构复杂数据的管理需求。作为最常使用的信息存储工具之一,文本内部包含了大量半结构或者无结构的信息。如果在数据空间中,将文本内部的信息作为一项数据源,利用文本内容之间存在的各种关联为用户的查询和浏览提供导航,那么将使数据空间管理系统的功能得到很大的完善。然而,当前的数据空间系统大多忽略了文本丰富的内部信息。本文主要针对数据空间系统在文本内容处理方面存在的不足,提出了两种基于文本内容的聚类方式,从而有效组织和管理文本。本文以数据空间中的文本作为数据源,首先从文本中抽取出大量内容信息,然后将内容信息划分成模式信息和特征信息。利用这些内容信息对文本实现两种方式的聚类:基于文本模式信息和特征信息的聚类。在基于模式信息的文本聚类中,提出了一种词频矩阵的模式词选择算法。该算法采用文档频次的思想选择文本集中的模式词,并用这些模式词构建向量空间表示文本,然后使用SOM聚类算法对文本进行聚类。聚类过程中对SOM进行了优化,减少了训练次数,提高了聚类效率和准确度。在基于特征信息的文本聚类中提出了一种基于频繁词的树聚类算法FTTC。基于FP-growth算法的思想,按照文本中频繁词的重要度构建一棵聚类树,然后根据树中节点包含的文本数量是否满足最小支持度来对节点进行合并和上移操作。通过合并和上移使得所有满足最小支持度的节点为一个聚类簇,使用从根节点到该节点的频繁词作为簇标引,并且每个文本被划归到唯一的簇中。在聚类的基础上,数据空间用户能够根据聚类簇内部文本之间的相似关系和文本聚类的层次结构方便地查询文本内容,快速地浏览文本信息。实验主要从算法的聚类结果的准确率和召回率、参数对聚类结果的影响以及算法效率等方面进行了验证。