论文部分内容阅读
随着信息产业特别是互联网的高速发展,人们可以很容易得从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织形式可分为:结构化的数据(如数据库记录等)、半结构化的数据(xml文档,有相对固定格式的各类格式化文档)和无结构数据(如中文文本等)。
面对浩如烟海的数据,需要使用数据挖掘技术从数据中抽取感兴趣的信息。对于结构化的数据,数据挖掘工作比较直观,但是对于一些非结构化数据(包括半结构化数据中的非结构化数据),尤其是日常生活一个重要的信息来源—中文文本,需要做特殊处理。而中文文本聚类正是中文数据挖掘的一个重要基础。
本论文先对当前文本聚类的发展现状和相关方法做简要的回顾。
模拟人在判断一篇文档时所使用的方法,本论文提出一种新的文档向量模型一词频序向量模型(FSTVM)。这个模型将一篇中文文档表示成为出现频率最高的一些词所组成的向量,在向量中这些词按频率降序排列,词在文档中的位置将是聚类所利用的主要信息。
围绕FSTVM模型,论文按照一般文档聚类过程依次给出了特征提取(词汇过滤)、文档相似度和初始聚类中心选择等的处理方法。
特征提取(词汇过滤):除了对一些表征能力较弱词性(如介词,连词等)的词做整体去除外,论文还提出一种特殊而通用的方法用以过滤文档中的常用词。
文档相似度:表示为两文档向量共享词的个数,但是根据每对共享词在两向量中出现的位置施以惩罚。
初始聚类中心选择:针对中文文档的特点需要,为每类文档随机选择多个文档,并计算他们平均值作为此类的初始聚类中心。
在论文的最后,通过对一组从高校BBS上收集的文档集试验来验证本论文向量模型以及基于此向量模型的一系列处理方法的有效性。试验结果表明论文所提出的中文文本聚类方法比较高效。