论文部分内容阅读
基于网页的数据挖掘研究已经取得了很多成果,但是基于文件共享系统的文件数据挖掘方面的研究还是一片空白。Maze系统是有中央控制结构的F2P网络文件资源共享系统,它共享着海量、异构的文件。本文的研究主题是基于Maze文件目录结构的向量空间模型以及在这个模型基础上进行聚类的过程。
第一部分是数据预处理工作。针对Maze中无价值文件比较多的情况,通过统计和观察Maze中数据的特点和变化,本文设计了多个指标来协同找出无价值文件。本文还利用文件多镜像的特点,通过构建敏感词库和敏感文件指纹库,来达到过滤敏感文件的目的。
第二部分是关键词提取工作,主要是切词,这是后面工作的基础。本文通过设计一种适应Maze的切词方法并在此基础上进行未登录词识别,从而,提取出了目录和文件比较准确的关键词。这其中,我们调整了切词策略,采用“漏词法”,最大可能地把未识别词找出来,然后,运用各种途径,比如,人名识别,专有名词识别,来识别未登录词。
第三部分是数学模型设计。本文通过介绍Maze中文件路径的特点,设计了一种基于目录这种树结构的向量空间模型。现在的研究主要是基于文档的向量空间模型,文档中的关键词与关键词之间是平行的,而Maze的目录和文件名中的关键词对于文件的贡献是不平等的,是一种树型结构。本文是通过设计一种关键词权值的分流模型结合全局权值,从而赋予了文件关键词比较合理权值。
第四部分是聚类。本文从分析k-平均方法的特点和缺点入手,然后根据Maze文件特征,设计了一种自组织的k-平均方法,并进行评测。这个方法主要通过设置两个阈值“合并系数”和“关联系数”来调整类与类和类内部点的关系。由于不用去预设类数目k,算法会根据这两个参数自组织地调整类中心使类的内部结构和节点的分布趋向合理,我们称这个方法为“自组织的k-平均方法”。最后,还提了如何优化聚类过程和结果展示的效果。