基于VSM模型的Maze资源聚类系统的设计和实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:chxiang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于网页的数据挖掘研究已经取得了很多成果,但是基于文件共享系统的文件数据挖掘方面的研究还是一片空白。Maze系统是有中央控制结构的F2P网络文件资源共享系统,它共享着海量、异构的文件。本文的研究主题是基于Maze文件目录结构的向量空间模型以及在这个模型基础上进行聚类的过程。 第一部分是数据预处理工作。针对Maze中无价值文件比较多的情况,通过统计和观察Maze中数据的特点和变化,本文设计了多个指标来协同找出无价值文件。本文还利用文件多镜像的特点,通过构建敏感词库和敏感文件指纹库,来达到过滤敏感文件的目的。 第二部分是关键词提取工作,主要是切词,这是后面工作的基础。本文通过设计一种适应Maze的切词方法并在此基础上进行未登录词识别,从而,提取出了目录和文件比较准确的关键词。这其中,我们调整了切词策略,采用“漏词法”,最大可能地把未识别词找出来,然后,运用各种途径,比如,人名识别,专有名词识别,来识别未登录词。 第三部分是数学模型设计。本文通过介绍Maze中文件路径的特点,设计了一种基于目录这种树结构的向量空间模型。现在的研究主要是基于文档的向量空间模型,文档中的关键词与关键词之间是平行的,而Maze的目录和文件名中的关键词对于文件的贡献是不平等的,是一种树型结构。本文是通过设计一种关键词权值的分流模型结合全局权值,从而赋予了文件关键词比较合理权值。 第四部分是聚类。本文从分析k-平均方法的特点和缺点入手,然后根据Maze文件特征,设计了一种自组织的k-平均方法,并进行评测。这个方法主要通过设置两个阈值“合并系数”和“关联系数”来调整类与类和类内部点的关系。由于不用去预设类数目k,算法会根据这两个参数自组织地调整类中心使类的内部结构和节点的分布趋向合理,我们称这个方法为“自组织的k-平均方法”。最后,还提了如何优化聚类过程和结果展示的效果。
其他文献
定位技术是无线传感器网络的关键技术之一。基于射频(Radio Frequency, RF)信号的定位技术由于其仅利用节点自身的RF信号就能实现定位、无需额外硬件支持等特点而被广泛使用
随着 Web应用软件用户数量的急剧增长和业务规模的不断扩大,如何保证 Web应用软件的稳定性与可靠性成为人们关注的重要问题。Web性能测试是保证Web应用软件稳定性与可靠性的
信息技术的发展,使企业的全球化竞争日趋激烈,销售系统设计的目的是帮助企业进行更好的客户产品的销售管理,使企业建立弹性化和灵活性的业务流程,提高工作效率,减少人工操作中
本文首先概要地介绍了汽车电子领域的焦点——CAN/LIN总线技术,并结合基于重型卡车的CAN/LIN总线整车仪表控制系统的研发工作,从其机理、总体结构的研究到软硬件的开发设计、
随着Lntcrnct技术的迅猛发展,对人机之间,尤其是机器与机器之间的交互需求越来越多。具有松耦合性,自我描述以及XML文档驱动等特征的Web服务技术作为一种新型的分布式计算模
学位
网格是继Internet后的新一代信息基础设施,是新一代软件基础支撑平台。网格环境开放、动态、多变,其用户多样,用户需求多样且不断变化。面对网格新形势,研究如何构造可随网格环境
广告检测与识别技术是指利用计算机对广播电视节目中出现的广告进行自动检测并识别。由于音频广告检测与识别和相应的视频处理相比,效率更高,因此本论文将重点关注音频广告检测
目前,中职学校学生就业难,这是众所周知的。在“双向选择”“自主择业”过程中,既有成功的喜悦,也有无可奈何的叹息。在这方面,无奈和叹息的多半是中职毕业生。对此问题,教育专家提
现代汉语介词(以下简称为介词)是现代汉语语法词类中的一个重要类别,没有实在的词汇意义,但是介词却是汉语语句中重要的语义信息标记,对汉语的词义消歧、语义分析等工作提供帮助
伴随 Web的飞速发展,其带来的问题也日益显现,Web内容中出现了各种各样的不良信息,已经开始侵入人们的生活,严重玷污了网络环境,有悖于和谐社会的理念。由于很多 Web没有传统