基于句子级最大频繁单词集的Web文档聚类研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:chxiang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。
其他文献
目的:观察和对比腹腔镜筋膜内子宫切除术与经腹子宫切除术的临床疗效。方法:采用腹腔镜筋膜内子宫切除术患者79例为观察组,随机选择44例经腹子宫切除术患者作为对照组,比较两组
脑钠肽或B型利钠肽(brain/Btype of natriuretic peptide,BNP),是1988年由Sudoh等首先从猪脑内分离出来的一种心血管肽类激素。它是利钠肽家族中的一员,BNP主要由心室分泌,是反映左
目的:探讨二甲双胍联合克罗米芬治疗多囊卵巢综合征(PCOS)胰岛素抵抗(IR)性不孕症的疗效。方法:口服二甲双胍联合克罗米芬,对30例PCOSIR性不孕症进行治疗,观察各组患者治疗前后体重指
目的:分析影响眼球穿孔伤致盲的有关因素。方法:对69例75眼眼球穿孔伤的临床资料进行回顾性分析。结果:75眼中有28眼发生致盲,致盲与伤口位置、角膜伤口的线形与非线形、伤口长
联合化疗对恶性肿瘤患者有积极的意义,但肿瘤细胞产生的耐药性又是肿瘤化疗失败最常见而又最难解决的问题之一。肿瘤细胞产生耐药性是多方面的,其中以多药耐药性(multi-drug r
超节点P2P(Super-peerP2P)结合了P2P结构和C/S结构的优点,是当前应用最广的一类P2P系统。在超节点P2P网络中,文件访问是最基本的操作,往往使用缓存技术来提高其操作效率。目前大多
目的:探讨云南汉族系统性红斑狼疮(SLE)患者血清及尿液中单核细胞趋化蛋白1(MCP-1)水平与其病变相关性。方法:对SLE患者血清及尿液MCP-1水平均用酶联免疫吸附实验(ELISA)进行检测,并采
目的:探讨多层螺旋CT(MSCT)及其图像后处理技术在肺栓塞诊断中的意义及价值。方法:应用多层螺旋CT机对80例肺栓塞病人行动脉增强扫描,并将图像进行多层面重建(MPR)、曲面重建(CPR)、
目的:评价碘实验室检测水平,提高尿碘、盐碘监测资料的准确性和可靠性,为全区实现消除碘缺乏病工作提供质量保障。方法:盐碘采用GB/T13025.7-1999中直接滴定法;尿碘采用过硫酸
可信计算机系统中一些隐蔽数据流避开了安全机制的监控,造成信息的泄漏。本文通过对这种隐蔽流泄漏信息的机理进行分析和抽象,提出了一个通道元模型。将每一类通道元看成一个有