快速混合Web文档聚类

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:kingzdh410
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。
其他文献
作为语言技能的一个重要方面,英语阅读能力反映了人们对语法、词汇和篇章结构的掌握程度,也展示了一个人的整体英语水平。农村中学普遍存在着学生阅读兴趣低、主动性差、策略
目的:探讨精浆游离miR-122-3p和miR-141-5p在特发性弱精症中的诊断价值。方法:通过不同的室温孵育时间、反复冻融次数、4℃放置时间三种条件来分析精浆游离miR-122-3p和miR-1
目的:研究早期乳腺癌患者应用数字乳腺X线摄影检查的临床诊断价值。方法:我院选取2017年12月-2018年12月300例早期乳腺癌患者,根据不同诊断技术,分为研究组(N=40)和常规组(N=
为将含高质量浓度铁锰及氨氮的地下水处理成为洁净的饮用水,以哈尔滨市江北某水厂的高铁、高锰、高氨氮地下水(总铁、二价铁、锰及氨氮质量浓度分别为14.67、11.23、0.83和2.
目的探讨急诊创伤患者血清中皮质醇、NO水平与患者病情严重程度和临床预后的关系。方法收集2015年9月-2016年9月本院收治的150例急诊创伤患者作为研究对象,检测患者血清中皮
目的:对比接受机械通气支持治疗的呼吸衰竭患者应用自动导管阻力补偿技术(ATC)与压力支持通气(PSV)对自主呼吸试验(SBT)及拔管情况的影响。方法:选取本院2017年1月-2019年3月
高速铁路的施工建设(包括永久性和临时性工程)不可避免地占用和损毁一部分土地资源,如何对高速铁路建设临时用地土地复垦的过程以及效果进行监测成为土地管理部门需要面对的
本研究分为两大部分:其一,MMP-3基因多态性与乳腺癌的关联分析;其二,中药龙泉复方抗肿瘤机制的研究。以下分别概括:1.乳腺癌是女性最常见的恶性肿瘤之一,MMPs是基质金属蛋白
第一部分探讨双源CT双能量成像碘含量测定评价胃癌周围脂肪受侵的能力目的:研究双源CT碘含量定量测定对进展期胃癌周围脂肪浸润评价的能力。材料与方法:收集2010年12月至2011年
准确、灵敏地诊断白血病对于临床医生选择合适的治疗方法至关重要。目前白血病诊断的常规技术往往耗时、成本高、检测仪器昂贵,所以,开发一些检测成本低,使用仪器简单,并能提