基于语义相似度的Web文档聚类算法

来源 :合肥工业大学学报:自然科学版 | 被引量 : 0次 | 上传用户:xuyi50488
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。
其他文献
文章给出了多元非线性回归模型的广义最小二乘法(GLS)估计,并运用Klimko-Nelson定理关于随机过程的OLS估计量是强相合和渐近正态的结果,证明了多元非线性回归模型的GLS估计量的强
文章提出了一种研究风险模型的新思路,构造了一个再保险条件下多险种风险模型的时间盈余过程,从一个新的方面给出了破产概率的定义;研究了时间盈余多险种风险模型中再保险对调节
新闻作为社会信息的主要传播媒介,对于人们的日常生活有着很大的影响。在信息化时代背景下,人们对于各类信息的关注程度不断提高,各种不同的新闻体裁也在信息传媒发展中更替着。
目的:研究NMDA受体NR2B亚单位细胞内C末端,在NR1-1a/NR2B亚型NMDA受体装配和表面表达中的作用.方法:构建C末端不同缺失和GFP标记的NR2B亚单位表达载体,单独转染或与NR1亚单位
目的:观察可溶性Fas(sFas)和可溶性细胞间粘附分子-1(sICAM-1)及白细胞介素-18(IL-18)在慢性丙型肝炎患者血清中的水平,探讨它们在丙型肝炎发病机制中的作用.方法:采用ELISA
故障诊断是工业过程中一个重要的问题。文章将故障诊断方法分为基于定量模型的方法、基于定性模型方法和基于数据的方法。在对各种故障诊断方法的基本思想和原理作简要回顾的
2007年,我有幸获得了韬奋新闻奖,这是组织关怀的结果,是报纸品牌影响力不断增强的结果,是我们团队全体人员长期团结奋斗的结果。经过20年的倾力打造,《齐鲁晚报》已经成为一个知名