基于KL准则层次文本聚类

来源 :辽宁师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:pipi1980_ren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类已经被用来提高文本检索或文本分类效率和效果的一种手段,我们在本文中提出层次聚类算法是依据KL测度构造一组聚类,其实质是最小条件熵聚类,通过用结构a-熵代替香农熵推广最小条件熵准则,当a=2时,基于结构a-熵最小熵测度与最近邻方法的误差率相等.实验结果表明,HKLC算法比其它算法在文本聚类中具有良好性能.
其他文献
以多金属氧酸盐(POMs=[Mn4(H2O)2(PW9O34)]10-)为无机前驱体,TPAOH为碱性模板剂,结合胶态晶种制备、脱模及晶化等方法,原位合成了POM s/ZSM -5多酸基分子筛纳米复合材料.SEM 、XRD、FT-I
随着上海市森林资源一体化监测的持续推进和上海林业信息化建设要求的不断提升,基于上海本市实际需求,从系统体系架构、系统部署架构、数据库设计和系统功能实现方面研究设计
以PVP分散的石墨烯修饰玻碳电极(PVP-RGO/GCE)制备检测沙丁胺醇(SAL)的电化学传感器,并采用循环伏安法(CV)及差分脉冲伏安法(DPV)对传感器进行了表征和研究.结果表明:在PVP与石墨烯质
基于语义内容的图像检索已成为解决图像低层特征与人类高级语义之间"语义鸿沟"的关键.笔者以性能优越的回归型支持向量机(SVR)理论为基础,结合重要的图像边缘信息及人眼视觉特性,
本文介绍了作者基于C#语言开发的Word格式计算书自动生成软件AutoCR的主要模块,以及文字处理、数据处理和图表绘制等功能及实现方法。采用AutoCR生成计算书,不仅可大大节省计
<正>中国是茶叶大国,但世界上最有名的茶却是英国的立顿红茶。品牌的缺失使得消费者无从选择,没有品牌就没有市场,知名度、美誉度、忠诚度更无从谈起。在茶叶产业貌似繁荣的
会议
针对带有边界变量的多目标优化问题,提出一个新的随机群体搜索算法,该方法在可行域内随机选取N个样本点,把每个样本点看成带电粒子。根据不同目标函数,分别定义其电荷,针对每个样