基于主题子空间的文本模糊C均值聚类方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:dongfsq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.
其他文献
分析了应用层组播路由模型,提出了更合理的应用组播路由模型.进一步给出了求解应用层组播路由问题的遗传算法,并分析了该算法的复杂性.大量的数值仿真表明该算法有较好的数值
现有的MPLS故障恢复方案存在不同的性能问题:Makam方案需要提前建立备份路径,浪费了大量网络资源;简单动态方案动态建立备份路径,资源利用率高,但是需要等待路由表收敛,恢复时
以一种开放的格式来表迭规则图形厦其连接关系将极大地提高囤、数一体化数据共享能力,降低重复开发现象.文章分析了规则图形连接关系的形成特点,利用囤论的思想形式化地描述了规
提出了一种可扩展、分布式的邮件系统设计方案.通过远程过程调用和负载的动态分配,可以将邮件储存在多个服务器上,解决了单台服务器CPU、磁盘I/O性能不足的问题;通过邮件的同
本文将蒙特卡罗搜索法与优生遗传算法应用于构造饰带群等价映射模型p112与模型p1a1混沌吸引子,并针对“遗传漂移”现象提出了改进的优生遗传算法.研究表明,在参数空间中引入空间距离的限制,可以由初始种群参数向量搜索出无重复参数向量的子代参数集合.在进化的种群中,也无重复混沌吸引子参数向量,从而避免了原有优生遗传算法在种群中出现的“遗传漂移”现象.新算法实现了种群中的参数无重复地不断更新,利用更新的种
MANET(Mobile Ad Hoc Networks)的特点是所有节点之间均采用无线通信,没有基站参与通信,节点可以随意移动,因此好的路由协议是MANET的关键.本文提出TDSR协议,利用已有的信息,
在同一决策系统中,可提取满足多种不同应用的知识.但对一既定用户,不是所有知识都是必要的.如何发现仅对用户有价值的知识(称为个性化知识),是一个挑战性的研究课题.为此,设
随着XML逐渐成为Internet数据表示与交换的标准,如何快速准确地访问XML文档中的数据已成为亟待解决的关键问题,建立路径索引是提高查询效率的一种重要手段.本文设计了一种基于PA