基于遗传算法的文档聚类算法的设计与仿真

来源 :南京大学学报：自然科学版 | 被引量 : 0次 | 上传用户：yuanxu52051

【摘要】

：

在各种聚类算法中，K—means是一种基于划分的经典算法．但是由于Kmeans方法对于初始中心点的选择非常敏感，有可能导致聚类结果收敛于局部，本文提出了一种基于遗传算法来对类中心点

【作者】

：

魏建香刘怀苏新宁

【机构】

：

南京大学信息管理系,南京人口管理干部学院信息科学系,南京师范大学电气与自动化工程学院

【出处】

：

南京大学学报：自然科学版

【发表日期】

：

2009年3期

【关键词】

：

文档聚类遗传算法相似度类中心 document clustering genetic algorithm similarity cluster ce

【基金项目】

：

Foundation Item：National Natural Science Foundation of China（10T71076）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在各种聚类算法中，K—means是一种基于划分的经典算法．但是由于Kmeans方法对于初始中心点的选择非常敏感，有可能导致聚类结果收敛于局部，本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法．在传统相似度计算的方法中，文档相似矩阵为绝大部分元素为0的稀疏矩阵，忽略了关键字之间的部分相似性，影响了文档之间的相似度．为此，本文改变了传统相似度计算的方法，通过关键字之问的部分相似度，设计出更加精确的文档相似度计算公式。在遗传算法的设计中，将K个类中心点组成的矩阵作为初始个体，采用浮点数进行编码；

其他文献

支持模型驱动式软件开发的建模语言框架研究

随着模型驱动体系结构（model driven architecture，MDA）技术和环境的不断发展，模型驱动软件开发（model driven development，MDD）已经成为一种新的软件开发模式，对于MDD软件开发过程中

期刊

模型驱动软件开发元对象机制建模语言网络本体语言model driven development meta object facility model

金融资产管理公司运作的国际经验及启示

国际经验表明,建立专门的金融资产管理机构来处理银行不良资产是一种比较成功的做法.为此,我国也于1999年相继成立了华融、长城、信达、东方四大资产管理公司,分别收购、管理

期刊

金融资产管理公司中国银行不良资产外置运作模式资产管理资产管理

江苏省民营科技企业发展对策研究

本文结合江苏省科技统计资料，分析了江苏省民营科技企业发展的主要特点及面临的问题，提出加快江苏省民营科技企业发展的对策和建议。

期刊

民营科技企业区域创新创业系统对策

探究小学体育课堂教学方法的优化

课程的延伸,真正与新课标的实施和开展融合起来。加强体育训练,提升国民的身体素质,成为我国当前教育教学领域的一项重要任务,小学体育课堂更是首当其冲,责无旁贷。作为小学

期刊

小学体育课堂教学方法优化

二十世纪各国经济增长差异比较

期刊

二十世纪经济增长差异比较世界经济政策

关于中美经贸摩擦的事实与中方立场

目录$$前言$$一、中美经贸合作互利共赢$$二、中美经贸关系的事实$$三、美国政府的贸易保护主义行为$$四、美国政府的贸易霸凌主义行为$$五、美国政府不当做法对世界经济发展

报纸

以统计信息为基础的电网负荷特性记录装置安装地点选择

基于统计信息与实际测辨数据相结合的电力系统负荷建模思想在实践中可行的路线是以变电站聚类，并从中选择典型变电站安装负荷特性记录装置为核心的方法。在简述传统基于聚类分

期刊

负荷建模聚类分析装置位置选择load modeling aggregation analysis positionchoice for instrumen

集胞藻胞外多糖的流变学性质和乳化活性

集胞藻在培养过程中向培养基中分泌大量胞外多糖，流变学研究表明这种胞外多糖呈现假塑性行为，粘度值接近黄原胶，当剪切速率存0．15s^-1时，两者粘度相等．集胞藻胞外多糖在0．1mol／L氯化

期刊

集胞藻胞外多糖流变学性质粘度乳化活性cyanobacterium Synechocystis sp. PCC 6803 rheological pr

针对入侵检测的代价敏感主动学习算法

入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取

期刊

主动学习采样版本空间代价敏感学习样本复杂度active learning sampling version space cost-sensiti

值得南昌地区推广栽培的芳香植物——迷迭香

介绍新型香草植物——迷迭香在南昌地区引种栽培的情况,通过分析其生物学特性、生态习性,认为迷迭香可作为园艺观赏植物及园林绿化新品种在南昌地区推广运用。

期刊

芳香植物迷迭香栽培

基于遗传算法的文档聚类算法的设计与仿真

与本文相关的学术论文