基于遗传算法的文档聚类算法的设计与仿真

来源 :南京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:yuanxu52051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在各种聚类算法中,K—means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;
其他文献
随着模型驱动体系结构(model driven architecture,MDA)技术和环境的不断发展,模型驱动软件开发(model driven development,MDD)已经成为一种新的软件开发模式,对于MDD软件开发过程中
国际经验表明,建立专门的金融资产管理机构来处理银行不良资产是一种比较成功的做法.为此,我国也于1999年相继成立了华融、长城、信达、东方四大资产管理公司,分别收购、管理
本文结合江苏省科技统计资料,分析了江苏省民营科技企业发展的主要特点及面临的问题,提出加快江苏省民营科技企业发展的对策和建议。
课程的延伸,真正与新课标的实施和开展融合起来。加强体育训练,提升国民的身体素质,成为我国当前教育教学领域的一项重要任务,小学体育课堂更是首当其冲,责无旁贷。作为小学
目录$$前言$$一、中美经贸合作互利共赢$$二、中美经贸关系的事实$$三、美国政府的贸易保护主义行为$$四、美国政府的贸易霸凌主义行为$$五、美国政府不当做法对世界经济发展
报纸
基于统计信息与实际测辨数据相结合的电力系统负荷建模思想在实践中可行的路线是以变电站聚类,并从中选择典型变电站安装负荷特性记录装置为核心的方法。在简述传统基于聚类分
集胞藻在培养过程中向培养基中分泌大量胞外多糖,流变学研究表明这种胞外多糖呈现假塑性行为,粘度值接近黄原胶,当剪切速率存0.15s^-1时,两者粘度相等.集胞藻胞外多糖在0.1mol/L氯化
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取
介绍新型香草植物——迷迭香在南昌地区引种栽培的情况,通过分析其生物学特性、生态习性,认为迷迭香可作为园艺观赏植物及园林绿化新品种在南昌地区推广运用。