【摘 要】
:
传统的对数据进行k簇划分过程中,一旦数据过大,在各个簇中心的距离的计算和划分中,需要大量的距离计算操作,算法效率较低。本文提出了一种基于约束性过滤的改进K均值挖掘算法
【机 构】
:
平顶山学院软件学院,平顶山学院计算机科学与技术学院
【基金项目】
:
河南省科技厅2011年科技发展计划项目(112102210334)
论文部分内容阅读
传统的对数据进行k簇划分过程中,一旦数据过大,在各个簇中心的距离的计算和划分中,需要大量的距离计算操作,算法效率较低。本文提出了一种基于约束性过滤的改进K均值挖掘算法。利用聚类算法中涉及到的可重用的信息,对大量的数据进行校验,删除掉一些冗余信息,保证数据的最优化,克服了k-means聚类算法针对"噪声"和孤立点数据是敏感的缺点。实验证明,提出的初始中心选择方法能够选择出合理的初始聚类中心,改进的k均值算法与传统的k均值聚类算法相比,算法的鲁棒性更强,聚类效果更好。
其他文献
威布尔分布是最广泛应用在可靠性工程寿命分析中的一种分布,本文利用威布尔分布参数估计中传统的图估计法借助于Weibull++6.0对国产东港LL-5型多媒体语言学习系统中的HF9600放大
针对数据库多连接查询优化问题,提出一种基于遗传禁忌算法的数据库多连接查询优化策略。把遗传算法作为查询优化的主框架,禁忌搜索作为遗传算法的变异算子,增加种群多样性,克服遗
1982年9月17日美国兰德研究生院院长沃尔夫在中国址会科学院工业经济研究所和美国兰德公司共同举办的“政策分析研究班”上作了题为《政策分析概论》的讲演。在这以前,他还曾以《政策分析和培训》和《政策分析和决策》的题目分别在西德和委内瑞拉作过讲演。三次讲演的主要观点如下。
研究了合成1,4-丁二磺酸二钠盐的工艺。在1,4-丁二磺酸二钠盐的合成过程中.由于在反应体系中加入表面活性剂EDTA,最佳反应时间只要约3h,与文献f11中长达36h相比,大大缩短了反应时间
前不久,天津市政治经济学(社会主义部分)研究会召开了沿海中心城市对内经济联合问题学术讨论会。现把主要观点摘述如下:
1982年9月,菲律宾大学经济系美籍教授欧西马应邀来日;国社会科学院讲学。他针对世界上主要的发展经济学家的一些最重要的理论,提出了自己的不同观点。现把有关内容介绍如下:
根据上海市东电力公司提供的浦东新区2001年1月1日至2003年6月30日每5分钟电力负荷数据和浦东气象台同期每小时气温、气压、风速、风向、湿度、降水、日照时数等气象要素资料
在计算机多分簇任务执行中,由于初始能量有限,需要对网络分簇能耗进行优化分配,提高任务执行效率.提出基于剩余能量相干均衡的网络分簇能耗双阈值分配算法,算法考虑了节点当
经国家经委批准,地质矿产部地质技术经济研究中心最近在河北省燕郊成立。
提出一采用遗传优化支持向量机的文本图像识别方法。改进的思路为首先采用图像采集设备获得图像,并进行预处理,然后提取字符的特征向量,采用主成分分析对特征向量进行降维处理,最后采用遗传优化的支持向量机进行字符识别。实验结果表明,提出的方法使得文本图像识率达到97%以上。