基于遗传实例和特征选择的K近邻训练集优化方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:xingke198621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K近邻的分类性能依赖于训练集的质量。设计高效的训练集优化算法具有重要意义。针对传统的进化训练集优化算法效率较低、误删率较高的不足,提出了一种遗传训练集优化算法。该算法采用基于最大汉明距离的高效遗传算法,每次交叉保留父代并生成两个新的具有最大汉明距离的子代,既提高了效率,又保证了种群多样性。该算法将局部的噪声样本删除策略与特征选择策略相结合。首先使用决策树算法确定噪声样本存在的范围,然后使用遗传算法精准删除此范围内的噪声样本和全局的噪声特征,降低了误删率,提高了效率。该算法采用基于最近邻规则的验证集选择策略
其他文献
目的:系统评价平肝潜阳法治疗高血压病肝阳上亢证的疗效及安全性。方法:全面检索近20年来发表在国内生物医学期刊上的运用平肝潜阳法治疗高血压病肝阳上亢证的随机对照临床研
失效模式与影响分析(Failure Mode and Effect Analysis,FMEA)是一项事前预防的风险分析手段,在实际运用过程中有许多不足。传统FMEA方法的应用环境是高度不确定的,运用传统
由于无法预知产品在线评论的文本内容是否对浏览者有用,大量的无用评论增加了潜在消费者的信息搜索成本,甚至降低了潜在消费者购买产品的可能性。为提高电子商务平台的有用在线评论率,为撰写评论者提供测试功能,建立在线评论有用程度预测模型。根据在线评论的文本特征,所提模型选择在线评论的词语数量、词语的有用值、产品特征数量等3个特征,构建一个预测在线评论有用程度的模型,其中词语的有用值是词语区分在线评论有用程度