基于K近邻特征选择方法的研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:guohui413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择技术的快速发展使学习模型能够更快速、更准确的从高维数据中提取具有重要性和相关性的特征,已经广泛应用于机器学习、图像处理、文本分类和模式识别等多个重要领域。K近邻(K-nearest neighbors)算法是一种无参数的简单算法,具有对异常值不敏感的优势。近年来,它也被用于特征选择方法的研究中。然而,目前的研究工作仍存在以下问题:首先,已有结合K近邻的模型大多数在对测试样本的类别进行判定时,仅依据样本间距离的远近程度不同来决定每个近邻样本对类别的贡献,在计算样本间距离时,忽略了每个特征的重要性的不同;其次,许多处理动态特征的真实应用,不能事先获取数据集的全部信息,而且对于不同的数据集,难以固定一个统一且是最优的参数,因此,传统的结合K近邻算法的特征选择方法无法直接用于处理动态特征。
  在本文中,首先针对数据集中不同特征携带的用于判定目标类别的信息不同的特点,提出了一个基于加权K近邻和遗传算法的特征选择方法(简称为WKNNGAFS),该方法使用特征权重向量,第i个分量的值对应于第i个特征对分类的贡献度,在计算样本类别时既考虑了每个特征的重要性,又考虑了与近邻样本的距离,并用遗传算法从全局角度搜索最优特征权重向量。为了证明提出方法的性能,将该方法与5种基于信息论的方法和4种基于Wrapper的方法,在13个数据集上,其中6个高维微阵列数据集,使用5个分类器进行了比较,实验结果表明该方法具有较好的分类性能。
  其次,针对传统结合K近邻算法的特征选择方法无法直接用于处理动态特征的问题,本文提出了一种基于邻域粗糙集的在线流特征选择方法(简称为OFS-Gapknn),该方法不需要事先获取数据集的全部信息,并且能根据不同的数据集自动计算参数,首先结合K近邻邻域和Gap邻域的优势,定义了一个新的邻域粗糙集关系,然后,设计了一种特征约简算法来决定是保留还是放弃新的特征,并选择具有高相关性和低冗余度的特征。为了验证该特征选择方法的性能,将该方法与4种传统特征选择方法和3种在线流特征选择方法,在11个数据集上使用5个分类器进行了比较。实验结果充分证明了该方法具有较好的性能。
其他文献
到2019年底,我国奶牛规模化养殖比例达到了64%,相较于2018年底的61.4%,提升了将近3个百分点,奶牛年均单产也从2018年的7.4吨提升到了2019年的7.8吨。可以说,我国在奶牛规模化养殖的道路上取得了卓越的成绩。目前,西方发达国家的奶牛业已经向集约化、工厂化和信息化的方向发展,其中信息化对规模化养殖具有重要的意义,能够提高生产效率,优化生产流程,节省大量的人力物力。相较而言,信息化技
玉米是主要的粮食作物和牲畜的饲料,各国对玉米的需求量一直很大。这意味着提高玉米的产量,带动农民的经济发展也是我国亟需解决的问题。玉米的病害种类日益繁杂是制约产量提高的主要原因。因此,用计算机技术帮助农民识别玉米的病害是学者们的重点研究之一。神经网络的图像识别技术作为新兴技术,逐渐成为农作物病害识别的主流。但是神经网络(Neural Networks)模型的训练和推理对计算机的性能要求较高,一般都在
学位
我国是农业大国,猪肉的出栏量、消费量与养殖规模连续多年位居世界第一,养猪业的健康稳定发展与民生息息相关。国家统计局显示,近一年来生猪存栏量与能繁母猪存栏量持续稳定增长。传统养殖业中对养殖环节中异常情况的监测与处理主要依靠饲养员的主观判断,劳动强度大且效率不高,对异常情况的发现不及时,可能会造成严重经济损失。因此,机器视觉技术的非接触与高效的特点得以显现,应用智能视频监控方法进行养殖的方式已经出现。
学位
我国是玉米生产和销售的大国,玉米是我国的重要粮食作物,保证玉米的质量尤为重要,玉米的安全与食品安全问题及众多产业发展相关。玉米本富含膳食纤维、多种维生素及微量元素等营养成分,不仅是重要的商品粮,同时也是畜禽饲料配方中主要原料。玉米作为重要的食品材料和化工原料,在储蓄和运输过程中非常容易发生霉变,玉米发生霉变后会产生大量霉菌毒素,并使周围健康的玉米也发生霉变,畜禽长期食用这种霉变玉米后,会影响畜禽的
学位
我国是猪肉消费大国和猪肉生产大国,生猪养殖产业遍布全国,北方寒地密闭猪舍,冬季舍内外空气交换率低,粪污积累对猪舍环境质量影响较大,猪舍大多采用机械刮粪板定时清粪,清粪过程中需要工人进入舍内操作,极易对猪只造成应激反应,且清粪设备发生故障时维修较困难。本文针对北方寒冷地区的气候特征,提出一种集故障预警、智能决策、远程控制于一体的寒地密闭猪舍智能清粪控制系统,具体研究内容包括以下方面:(1)提出一种基
学位
“粮食安全问题”关系到社会稳定和人民群众的根本利益。小米是我国重要粮食作物之一,受气候、土壤元素等因素影响,不同产区小米的营养成分具有差异性。在经济利益的驱动下,一些不法商家假冒小米地理源信息,扰乱市场秩序,加大了小米及其他农产品质量安全的监控难度,同时对小米产地溯源方法和技术提出了更高的要求。目前,国内外对主要粮食作物如:麦、豆、稻等农产品的高光谱溯源研究已经非常充实,无论是理论研究还是实践操作
学位
随着居民生活质量的逐步改善,奶、蛋、肉制品等需求量大幅提升,畜牧业的发展以及饲料作物的种植与生产变得尤为重要。青贮玉米是牛、羊等家畜饲料的主要来源,需求量较大。青贮饲料收获机是青贮作物的收获与制备机械,其高效智能化作业是提高生产率的前提。青贮饲料收获机结构复杂,其作业重复频繁,易受到作物密度和地形的影响,堵塞故障率高居不下。传统的故障诊断主要依赖操作者经验以及单一参数阈值判断,诊断准确率与效率较低
学位
抑郁症目前是世界上最常见的精神疾病,也是继冠心病后全球第二大疾病,影响着不同年龄、不同文化、不同社会背景的人群,病情严重的患者会出现自残自杀等现象,给家庭和社会造成很大的负担,严重消耗全球性卫生空间,因此需要对患者进行及时的诊断和医治。传统的诊断方式先由就诊者填写问卷和量表,再通过专业医生进行诊断,过程冗余且昂贵因此,开展抑郁症自动检测方法研究实属必要。根据临床观察和研究发现,抑郁症患者在语言发音
学位
数学应用题是以自然语言为基础,基于任何学科领域(数学、物理、化学、生物等)的任何数学问题。由于数学应用题类型多样、复杂程度不一,解决这些用自然语言描述的问题,需要对表达式和答案进行适当的推理。因此,自动数学应用题解算器的设计一直是将人工智能应用到教育领域的热门话题。近年来,顶级的数学应用题解算器大多都采用深度学习方法,然而,它们大都存在忽略数据预处理的重要性,缺乏对数学应用题文本数据的时序性考虑等
特征选择是数据降维的一种常用方法。在信息爆炸的现代社会下,如何设计一个有效的特征选择算法来处理如基因数据、数据流等数量庞大、形式多样的数据是一个长期的任务,也是未来一段时间机器学习领域中的热点问题。目前特征选择的研究热点及趋势主要集中在两个方面:一是研究特征与类之间的关联性,如在基因表达式分析上,特征选择的目的是找出所有与类别相关的特征,这些特征的变化很可能会导致某些疾病的发生。但是目前的很多特征
学位