基于代价敏感的特征选择算法研究及应用

来源 :兰州大学 | 被引量 : 1次 | 上传用户：hnzxjl

【摘要】

：

在疾病数据的处理过程中,特征选择是一个非常重要的前置步骤。但疾病数据集通常具有样本量小、特征维度高、类别不平衡、没有区分疾病亚型等特点。常用的特征选择算法因为没有考虑到这些特点带来的问题,从而导致在处理这些数据时,会忽略掉一些有用的特征。因此,本文围绕上述问题,展开了如下研究:1、在理论层面,为解决常用算法中基于统计的评价指标不适应疾病数据特点的问题,提出了一种基于代价敏感的、针对疾病数据特点的过

【作者】

：

李昌聪

【机构】

：

兰州大学

【出处】

：

兰州大学

【发表日期】

：

2019年01期

【关键词】

：

数据处理

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在疾病数据的处理过程中，特征选择是一个非常重要的前置步骤。但疾病数据集通常具有样本量小、特征维度高、类别不平衡、没有区分疾病亚型等特点。常用的特征选择算法因为没有考虑到这些特点带来的问题，从而导致在处理这些数据时，会忽略掉一些有用的特征。因此，本文围绕上述问题，展开了如下研究：
　　1、在理论层面，为解决常用算法中基于统计的评价指标不适应疾病数据特点的问题，提出了一种基于代价敏感的、针对疾病数据特点的过滤式特征选择算法，并在公开数据集上与其它常用算法进行了对比测试。结果显示，该算法选出的特征能有效提升分类器表现，并能在一定程度上避免选入冗余特征。
　　2、在应用层面，为在语音中找到能够用于识别抑郁症的关键特征，将本文提出的特征选择算法应于基于语音的抑郁症识别研究中。根据特征选择结果，得出了抑郁症患者在语音上具有迟缓、沙哑等特点的结论。进一步分析发现，在不同任务中，语音特征上的差异也各不相同。得出了在访谈、朗读这两类任务中采集的语音能更有效地区分抑郁症的结论。
　　3、基于上述工作，将选择出的特征与不同任务下的语音纳入综合考虑，并以此构建了一个通过语音识别抑郁症的模型。该模型在一期实验范式的男性、女性样本集上分别达到了80.7%、74.7%的分类正确率，在二期实验范式的男性、女性样本集上分别达到了66.7%、67.8%的分类正确率。
　　综上所述，本文工作主要聚焦于特征选择算法设计，提出了一种基于代价敏感的、针对疾病数据特点的特征选择算法。然后将该算法应用于基于语音的抑郁症识别研究，在对实验采集的数据进行了特征选择和分析后，将语音也看作特征的一个维度，与其余特征组合在一起，构建了一个新的抑郁症识别模型。

其他文献

省域消费端碳排放与经济权衡研究——基于多区域投入产出模型

学位

城市化背景下最终需求驱动的产业能耗演化研究——基于动态投入产出模型

学位

Fe(III)强化植物提取物原位修复Cr(VI)污染含水层机理分析

学位

固溶体Bi24O31BrxCl10-x强化NiCo2O4光助活化PMS解四环素研究

学位

缺陷型石墨相氮化碳材料的制备及其催化降解有机污染物的性能研究

学位

Fe3O4--Ce@BC活化过硫酸盐修复多环芳烃污染土壤

学位

Y分子筛担载Pd基纳米催化剂催化降解甲苯

学位

脉冲电絮凝处理含Cr(VI)废水的调控机制

学位

纳米TiO负载于活性炭纤维吸附-光催化氧化室内挥发性有机气体甲醛的研究

当今室内空气质量状况越来越受到人们的重视.由于室内装修、暖通空调及大量家用化工产品的使用,室内空气污染日趋严重,尤其是挥发性有机物对室内空气的污染很严重,甲醛就是其中常见的一种挥发性有机污染源.在治理上,传统的负离子空气净化器实际上只能达到"清新"空气的效果,大部分的污染物无法消除;活性炭空气净化器则受到饱和吸附的制约,而光催化净化则可以克服上面两种空气净化器的技术局限性,达到彻底清除室内空气污染

学位

纳米二氧化钛

稳冷冻超分辨荧光显微成像系统构建与冷冻光电融合成像支撑膜探索研究

光电融合成像技术（CorrelativeLight andElectronMicroscopy,CLEM）已成为生命科学领域一个强有力的研究工具，尤其是冷冻光电融合成像技术（Cryo-CLEM），被认为是一种接近生物样品天然状态的成像技术。冷冻样品制备方法能避免化学固定方法对样品结构的破坏，使样品处于近天然状态，保留近原子尺度的结构信息；冷冻荧光成像技术（FluorescenceCryo-Micr

学位

光电融合成像

基于代价敏感的特征选择算法研究及应用

与本文相关的学术论文