论文部分内容阅读
在疾病数据的处理过程中,特征选择是一个非常重要的前置步骤。但疾病数据集通常具有样本量小、特征维度高、类别不平衡、没有区分疾病亚型等特点。常用的特征选择算法因为没有考虑到这些特点带来的问题,从而导致在处理这些数据时,会忽略掉一些有用的特征。因此,本文围绕上述问题,展开了如下研究:
1、在理论层面,为解决常用算法中基于统计的评价指标不适应疾病数据特点的问题,提出了一种基于代价敏感的、针对疾病数据特点的过滤式特征选择算法,并在公开数据集上与其它常用算法进行了对比测试。结果显示,该算法选出的特征能有效提升分类器表现,并能在一定程度上避免选入冗余特征。
2、在应用层面,为在语音中找到能够用于识别抑郁症的关键特征,将本文提出的特征选择算法应于基于语音的抑郁症识别研究中。根据特征选择结果,得出了抑郁症患者在语音上具有迟缓、沙哑等特点的结论。进一步分析发现,在不同任务中,语音特征上的差异也各不相同。得出了在访谈、朗读这两类任务中采集的语音能更有效地区分抑郁症的结论。
3、基于上述工作,将选择出的特征与不同任务下的语音纳入综合考虑,并以此构建了一个通过语音识别抑郁症的模型。该模型在一期实验范式的男性、女性样本集上分别达到了80.7%、74.7%的分类正确率,在二期实验范式的男性、女性样本集上分别达到了66.7%、67.8%的分类正确率。
综上所述,本文工作主要聚焦于特征选择算法设计,提出了一种基于代价敏感的、针对疾病数据特点的特征选择算法。然后将该算法应用于基于语音的抑郁症识别研究,在对实验采集的数据进行了特征选择和分析后,将语音也看作特征的一个维度,与其余特征组合在一起,构建了一个新的抑郁症识别模型。
1、在理论层面,为解决常用算法中基于统计的评价指标不适应疾病数据特点的问题,提出了一种基于代价敏感的、针对疾病数据特点的过滤式特征选择算法,并在公开数据集上与其它常用算法进行了对比测试。结果显示,该算法选出的特征能有效提升分类器表现,并能在一定程度上避免选入冗余特征。
2、在应用层面,为在语音中找到能够用于识别抑郁症的关键特征,将本文提出的特征选择算法应于基于语音的抑郁症识别研究中。根据特征选择结果,得出了抑郁症患者在语音上具有迟缓、沙哑等特点的结论。进一步分析发现,在不同任务中,语音特征上的差异也各不相同。得出了在访谈、朗读这两类任务中采集的语音能更有效地区分抑郁症的结论。
3、基于上述工作,将选择出的特征与不同任务下的语音纳入综合考虑,并以此构建了一个通过语音识别抑郁症的模型。该模型在一期实验范式的男性、女性样本集上分别达到了80.7%、74.7%的分类正确率,在二期实验范式的男性、女性样本集上分别达到了66.7%、67.8%的分类正确率。
综上所述,本文工作主要聚焦于特征选择算法设计,提出了一种基于代价敏感的、针对疾病数据特点的特征选择算法。然后将该算法应用于基于语音的抑郁症识别研究,在对实验采集的数据进行了特征选择和分析后,将语音也看作特征的一个维度,与其余特征组合在一起,构建了一个新的抑郁症识别模型。