论文部分内容阅读
计算机辅助心电图(Electrocardiogram ECG)分类是模式识别研究的典型应用,能有效拓宽医学专家的诊疗范围、提高医疗诊断效率和服务质量,在可穿戴ECG设备、动态ECG诊断、重症监护以及疾病与心脏活动关系研究等方面具有重要的临床价值。由于ECG标准数据库的局限,传统的分类研究方法忽视了实际环境中数据分布差异和随机干扰的问题,使得实验环境中准确率极高的算法,在实际应用中的准确率急剧下降。为了突破传统ECG分类方法的局限,本文以临床数据分类为目标,以领域知识的融合为研究主线,从数据管理、视觉特征表达、个体内时间序列数据分析、分类模型构建四个方面开展关于计算机辅助ECG分类方法的创新性研究。首先从临床需求出发,研究ECG领域数据的管理方法,按知识量分级管理数据,并用具有反馈机制的半自动化标注方法提高数据特征的标注效率。在此基础上,本文开展有别于传统工作的开放集下的ECG分类方法研究,主要的工作包括:(1)从视觉信息表达的角度研究ECG特征的表示问题,定义了包括23种经典数值特征和视觉形态特征的更为完整的领域特征集,并分别给出了QRS波以及P、T波形态的提取算法。使用Shannon熵评估QRS形态特征和经典数值特征。·用主成分分析法对QRS波原始信号进行白化处理,然后用负熵的固定点算法得到信号的基向量,进而用QRS波在基向量上的投影系数来表示其形态特征。·用基于最佳区间划分的动态基线法对P、T波进行预处理,以最大限度的保留视觉形态,用夹角、幅值、方向、比例等多个参数描述P、T波形态特征。(2)为了减少数据分布不确定性和类别不确定性对分类模型的影响,从新的视角思考分类问题,研究了个体内部的时间序列数据分析问题,并针对QRS主波相似性、主波间期、特征判断等问题分别提出分析算法。·用QRS相似性分析法识别ECG记录中心拍形态的变化。首先对信号进行重采样并用移动平均法进行平滑处理,进而用动态和静态结合法对信号符号化,然后用本文改进的IBSI函数来度量符号序列距离,并用层次聚类分析符号距离,从而在无监督模式下识别QRS形态异常。实验结果表明:与四类距离函数相比,本文提出的度量函数能够获得更好的类别区分度。·用基于移动分段的主波间期分析算法,分析非平稳序列的心率。用包括时间序列分析和多导联分析的多参数决策模型(MPLDM)解决多导联多参数ECG典型特征的判断问题。首先用迭代搜索算法分析矩阵参数和序列参数,得到决策向量(或决策值),然后基于决策结果并结合领域知识,构建具有不同策略的多导联决策模型。MPLDM主要应用于P波和T波的形态以及R波幅度等典型特征的分析中。(3)从特征级融合、未标注数据的筛选及在线分类模型的构建三个方面研究提升分类器准确率的方法,提出了基于多核学习的ECG特征级融合分类算法、多特征空间的未标注样本信息度量方法以及面向临床数据的多叉树结构的混杂分类模型。·采用高斯径向基核建立针对数值特征和QRS形态特征的核矩阵,将原特征空间映射到不同的再生核希尔伯特空间。利用SimpleMKL算法求解核矩阵的权值及支持向量机的参数。对三种形态表示方式和四种分类器的对比实验结果表明基于多核学习的ECG特征融合可提高分类器准确率。·以从ECG的记录标签到心拍标签的下推问题为基础,用K近邻和多特征空间的信息熵度量方法筛选得到对在线模型最有价值的样本,多组对比实验表明,该方法在等样本量下可改善分类结果。用多叉树结构来构建包含个体内时间序列分析及统计分类器的混合分类模型。21组临床数据的测试结果表明分类模型具有良好的稳定性。综上所述,本文一方面通过个体内部时间序列分析、特征级融合算法、混合分类模型等方法来提高ECG分类算法在临床数据中的分类效果。另一方面根据新问题的需要,逐步完善了ECG疾病数据库,拓展了ECG分析研究的实验平台。面向临床数据的主动学习方法及分类模型评估将是下一步的研究方向。