论文部分内容阅读
随着科学技术的迅速发展,数据量急剧增加,数据的时间性和复杂性远远超过目前人们所掌握的数据处理能力和发现知识的能力,这是廿一世纪面临的挑战和显现的重要特征。由于人们产生数据和搜集数据的能力迅速提高,而处理能力相形见拙,出现了“数据爆炸”或“信息爆炸”的危机局面。于是,需要有抛弃冗余信息相应的数据的要求,希望尽可能减少甚至免除低层次上的数据处理和分析,在高层次上直接获得数据的知识。应该着重指出,虽然当今的信息社会充斥着各类海量的数据,尤其在某些情况下,其中有用的数据只占了很少的一部分,如何从大量的冗余数据信息中提取有用的信息并把它转化为知识是本文研究很有实用意义的课题。聚类分析是降低数据复杂性的有效方法,也是有利于稀有数据及时知识化的有力手段,可用在生物科学、医学、金融、电信、商业和科学研究等诸多领域。稀有数据是指它本身的数据量占有总体数据中的比例极小,但富含有用的信息,因而具有很高的研究价值。是否能对稀有数据进行有效的知识化是评判一种聚类方法是否有效的重要标准。模糊聚类算法试图模拟人类区分模式和获取知识的方式。不同于以往的聚类算法,模糊聚类算法是模糊数学和聚类算法的结合,在聚类过程中它对样本的划分不再是绝对的,而可以是模糊的,不确定的,因而使算法有弹性,能有效提高抗干扰的能力,也就更适用于稀有数据的分类。文中算法以美国麻省理工学院的成熟心电数据库MIT/BIH为检测算法有效性的对象,在如何提高聚类的总体准确率及对稀有数据的分辨率方面进行了深入的研究,首先对QRS波的精确定位过程未采用小波检测算法,而是根据心电规律采用了差分结合多特征模式识别及统计方法,不仅在检测过程中不需要进行信号预处理,而且达到了很高的精度,与MIT准确注释相比其准确率较高。然后由每个QRS波群提取的26个典型特征组成了聚类所需的特征矢量。在聚类结构上采用加入法结合基于目标函数的模糊聚类方法。最后的结果表明本方法在聚类的总体准确度方面有较大改善,对稀有的病理数据具有较高的捡出率。全文共分为五章:第一章:课题的研究背景,研究范围,问题的提出;第二章:模糊聚类分析;第三章:模糊聚类算法设计;第四章:心电信号基本特征;第五章:模糊聚类算法应用;第六章:总结了本文的模糊聚类算法在心电自动分析应用中的不足及改进方案。