论文部分内容阅读
随着医学技术的发展,医学数据也在大量的积累。为迎合临床诊断、科研教学方面的需求,临床医学数据分析技术逐渐成为临床医学领域研究的热点。临床医学数据主要包括截面数据,时间序列数据和纵向数据。截面数据是指在同一次调查中得到的数据,在医学上可以用来分析疾病的影响因素。时间序列数据是指随着时间的变化收集到的数据。不同于上面两种数据,纵向数据是把截面数据和时间序列数据相结合的方式,在临床上以随访的方式收集到的多个患者的检测数据。通过分析纵向数据,能得到个体特征随时间变化的趋势,也可以分析出个体之间的差异性。因此临床纵向数据的分析有着很重要的医学意义。本文在对临床医学纵向数据的特点进行分析后,提出了面向医学纵向数据的聚类分析算法和变量选择算法。然后建立了改进了的多层线性模型,并通过分析实际的临床医学纵向数据验证了我们的多层线性模型在临床医学纵向数据研究中的有效性。本文的研究工作内容具体如下:(1)根据医生长期的临床经验,尤其结合中医对患者体质的区分思想,即使同一病种、同一分期的患者,其疾病发展的趋势也不尽相同,而且医生经验往往认为这些患者的疾病发展趋势可以进一步细分为几类。也就是说,一些病人之间往往会存在相似的病理发展趋势或者相同的症状,但是对研究人群而言,到底疾病变化趋势的发展分为几类,医生经验无法给出。因此,需要根据医学纵向数据将病人的疾病发展趋势进行聚类分析,得到的类别可以给医生提供一些诊疗建议。考虑到临床医学纵向数据多维度的特点,我们提出扩展范式距离来度量病人间的相似性,并结合不受聚类中心随机选择影响的改进K均值算法进行纵向数据的聚类分析。然后对非小细胞肺癌纵向数据和妊娠高血压纵向数据分别进行了对比实验。实验结果表明,我们的方法可以对纵向数据可以实现更有效的聚类,其有效性和可行性适用于以聚类分析为目的的临床医学纵向数据的分析。(2)在临床医学纵向数据分析中,由于纵向数据的维度比较多,会加大建模的困难,所以在实际建模中,我们需要选择对病症影响比较大的特征来作为模型的输入。本文提出了基于GMDH算法的变量选择算法,考虑到该算法具有选择出与因变量密切相关的自变量的特点,本文将此方法用于临床医学纵向数据的变量选择中,这在本人所查阅的文献中尚未见到类似应用。通过在非小细胞肺癌纵向数据实验上的应用,可以得到该方法不仅能有效减少数据维度和算法复杂度,而且能保证有效的聚类结果。(3)针对纵向数据的特点,首先分析了多层线性模型在临床纵向数据处理上的一些的优点和局限性,无法分析随时间变化的指标对病症的影响,本文提出将纵向数据中时变的变量先进行聚类,然后再进行多层线性模型分析,进而改进了多层线性模型。然后,将改进后的模型应用到非小细胞肺癌纵向数据和妊娠高血压数据中,分析得到了病症的变化趋势,以及个体之间的差异性,为医生提供了一些诊疗建议。实验结果表明我们所提出的基于时变变量聚类的多层线性模型,能够解决时变变量不便在这类模型中作为自变量应用的现状。