论文部分内容阅读
伴随着医疗卫生服务的信息化进程推进,累积了大量的病人健康数据,包含电子病历、体检报告及各种个人运动健康记录。传统的健康数据检索系统一般仅提供SQL查询或者关键词检索服务,不能有效利用电子健康记录中潜在的大量医疗知识,不能提供基于病人相似度的检索功能,无法对精准医疗提供支持,而基于病人相似度的检索可以作为一个很好的补充。 本论文研究病人相似度度量与检索问题。病人健康数据包含多源异构信息,如何进行有效融合,如何进行特征提取,如何设计算法合理度量两个病人的相似度,如何快速高效的基于相似度进行相似病人的检索,都是十分关键的技术问题。在已有医疗专家对病人健康数据的评估信息下,可以将病人相似度问题转化为有监督的距离度量学习问题。通常的做法是对病人的医疗健康数据打标签来作为监督信息。在现有工作中,对监督信息的利用是很局限的;多是比较两个不同病人的标签是否完全相等来判断病人相似与否;然而在实际中,病人的标签往往是多个维度,这种比较忽略了标签本身的相似性。 针对上述问题,对以下关键技术进行了研究:(1)设计了一种基于向量的病人表示模型,并给出静态特征、离散数值特征和连续数值特征的映射规则;(2)提出一种改进的监督距离度量学习算法,将病人的诊断数据作为监督信息,将病人健康数据表示为向量。在度量学习中,根据监督信息的相似程度将目标病人的邻居区分开来,形成多段间隔,可以更充分地利用监督信息,提高相似度判断的准确性;(3)建立了基于度量空间的相似度检索框架,设计了3种基本的相似度检索方式,并利用VP-Tree建立了度量空间的高维向量索引,提高相似度检索的效率; 在上述关键技术的研究基础上,本文设计实现了一个基于相似度的健康数据检索系统。并利用多分类KNN对相似度算法进行间接评估,实验表明论文提出的度量学习算法在准确率和稳定性方面较好的表现。