基于相似度的健康数据检索系统的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:q_yong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着医疗卫生服务的信息化进程推进,累积了大量的病人健康数据,包含电子病历、体检报告及各种个人运动健康记录。传统的健康数据检索系统一般仅提供SQL查询或者关键词检索服务,不能有效利用电子健康记录中潜在的大量医疗知识,不能提供基于病人相似度的检索功能,无法对精准医疗提供支持,而基于病人相似度的检索可以作为一个很好的补充。  本论文研究病人相似度度量与检索问题。病人健康数据包含多源异构信息,如何进行有效融合,如何进行特征提取,如何设计算法合理度量两个病人的相似度,如何快速高效的基于相似度进行相似病人的检索,都是十分关键的技术问题。在已有医疗专家对病人健康数据的评估信息下,可以将病人相似度问题转化为有监督的距离度量学习问题。通常的做法是对病人的医疗健康数据打标签来作为监督信息。在现有工作中,对监督信息的利用是很局限的;多是比较两个不同病人的标签是否完全相等来判断病人相似与否;然而在实际中,病人的标签往往是多个维度,这种比较忽略了标签本身的相似性。  针对上述问题,对以下关键技术进行了研究:(1)设计了一种基于向量的病人表示模型,并给出静态特征、离散数值特征和连续数值特征的映射规则;(2)提出一种改进的监督距离度量学习算法,将病人的诊断数据作为监督信息,将病人健康数据表示为向量。在度量学习中,根据监督信息的相似程度将目标病人的邻居区分开来,形成多段间隔,可以更充分地利用监督信息,提高相似度判断的准确性;(3)建立了基于度量空间的相似度检索框架,设计了3种基本的相似度检索方式,并利用VP-Tree建立了度量空间的高维向量索引,提高相似度检索的效率;  在上述关键技术的研究基础上,本文设计实现了一个基于相似度的健康数据检索系统。并利用多分类KNN对相似度算法进行间接评估,实验表明论文提出的度量学习算法在准确率和稳定性方面较好的表现。
其他文献
近年来,随着软件规模的越来越大,软件的安全越来越被人们所关注,而现有软件开发方法及软件测试手段所能提供的安全保证是脆弱和不可靠的。即使经过多次测试后的软件,也不能确保其
候鸟迁徙空间分布研究对掌握野生鸟类栖息地生境分布状况具有重要的意义,它能为科研考察路线确定、野生鸟类保护策略的制订以及传染疫病的防控提供决策支撑。   本论文结合
下一个地理兴趣点推荐的任务在近年来被广泛研究,然而,由于各相关因素的异构性,设计一个包含与地理兴趣点和用户相关的多个因素的统一的框架仍然是十分有挑战性的。而且,如何
入侵检测系统(intrusion detection system,IDS)作为一种有效的安全防御技术,已经被广泛应用于计算机网络安全管理中。入侵检测技术能在不影响网络性能的情况下对网络安全进行
在图像处理和计算机视觉领域中,图像编辑具有重要的应用价值和研究意义。对于复杂的自然图像,由于其视觉模式分布的复杂性,往往难以用一个全局的统计模型对其进行建模。相对
近年来,互联网领域的一个重要事件就是社交网络的兴起和发展。社交网络已经成为人们传播信息、交流思想、结交朋友的重要媒介。不同于传统的文本检索,作为社交网络的典型代表
在众多的身份识别方法中,基于人脸图像的方法具有独特的优势和广阔的应用前景,因而成为研究的热点和重点,而这些方法中,基于全局统计的方法由于具有概念清楚、计算简单等优点
卫星网络具有广播特性,强覆盖能力,且能够被灵活部署,被视为下一代移动通信系统重要组成部分。已有的地面网络使用的保障数据高效传输协议无法满足卫星网络长延迟、动态拓扑和星
随着智能终端的普及和移动互联网的迅速发展,市面上涌现了大量的应用程序以满足用户生活中方方面面的需求。然而移动设备资源有限,高效管理这些应用程序对于提升用户体验、降低
随着科学技术的快速发展,海量数据现在已经进入全球经济,互联网,科学计算等诸多领域。与此同时,人们对海量数据离线分析处理的需求也越来越强烈。对于海量数据的离线分析,可