论文部分内容阅读
目的:随着医疗信息化建设的加强和科学研究的需要,大量的医疗信息正在被收集和共享,医疗信息中有许多潜在的有价值的信息,如果加以研究利用能够对人类健康乃至整个社会做出重要贡献。医疗信息中同样也包含个人隐私信息,如果医疗信息不经处理或者处理不当就发布,极大可能会被别有用心之人利用,泄露患者隐私,给患者带来不必要的麻烦,数据共享过程中隐私安全问题日益显现。因此我们在发布医疗信息前,必须要确保两方面因素:一是保证发布的数据中隐私信息不会被泄露;二是保证发布数据的有效性以供科学研究。
方法:现阶段隐私保护技术主要包括数据加密技术,数据失真技术,匿名保护技术3种,这三种技术各有优缺点。数据失真技术效率高但是信息损失量太大;数据加密技术安全性好但是运行速度慢,运行代价大;匿名保护技术在各方面都比较平衡,既免于大量计算,也不会造成太大数据损失,是隐私保护领域重要的技术手段,通过概化、抑制等手段,改变原始数据表中的某些数据,使处理过的数据表不能与其他表链接推断出个人信息,避免遭受链接攻击。因此本文选择对匿名化技术进行研究,而k-匿名模型是匿名化技术中的经典模型,Datafly算法是k-匿名模型的经典算法,本文针对Datafly算法缺点进行改进,提出了多属性概化算法。
结果和结论:针对Datafly算法本身存在的概化属性选取单一的问题,和取值最多的准标识符属性个数不唯一的情况提出的多属性概化算法,与原Datafly算法相比,提高了k-匿名处理后的数据精度,更具应用意义,适用于医疗信息表的隐私保护。
方法:现阶段隐私保护技术主要包括数据加密技术,数据失真技术,匿名保护技术3种,这三种技术各有优缺点。数据失真技术效率高但是信息损失量太大;数据加密技术安全性好但是运行速度慢,运行代价大;匿名保护技术在各方面都比较平衡,既免于大量计算,也不会造成太大数据损失,是隐私保护领域重要的技术手段,通过概化、抑制等手段,改变原始数据表中的某些数据,使处理过的数据表不能与其他表链接推断出个人信息,避免遭受链接攻击。因此本文选择对匿名化技术进行研究,而k-匿名模型是匿名化技术中的经典模型,Datafly算法是k-匿名模型的经典算法,本文针对Datafly算法缺点进行改进,提出了多属性概化算法。
结果和结论:针对Datafly算法本身存在的概化属性选取单一的问题,和取值最多的准标识符属性个数不唯一的情况提出的多属性概化算法,与原Datafly算法相比,提高了k-匿名处理后的数据精度,更具应用意义,适用于医疗信息表的隐私保护。