论文部分内容阅读
基因组数据的共享与分析为人们理解生物机理、进行高水平医学诊断与治疗、促进临床医疗健康数据再利用,以及加速科学发现等提供了极为有效的途径。编辑距离作为一种重要的相似性度量方法被广泛的应用于人类基因组研究中。然而,基因数据中包含敏感的个人隐私信息,不加保护的传播会造成严重的后果。面对在不同区域不同单位的基因组数据集上进行隐私保护模式下的序列共享与分析这一挑战,本文提出了一个基于安全多方计算的分布式基因序列相似性计算模型,并利用GMW秘密共享协议上的最新技术进展实现了这一模型。本文的主要工作有以下三点:(1)设计并在GMW电路上实现分布式安全序列分析模型。本文首先对安全多方计算领域内当前流行的隐私保护技术进行了分析对比,得出采用了不经意传输扩展协议与不经意传输预计算等技术后GMW协议所具有的优势。然后,在实际需求场景下设计了一个不需要任何三方委托平台的分布式安全基因序列分析模型。最后,在GMW协议下用布尔逻辑电路实现了这一模型。(2)基因数据的预处理及结果的整合。为了提高运算效率而不丧失应用价值,本文采用一个近似编辑距离计算方案来度量基因序列的相似性。为了降低模型的运算负载,本文将生成的测试序列数据集对齐到一个公共参照序列并优化距离计算方案从而将模型中的部分运算移到了各参与方本地。为了尽可能降低电路复杂度,本文利用哈希算法DJB2将序列编码为二进制串。为了减少内存和带宽占用,本文提出数据分块策略来完成基因序列的对比并整合所有块上的输出以得到最终结果。(3)实验的设计与分析。本文在不同的参数和应用情景下分别设计了实验,详细分析了模型在运算效率、逻辑门数量、误差率,和网络带宽占用等各个方面的表现。同时,也与其他最新提出的安全基因序列编辑距离计算方案进行了对比并进一步证明本方案的优越性。相比于现存的方案,该分布式安全序列分析模型不仅在理论上支持任意多个参与单位在半诚实环境下同时进行序列对比而不泄漏任何一方的基因数据信息,而且能够在8s中完成两个参与单位各一条序列上5000个位点的距离计算,在320s中完成3个参与单位各5条序列上5000个位点的比较。