DNA如何解决我们的数据存储问题

来源 :飞碟探索 | 被引量 : 0次 | 上传用户:sophiea123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读



  1971年夏,弗兰克·扎帕在瑞士的蒙特勒赌场里表演。赌场里挤满了观众,一个粉丝放了一把火,屋子里燃起了大火。扎帕像抡起斧头一样抡起了他的吉普森吉他,砸破赌场的窗户,2000多名青少年尖叫着涌了出去。在日内瓦湖边酒店观看的深紫乐队队员看到了火焰,用《水上烟雾》捕捉了这一刻,将其永久地蚀刻在蒙特勒爵士音乐节的历史上。2013年,它成为联合国教科文组织第一个视听档案《世界记忆》的一部分。
  现在,《水上烟雾》又创造了历史。2017年9月,它成为《世界记忆》档案中首批以DNA形式存储的作品之一,存储后可以100%的精度回放。这个项目是华盛顿大学、微软公司和基地设在旧金山的DNA制造公司Twist Bioscience的合作项目。
  许多权威人士预测,DNA成为存储数据的最终方式只是一个时间问题。这种方式紧凑、高效并富于弹性。毕竟,DNA已经被调整了数十亿年,成为遗传信息的完美储存库,永远不会过时——因为只要地球上有生命,我们就会对解码DNA感兴趣。Twist Bioscience的首席技术官员比尔·派克说:“大自然已经对这种格式进行了优化。”
  微软、IBM和英特尔等公司都对这一领域表现出兴趣。2017年4月,在由美国情报高级研究项目主办的特邀专题研讨会上,他们与其他行业、学术人员和政府专家一起讨论了DNA在解决人类数据存储危机中的实用潜力。
  这是一个时时刻刻都在增大的问题。根据IBM公司2016年营销云报告,今天存在的数据中有90%是在过去两年中创建的。我们每天都会生成2.5x1018字节的信息,分别来自高清视频和照片、粒子物理学大数据、基因组测序、太空探测、卫星和遥感,还有智囊团、秘密监视行动和互联网追踪算法。
  目前,所有这些数据都流入巨大的服务器农场,转移到旋转的硬盘驱动器或最先进的磁带卷轴上。这些物理基板占据了很大的空间。
  我们不妨用DNA来做比较。整个人类的基因组,一个由30亿个DNA碱基对组成的代码,或者用数据语言来说,3000兆字节,都可以放入一个肉眼看不见的“包裹”——细胞核。1克DNA(指尖上一滴水的大小)至少可以相当于233个重量超过150千克的电脑硬盘。如果把人体内所有的遗传信息(150泽字节)都存储在磁带或硬盘驱动器上,就需要一个巨大的设施。
  还有耐久性问题。在目前的存储竞争者中,磁带寿命最长,为一二十年。硬盘、CD、DVD和闪存驱动器不太可靠,通常有5年至10年就不行了。DNA已经被证明可以存在几千年而毫发无损。例如,2013年,科学家在阿拉斯加多年冻土中发现的70万年前的马骨碎片的DNA,就重构了一个早期马的亲缘基因组。
  因此,如果将DNA数据档案保存在干燥凉爽的地方,比如说保存在北极附近的斯瓦尔巴德全球种子库的一个架子上,这个DNA数据档案就可以保存数万年而不需要维护。


  因此,《水上烟雾》的DNA拷贝将存在很长时间。那么,科學家是如何将一首歌变成分子的呢?首先,将数字音乐文件从一系列的1和0转换成DNA的字母A、C、T和G的碱基,例如用A代表00、C代表01、T代表10、G代表11;然后将字母序列组合成带有索引信息的DNA短语,按照正确的顺序排列。使用这些编码序列,可以通过化学反应制造逐个字母,然后将其保存在试管中。
  检索信息时,用测序仪运行DNA以读取DNA碱基的确切顺序;然后解码产生原始的二进制数据;最后,这个音乐文件在瑞士洛桑的蒙特勒爵士音乐节中被零差错播放。
  《水上烟雾》不是第一个被存储为DNA的数字信息。2012年至2013年,由乔治·丘奇牵头的哈佛大学研究小组以及由尤恩·伯尼和尼克·古尔德曼牵头的欧洲生物信息学研究所的研究小组独立存储了DNA数字数据。哈佛大学的样本是一本50000词的合成生物学图书;欧洲生物信息学研究所的样本包含一张彩色图像、莎士比亚的154首十四行诗、马丁·路德·金《我有一个梦想》演讲的片断以及沃森和克里克1953年发表的有关DNA结构的经典论文。
  目前,合成DNA每个字母的成本是10美分。TwistBioscience的首席执行官艾米丽·勒普劳斯特估计,只有每个字母的成本降至0.001美分,DNA存储才可以真正与磁带竞争。大量的现金投入和丰厚的市场前景可能会提供必要的推动力。
  第二个障碍是技术性的:DNA合成和测序技术都可能带入某些类型的错误,所以将1和0翻译成DNA字母的代码时需要精心组合,以消除这些错误。
  计算机科学家已经卷入并参加了这场争斗。每年的电气与电子工程师协会国际信息理论研讨会(主程序员的一个会议)上,都有一个专门讨论DNA存储编码的会议。
  2016年4月,微软和华盛顿大学的一个研究小组存储了200兆字节的DNA,有OK Go摇滚乐队的音乐视频,有100多种语言的《世界人权宣言》,有古腾堡项目最受欢迎的100本图书,还有农作物的种子数据库,由Twist Bioscience合成,编码方法采用了计算中使用的常见错误纠正方案。他们还设计了一种方法来识别和排序特定的信息片段,而不必对整个记录进行排序。
  华盛顿大学教授路易斯·塞泽说:“我们正在使用电脑知识——如何纠正记忆错误,并将其应用到自然界。”


  2017年3月,哥伦比亚大学的雅尼夫·埃利克和纽约基因组中心的迪娜·杰林斯基使用新算法对6个数据文件的数据进行了编码,该算法能够编码更多的核苷酸数据,并且仍然以100%的准确性还原文件。他们的“DNA喷泉”技术,可以在每克DNA上产生215拍字节(2.15亿千兆字节)的记录。在这样的密度下,人类记录的所有数据都将能放入一个与两辆皮卡车大小相当的容器中。
  因为书写和阅读DNA的速度还比较慢,所以早期的应用程序将会被归档。微软表示,公司计划在3年内建立一个原生商业DNA存储系统。
  想象一下,一体化的DNA数据系统并非遥不可及。二进制数据在一端被输入,合成为DNA并被存储,然后被提取、测序,并作为二进制数据再次发送到另一端。塞泽说:“我们正在研究整合合成器(实际‘库’和阅读器/定序器)架构,目标是开发一个完整的系统。”
  其他研究人员正在设法尽可能保持DNA稳定。苏黎世联邦理工学院功能材料实验室的科学家罗伯特·格拉斯正在研究一种将DNA封装在微小二氧化硅珠子中的方法。他说:“类似于骨骼化石,我们希望用合成的‘化石’壳来保护包含信息的DNA。”为了测试珠子的耐久性,他们将其加热到大约70℃并持续了一个星期,这相当于在大约10℃的环境中保存2000年。
  现在让我们回到音乐上来。把联合国教科文组织的《世界记忆》这样的重要档案按照一定格式保存下来,即使在短期内相对昂贵,也是一个好主意。塞泽说:“联合国教科文组织的档案为测试我们的方法提供了完美的实用案例。”
  当深紫乐队写“我们永远不会忘记/水上烟雾.空中之火”时,他们并不知道现在发生的这些,但是,他们的创作现在得到了证实。
其他文献
微软、英特尔等科技巨头,自20世纪90年代起便开始与人类学家开展广泛合作,在人机交互设计、全球市场开拓等方面展现人类学的价值。   如今,随着人工智能技术的发展,人类学家扮演起更加重要的角色,通过和设计师、工程师的跨学科合作,让科技避免陷入可能的伦理陷阱。   他们做了哪些事情?未来,他们还可能完成怎样的任务?   人类学通常被误认为是小众、暖昧不明甚至过于浪漫的学科。人类学经典《西太平洋上的航海
期刊
在茫茫宇宙的“中国方阵”里,与“天宫”系列空间实验室相比,“慧眼”虽是新人,却引起了全世界的持续关注。“慧眼”的独特技术优势在于,它既可以实现宽波段、大视场X射线巡天,又能够研究黑洞、中子星等高能天体的短时标光变和宽波段能谱:同时还具有高灵敏度的伽马射线暴全天监测能力。  早在2005年8月和2007年3月,高能X射线望远镜就被列入国家《“十一五”空间科学发展规划》和《航天发展“十一五”规划》。在
期刊
自1995年瑞士天文学家发现第一颗围绕类太阳恒星公转的行星飞马座51b以来,对太阳系外行星的搜寻和研究就逐渐发展成为当代天文学最前沿、最热门、最令公众感兴趣的领域。从事这方面观测的天文学家,被人们形象化地称为“行星猎人”。在行星猎人的不懈努力下,到2018年3月末,已经有3708颗系外行星被确认。得到这些成果所用的观测设备中,主要用于寻找系外行星的两个航天器——欧洲的天文卫星“科罗”(corot)
期刊
在跨越宇宙一半以上距离的地方,有一颗绰号为伊卡洛斯的蓝色巨星,它是有史以来“哈勃”见过的最远的恒星。通常情况下,即使使用世界上功能最强大的望远镜也无法看到。但是,因为前景星系团的引力透镜效应大幅放大了该恒星的微弱光芒,使用美国航空航天局哈勃空间望远镜的天文学家找到了这颗遥远的恒星,并设定了新的距离记录。  这个团队的成员里有西班牙坎塔布里亚研究所的何塞·迭戈和南卡罗来纳大学的史蒂文·罗德尼,他们把
期刊
老一代科学家李惕碚和吴枚先生虽然成功解决了“成像”难题,奠定了技术基础,但在望远镜研制和项目实施过程中仍然面临一系列技术障碍。比如卫星热控设计方面,为保证有效载荷探测精度,必须将高能、中能、低能探测器集中安装在同一支撑结构上,但它们对温度的要求相差极大。有些灵敏的仪器设备必须在-80℃至一60℃的低温下才能正常工作。“慧眼”卫星工程总工程师、航天科技集团五院研究员马世俊和研发团队成员相互启发、集中
期刊
天文学家使用美国航空航天局的哈勃空间望远镜对宇宙膨胀率(即宇宙的膨胀速度。理论物理学家阿尔伯特·爱因斯坦于1915年创立广义相对论的时候就认识到,他的学说将会得出一个震撼人心的预言——宇宙在膨胀。当时,大多数天文学家都认为宇宙一直是那样的,它不会随时间改变)做了最精确的测量,与首次计算间隔近一个世纪。有趣的是,这次的测量结果迫使天文学家相信,宇宙中可能有令人意想不到的事情在发生作用。  这是因为“
期刊
以银河系的眼光看地球,我们的家园也就是一小片飘零的草叶,借助超级飓风也难发出轻微的声响,人类更是渺小到可忽略不计的地步了。是智慧赋予我们洞察苍穹的渴望与能力,虽然在体量上没有可比性,但是在对彼此的认知与探索上,主动权永远掌握在我们手上。  我们知道地球是球形的,因为跳出地球的卫星可以为我们拍到地球的照片。可直到现在,人类的探测器也才刚刚跨越太阳系边缘,人类仍然无法预料自己何时才能跳出银河系,涉足河
期刊
虽然科学的脚步每天都在飞速前行,为我们揭开一个又一个真相,但在我们生活的这个大千世界里,依然有太多的“黑暗”需要科学之光来照亮。   2019年,我们探究了意识的产生和大脑遗忘的奥秘,解释了地球磁极逆转和青藏高原“人骨湖”形成的种种可能,“彻查”了5亿年前地球氧气猛增和先有鸡还是先有蛋的科学真相……进入2020年,虽然仍有许多谜团未能最终解开,但科学家们的探寻从未止步。   01水到底是一种液体还
期刊
让我们先把如何让棒球如此快地移动这个问题放在一边。我们假设投手就是正常投球,但在球出手的那个瞬间,奇迹般地被加速到0.9倍光速。从这个瞬间以后,一切都按照正常的物理学原理进行:  这个答案证明了“许多事”,而且它们都发生得很快,但对投手而言,这并不是结束。我坐下来读了几本物理学书,还有诺兰·莱恩(美国棒职大联盟的投手)的运动图像,以及一堆关于核试验的录像带,并试着把这些整理出来。  球的运动速度如
期刊
科学的演化宛如一张巨大的过滤网:它把谬误过滤掉,并且不断地为真理填充坚实的,基础。从不科学到科学,从占星术到天文学,从自然哲学到自然科学,从毕达哥拉斯到哥白尼,从托勒密体系到哥白尼体系,无一不在证实科学认知的连续性和辩证性。   我的手中捧着一本作者寄来的沉甸甸的大作,书名是《哥白尼的问题》(TheCopernicanQuestion),作者是美国加利福尼亚大学圣地亚哥分校的历史学教授韦斯特曼(R
期刊