我们正处于前所未有的信息大爆炸时代,据估算,2025年全球每天将产生491EB数据,相当于每日制造出2亿张DVD光盘。当数据量级越来越大,目前传统的硅基存储介质(如硬盘)还能撑多久,成为了许多人关心的问题。
高密度、长久保留、低能耗,是数据存储的未来趋势。在此背景下,DNA 因其较高的存储密度和稳定的性质,成为了解决问题的更优解。而以其为基础的数据存储与计算研究也在持续开展当中。
近日,北京大学钱珑/欧阳颀团队就联合华大集团等机构在Advanced Science发表了相关研究成果。该研究在细菌中建立了一套便携的、可自我维持的DNA数据存储系统,可用以实现双模式存储、动态数据维持、快速信息检索和稳健的数据恢复。
让DNA数据存储技术更 “接地气”
自2012年George Church团队首次在DNA分子中实现较大规模的数据存储以来,DNA数据存储已经走过了十年的历程。
在此期间,主流的存储载体“DNA池”有效地实现了大规模的数据存储,以及对特定小文件的随机访问。然而,这通常只适用于存储时间长,且读取频次较低的数据,而对规模不大,且有较高读取和分发需求的数据则不十分适用。
为了扩展DNA数据存储的用户群体、促进DNA数据存储生态系统的建立,北京大学携手华大等机构开发了一套便携式的DNA数据存储系统。
将DNA信息“写入”细菌
研究团队首先开发了一套通用型的基因组整合工具箱(RSGE toolbox),从而将较大片段的DNA整合到不同细菌之中。
为验证工具箱的有效性,团队将编码了人工信息的DNA片段整合到了亲缘关系较远的两个物种,E. coli(大肠杆菌)和Halomonas bluephagenesis(生活在高盐度环境中的一类细菌)中。结果均实现了有效的DNA整合,表明了工具箱的通用性。
之后,团队对基因组中整合了信息DNA的菌株进行了传代实验,当细菌分裂至第2000代时,其信息DNA仍未丢失或重组。同时,菌株被置入家用冰箱(-20℃)一年后,仍可在适宜的条件下恢复生长,且信息DNA也未丢失。这说明使用RSGE工具箱整合了信息DNA的菌株,可在活跃、休眠两种模式下维持信息DNA的完整性。
H. bluephagenesis可在高盐环境下生存,作为一种极端微生物,它们具有对生物污染的天然抗性,这对于构建便携式数据存储系统是一个优势。经对比实验后,团队选择H. bluephagenesis来搭建了一个桌面式数据存储系统。
细菌化身U盘,如何实现便捷存取
团队将整合了信息DNA的细菌转移到培养基中,且每隔一定时间,取出一定体积的培养基用于信息恢复。结果显示,细菌的生长和分裂自发地补足了取样的损耗,保证了信息多次分发和读取而不耗竭。且这一系统不依赖于任何专业人员或复杂设备,可在普通家庭或野外环境中使用。
由于更加快速、便捷地读取信息的需求,研究团队不得不使用测序错误率较高(可达10-15%)的便携式纳米孔测序仪。所以,为了提升准确率,团队开发了一种新型的DNA纠错编解码算法(MEPCAL)。实验结果表明,仅仅使用覆盖率小于10×的数据量就可以无损地恢复原始信息。
此外,团队还基于MEPCAL开发了一个DNA编码的数学模型。使用这个模型的预测结果来对更大规模的数据进行编码测试,结果显示MEPCAL可被应用于大规模数据存储且不会出现显著的性能衰退。这说明,MEPCAL具有优良的稳健性和可扩展性,可以满足实际应用的需求。
这项研究开发了一种便携式的DNA数据存储系统,以补足主流的DNA存储载体在特定应用场景中的不足。这种便携式系统是用户主导的,可在一定程度上对存储在DNA中的数据进行操作,如信息的复制、分发和读取,且不需要专业人士的介入和复杂设备的支持。
将集中式存储和分布式存储联合起来,将更加利于实现各种数据的全方位存储,建立一套完整的DNA数据存储生态系统。
北京大学定量生物学中心博士研究生孙法家和博士后董一名(现为芯宿科技CSO与联合创始人)为该论文共同第一作者,北京大学定量生物学中心钱珑和欧阳颀教授为该论文的通讯作者。华大智造高级副总裁、青岛华大智造总经理倪鸣博士和深圳华大生命科学研究院平质副研究员、孙宇辉为该论文的共同作者。本研究得到科技部重点研发计划和国家自然科学基金的支持。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有