分子科学学报

期刊导读

存储技术的研究概述

来源:分子科学学报 【在线投稿】 栏目:期刊导读 时间:2021-03-22

生命的信息存在于DNA 分子之中,构成DNA的4 种碱基的不同排列方式,存储了地球上所有生命的信息,因此DNA 分子是一种容量巨大的信息存储工具。 随着现代社会数字化信息的不断积累,数据的存储需求越来越高,有研究表明到2020年,包含在全球计算机及历史档案、电影、照片、企业系统和移动设备中的数据量将达到44 万亿G。 现在使用的磁介质(磁带、磁盘、硬盘等)和光介质(CD、DVD 等)在存储量上将很难达到要求。为了满足人们未来对数据存储的需求,寻找具有更好存储性能的新材料、 新技术成为一个重要的问题。 DNA 存储技术有望成为可用于某些特定领域的新型信息存储技术。

1 DNA 存储技术的原理

DNA 存储技术是指用人工合成的脱氧核苷酸链对文档、 图片和音频等信息进行存储并能完整读取的技术。DNA 是由4 种碱基——腺嘌呤(A)和胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)按照碱基互补配对的特定顺序排列构成的双链分子,作为遗传信息,指导生物体生长发育。DNA 存储技术就是在这4 个碱基“字母”的基础上,开发区别于生物体的“语言”代码。 储存数据时先将数据编码成二进制的数字串,然后用脱氧核苷酸中的碱基A、T、C、G 编码二进制相对应的数字,这样数据就能以脱氧核苷酸链的形式完成目标DNA 分子的构建(图1),再通过人工合成相应的DNA 分子,数据即被储存在DNA 分子中。 实际应用时并非将所有数据储存在一个长分子的DNA 中,而是分成多个携带一些索引细节的片段,这样既能明确各数据在整体序列中的位置,又可以降低因片段遭损毁导致全部数据丢失的可能性。 读取数据时只需对目标DNA 进行测序,还原为二进制格式的数字串,再完成解码工作即可[1]。 对于DNA 储存来说,数据写入即是人工合成DNA,数据读取即是DNA测序,数据的拷贝即是DNA 的复制。

DNA 作为新型的信息存储载体,有其得天独厚的优点。 第1,DNA 存储期限长。 生物体内的DNA能保证生命准确无误地繁衍遗传,上万年的样本仍可被恢复为完整的DNA 片段,表明DNA 保存期限长且无需过多地被维护。 存储在阴凉干燥处的DNA,可被保存数10 万年[3],这是其他存储介质无法媲美的。 磁介质是建立在电磁的基础上,工作环境易受到限制和干扰,容易出现消磁现象。光介质虽受环境影响小一些,但耐久性不理想,保存时间有限,一般只有几十年。 第2,DNA 存储密度大。 DNA 分子是一种令人难以置信的密集存储介质,1 g DNA 即可储存2.15 亿G 的信息。而硬盘的存储量虽可达上百G,但在体积不变的情况下,硬盘数据存储密度提升的空间有限,容量难以实现大幅突破。 CD、DVD 等光介质存储对表面积的要求很大,只能单层平铺保存信息,单位存储量更小。 第3,就读取方式而言,DNA 存储不涉及兼容问题。第4,从环保的角度,其他存储介质会用到生物不可降解的物质,对环境造成不良的影响。 基于DNA 存储技术的上述优点,研究人员认为,一些不常用但却需要长期保存的信息,例如政府文件、历史档案等,尤其适合采用DNA 存储方式。

2 DNA 存储技术的研究历程与进展

20世纪70年代科学家即意识到DNA 碱基不同的排列方式可以代表不同的信息,从而萌生了DNA 可作为存储介质的想法。 1988年首次证明可以将信息存储在DNA 分子中。 1995年,研究人员提出了构建DNA 存储器的模型,奠定了DNA 存储技术研究的基础。 1999年,研究人员利用DNA 存储技术编码和恢复了一条长23 个字母的信息。 进入21世纪以后,特别是近年来,DNA 存储技术的研究取得了很大的突破。2012年,哈佛大学维斯生物工程研究所的研究人员尝试将一本约有5.34万个单词的书籍和11 张图片及一段JavaScript 程序编码到不足一沙克(亿万分之一克)的DNA 微芯片中,完成了当时人类使用DNA 储存数据量最大的一次实验[4]。2013年,Science 杂志报导有研究者将马丁·路德的“我有一个梦想”的演讲及一些其他的名人作品编入DNA 分子中[5]。 同年英国分子生物学家Goldman 等[6]在Nature 杂志中报道他们通过设计更为复杂的加密系统对部分重叠的字符串数据进行编码,使用没有同聚体(连续2 个以上相同碱基)的DNA 序列编码文件,减少了同聚体序列导致的在高通量测序中可能产生的错误。2016年,微软公司和华盛顿大学研究人员合作,将《战争与和平》等100 部经典文学作品及数字图书馆排名前100 位的电子书等约200MB 的数据成功地一次性“写”入DNA 分子中,且在从DNA池中读取数据的测序过程中,没有出现任何错误。Erlich 等[3]发明了一种所谓的“水滴”储存法,利用他们设计的DNA 喷泉算法(有容错纠错机制),将二进制字符串(喷泉)随机包装成“水滴”(即数据包),每个“水滴”中的0 和1 映射到DNA 的4 种碱基(A、G、C 和T)上,通过这种方法能使每个核苷酸编码1.6Bt 的数据,合成的文件中也无任何错误(图3)。 在最近的一项研究中,研究者通过CRISPR-Cas9 系统(一种基因编辑技术)将一个短视频成功储存到了大肠杆菌的基因组中,证实了可将信息存储到活细菌的基因组中[7]。 研究人员首先用一张张按出现时间顺序排列的图片表示该视频,将图像文件分解为像素,通过编码技术用DNA 片段表达像素信息;将代表该视频信息的全部DNA 片段及CRISPR-Cas9 系统所需的酶系统全部转入大肠杆菌内;最后利用CRISPR-Cas9 系统将DNA 片段整合进大肠杆菌的基因组中,随着大肠杆菌的繁殖,完成信息的存储与复制,信息的准确度高达90%。 这意味着利用活体细胞可以实现数据的存储和复制。

上一篇:涂鸦本质上是逾矩的艺术 下一篇:没有了