1887年,摄影师埃德沃德·迈布里奇拍摄了一组特殊的照片。当时,从加州州长到众多画家都被一个问题所困扰:马在奔跑时四只蹄能否同时离地?为此,迈布里奇将多台照相机固定在赛道边上,由拴在赛道上的绳索固定快门,当马冲过绳子时快门被触发。他将这组照片合成了一套原始的动画,解决了这个“世纪难题”。更重要的是,这是人类首次实现动态摄影。
而在130年后,这段名为《奔跑中的马》的视频见证了另一个突破:科学家将视频信息存储在一个特殊的媒介——DNA中。
用DNA储存信息的想法并不是第一次出现。一些生物学家已经利用DNA编码一些文字信息,比如世界第一种合成生物“辛西娅(Synthia)”的创作者Vente,就曾经通过三联体密码子代表的氨基酸顺序在他的合成生物基因组中加入了不少的“水印”,内容包括有参与科学家的姓名,科研机构名称,甚至还有诗歌的片段。但这些还只是科学家的自娱自乐,Shipman等人则从理论上探索了将DNA改造为数据存储介质的可能性。
在一项发表于《自然》期刊的最新研究中,来自哈佛大学医学院的科学家应用CRISPR-Cas基因编辑工具,将编码了图像甚至是视频影像的DNA序列导入了大肠杆菌的基因组,并从活体细菌细胞的基因组中读出了相应的图像和视频资料。
CRISPR-Cas系统是近年来炙手可热的基因编辑技术的主要工具。这套细菌在进化过程中演化出的机制本来是对抗外源遗传物质-比如噬菌体-“非法侵入”自身基因组的一种防御机制。
最近几年时间内,聪明的分子生物学家们发现利用细菌的这套系统稍加改动,就可以按照人们预想的方式在活细胞内进行各种对DNA分子的“编辑”,比如定点删除或插入一段序列,修改原有DNA序列等等。近年来各种相关的研究报道,应用专利出现了大量井喷。
在这项研究中,Shipman和同事,包括正在“复活猛犸象”的生物学家George Church,将图像文件分解为像素,并通过适当的编码手段用DNA序列片段表达了像素的信息(例如,一个图像像素的信息可以由X坐标、Y坐标和颜色来表示)。再通过CRISPR-Cas系统,将编码了像素的DNA片段整合进大肠杆菌(E.coli)的基因组。
待大肠杆菌繁殖后,研究人员通过测定这部分基因的序列,解码并将图像/视频信息重新呈现出来。
Shipman最先实验的是尝试将一个56 X 56像素的人手四色黑白影像转入大肠杆菌基因组。在其中一种编码方式中,每个像素需要由28个碱基编码(整体图像大小为784字节)。科学家将所有的像素整合为112个独立的DNA片段,再将像素信息连同编码CRISPR-Cas系统需要的酶系统转入大肠杆菌群体。
之后通过高通量测序的方法读取培养的大肠杆菌基因组信息,可以发现,随着大肠杆菌繁殖代数的增加,其基因组中可以读取到的图像像素信息越完整。
另一项编码gif的试验更具挑战性。Shipman等利用同样的系统以每天1帧的速度,将《奔跑中的马》中的5帧影像编码进大肠杆菌的基因组。而在研究人员重新读取的视频片段中,信息还原度达到了90%。
科学家们费尽周折将大小只有几百字节的文件“存入”细菌基因组,目前看来有些显得得不偿失。但这就是科学和技术的魅力所在,今天看来十分笨拙的方法也许将在未来改变世界的面貌。Shipman本人就十分看好自己研发的技术:DNA分子的稳定性非常好,如果我们需要永久性地保存文件且并不需要随时读取时,DNA将是一种非常优秀的存储介质。而且,将来我们可以将文件数据存储进活体细胞而实现存储,复制等功能。