DNA作为储存生物信息的结构,从演化产生以来一直保持着稳定、安全的性能。利用4个碱基的组合,它传递着一代又一代的遗传密码。这种密码组合的优越性如今也被科学家看在眼里,类似计算机中的1和0,他们利用ATCG同样创造了信息储存代码。但是黑客能不能会入侵DNA代码呢?目前来看,答案同样是肯定的。
DNA是一种存储信息的方式,利用ATCG四个碱基,组成了生物体的遗传信息,引导生物的发育与生命机能的运转。科学家们曾经利用DNA的信息存储功能,将书籍、录音、动图,甚至是亚马逊的礼品卡存于其中,跨越了生物与计算机之间的鸿沟。
后来,华盛顿大学信息安全研究人员有了这样一个想法:如果能将恶意代码存入DNA,会带来怎样的风险?于是,他们进行了一次试验,他们设计了一段用ATCG编码的恶意代码,并成功的在互联网上买到了由此代码合成的DNA,当测序仪对此段DNA进行测序并利用电脑软件进行数据分析时,恶意代码被启动并入侵了电脑。
研究人员认为,考虑到现在基因测序的应用领域越来越广,虽然现在还没有证据表明基因测序或者基因数据面临此类安全问题,但是未来,一旦有黑客发起类似攻击,将可能窃取大型实验室的知识产权,污染用于犯罪调查的DNA分析数据。也有可能,企业可以利用这项应用保护其转基因产品的商业机密。
从数字信息到生物信息,从理论上看,将信息存储在DNA中并不困难。在电脑中,每一个字符都由0、1进行编码,任何数字化的内容,不管是视频还是图片亦或是一段程序,本质上都是一串串的0和1。而在生物体中,遗传信息存储在DNA中,代码变成了碱基:A、C、G、T。简单地说,用DNA存储数字信息相当于用A、C、G、T取代了0和1。
2012年,哈佛大学教授、美国基因工程学家乔治·丘奇(George Church)及其团队在科学期刊Science上发文,介绍了他们将DNA用作信息存储媒介,使用DNA微芯片编写了一本5万余字的书,制作了54898个DNA序列,利用测序仪就可以阅读了这本书。在论文中,作者写道:“DNA是已知最稳定和密集的信息媒介之一,随着DNA合成和测序技术的发展,DNA将成为越来越可行的存储媒介。”
2016年,纽约基因组研究中心的研究人员开发了一套新的编码系统,可以极大地增加DNA分子的数据存储容量,他们将一部电影、一个电脑操作系统、一篇论文、一个电脑病毒以及一张50美元的亚马逊礼品卡进行“碱基编码”,产生了一份包含7.2万个DNA片段的文库,一家DNA合成公司帮助他们合成了实体DNA。
为了再次重现DNA中储存的数据,他们对DNA进行了测序,并利用软件将遗传信息转化为二进制代码,几乎无误差的,能够重现所有文件。2017年,乔治·丘奇等人又在Nature上刊文阐述了他们如何利用基因编辑技术CRISPR将图片和短片编码到了一群活细菌的基因组中。他们所制作的短片有5帧,每一帧,研究人员用104个DNA片段进行编码。
接着,研究人员以每天一帧的速度,将短片的DNA片段植入到大肠杆菌中,5天的时候,将整部短片植入到了大肠杆菌中。之后,研究人员再对大肠杆菌进行测序,即可读取并还原短片。作者认为,这项研究表明,在活细胞的基因组中可以稳定的存储真实的数据。
生物学家们的研究证明,将数字信息存储于DNA中,甚至是活细胞的基因组中是可行的,且这些信息可以以较高的精准度还原。而且DNA存储有一种先天的优势,不需要很苛刻的条件,其中的信息可以保存上百年,如果将其保存在阴凉、干燥的地方,其中的信息甚至可以保存成千上万年。
大多数生物学家和计算机科学家看到了DNA存储无以复加的优势和广阔的应用前景,但华盛顿大学的计算机安全研究专家却注意到了其中潜在的风险。
将电脑病毒藏在DNA中,华盛顿大学计算机科学教授Tadayoshi Kohno等人注意到,基因检测越来越常见。部分原因来自于DNA测序价格持续的下降,2000年左右,对一个人进行全基因组测序需要1亿美金,到现在,这一价格已经下降为约1000美金,研究人员们的未来目标是希望将这一价格降低到100美金。
价格的下降、操作的便捷让DNA测序应用范围越来越广泛,不仅仅是基础生物学,还包括考古学、犯罪调查、产前诊断等等。在美国,个人基因检测已经成为一种潮流,为家中宠物进行基因检测也越来越流行。
这就不得不考虑一种风险:DNA样本来自外部来源,这可能难以适当地审查,那么其中是否会包含一个或几个存储恶意代码的DNA片段?当这些DNA片段被测序并利用电脑软件进行处理分析时,将对计算机安全造成怎样的影响?
华盛顿大学的研究人员开始了他们的试验。为了简化整个试验,首先,他们在一个用于DNA测序数据处理的开源软件中人为的引入一个程序缺陷。实际上,研究人员分析了很多用于DNA数据处理与分析的开源生物信息学工具,他们发现很多工具都没有遵循最佳的计算机安全保障方法,这给攻击者留下了潜在的漏洞。
接着研究人员设计了一个恶意计算机代码,希望利用“缓冲区溢出”攻击计算机,缓冲区溢出是针对程序设计缺陷,向程序输入缓冲区写入使之溢出的内容,从而破坏程序运行,趁程序中断之际夺取程序乃至计算机系统的控制权。
不过将恶意计算机代码转化为DNA分子的过程并没有研究人员原本想的那么简单,当他们将精心设计的恶意代码以A、T、G、C的形式输入DNA分子合成网站时,出现了满屏的错误。
他们了解到,为了使DNA样本保持稳定,A、T、G、C必须保持合适的比例。研究人员不得不反复编写恶意代码,以找到合适的形式。按下订购按钮的一周后,一小瓶样本就寄到了研究人员的手中。
通过测序,DNA样本中的恶意程序被“释放”了出来,攻击软件漏洞,入侵了电脑。
“我们从理论上证明了,利用DNA存储恶意代码能够攻击计算机,但是我们现在并没有证据表明DNA测序或者DNA数据的安全性目前正受到攻击,我们希望在技术成熟之前,最好在新兴技术的早期就考虑安全威胁。”负责该项目的华盛顿大学计算机科学教授Tadayoshi Kohno认为。“因为在真正的攻击出现之前,安全问题更容易解决。”
研究人员认为,如果黑客真的采用这项攻击方式,那么他们就可能获得有价值的知识产权,或者可能污染与犯罪有关的基因分析结果。当然,企业也可能在转基因产品中植入恶意代码,以保护其商业机密。“未来这可能转变成一些有趣,或者带来威胁的应用。”研究人员表示。