龙空技术网

神奇!DNA竟可以储存非生命信息(完整版)

陈思进 405

前言:

现在咱们对“基因计算公式”都比较看重,各位老铁们都需要了解一些“基因计算公式”的相关资讯。那么小编在网上收集了一些关于“基因计算公式””的相关资讯,希望朋友们能喜欢,咱们一起来学习一下吧!

——从GPT-4切入漫谈DNA可能是储藏信息的最佳媒介

文/陈思进

距离ChatGPT3.5开放API没多久,这次GPT-4又来了!造成的轰动更加引人瞩目。因为GPT4能处理更多的数据,生成更长、更复杂、更连贯、更准确、更多样化和更有创造力的文本。而且ChatGPT4比前任更大、更好,拥有惊人的100万亿参数,是目前存在的体量最大、能力最强大的语言模型。

而我最先关心的是,GPT4的内存需要多少?

由于GPT-3最大的版本(GPT-3,175B)需要至少350GB的显存和1.3TB的系统内存,那么GPT-4需要多少内存呢?想象一下吧。

据说有科学家计算过,2020年时,全球数据总量可能要达到40ZB。这是什么概念呢?如果换算成4TB硬盘的话,就需要1000亿个。而且,每年全球数据总量还维持着50%的增长。

有一个思想实验:当太阳快爆炸,地球就要毁灭了,人类该怎么办?

我们不能等死啊,肯定得赶紧跑!科幻片里这样的设定不是很多嘛。人类造一艘超大的宇宙飞船,把需要的东西都带走,一起去星际旅行,再找个星球重建人类文明。

那我们要怎么打包呢?

这个场景几千年前就有人帮我们设想过。他们的方案是什么呢?那就是诺亚方舟——造一艘大船,把地球上每个物种都选一对装上船带走,保证繁衍。

这个方案靠不靠谱先不管,现在肯定不能这么干了,因为我们要带的东西不一样。不仅要带上人类和地球上的生物,还有人类的知识、科技成果。如果这些全要带走,那得多大个飞船才能装得下啊!

也就是说,人类海量的数据该怎样带走?

这个问题看似简单,把数据存在磁盘里不就好了吗?可事实上,不行。

前面提到,在2020年时,全球数据总量就达到了40ZB,换算成4TB硬盘的话,就需要1000亿个!而且,每年全球数据总量还维持着50%的增长。 也就是说,不久的将来,我们人类产生信息的总量就会超过存储介质的量,就是说很多知识和数据正处于消失的边缘。

在地球上,我们可以建造大型的数据中心,都还存不下来,更何况空间有限的飞船呢?

那如何来解决存储的难题呢?

为此,合成生物学家提供了一种方案:存在DNA里,把含有数据的DNA带走就可以了。这就是我们这篇文章要讲述的——一个重要的前沿研究方向——DNA信息存储。

2010年5月,美国生物学家及企业家克雷格·文特尔教授的研究小组,宣布他们已成功制造出世界第一个人造生命细胞,即“人造生命”,证明了只要有DNA序列,在理论上就能还原出生命。 如果想要把地球上的物种全部带走,就没必要像诺亚方舟那样带着活生生的生命个体,只要就把所有物种的DNA序列信息带走就行了。

假如连生命都可以只打包DNA信息,人类文明的其他信息就更不用说了,那么答案也就有了:随着人类对信息存储的需求日益增加,传统的存储媒介已经无法满足我们的需求。于是,一种新的信息存储方式——DNA存储便崭露头角了。

让我从头向大家介绍,什么是信息存储新方案吧!

我们都知道,DNA,全称为脱氧核糖核酸,是构成生命体的基础单位,其中包含了生物体的遗传信息。不过,由于DNA的信息密度极高,一小段DNA就能够存储数百万字节的数据。而且DNA的存储寿命也非常长,可以达到数百年或更长时间。因此,科学家们开始探索将DNA作为一种信息存储介质的可能性。

DNA存储的实现方法,是将数字数据通过一定的编码方式转化为DNA序列,然后通过DNA合成技术将这些序列组成DNA链。当需要读取数据时,只需将DNA进行PCR扩增并进行测序,即可恢复原始数据。这种方法不仅可以存储海量的数据,而且数据的读写速度也非常之快。此外,由于DNA存储媒介不需要任何能源维持,因此它也具有极高的能源效率。

那么如何把信息存进DNA?

众所周知,生命的信息是靠DNA存储的,而且数十亿年以来保存完整。DNA绝对是这个星球上最古老的信息存储工具。

不过,DNA能用来当硬盘存储信息吗?而且,非生命的信息可以存在DNA上吗?

答案是可以的。

最先,想到干这件事的是艺术家乔·戴维斯(Joe Davis)。1988年,戴维斯把一个35像素的照片,转化成35个碱基的DNA,这是人类第一次在DNA上写入不属于自然的信息。

这个图片长得像一把叉子,代表地球。他管这个图叫小维纳斯(microvenus)。

小维纳斯(microvenus):第一张存进DNA的图片

这是怎么做到的呢?其实DNA存储信息和密码编码是一个道理。计算机可以用0和1这两个字符表示所有的信息,我们同样可以用ATCG4个碱基来表示同样的信息。

如果你想存储一个图片,可以先把图片还原成0-1的二进制数据,再把这个数据对应转换成ATCG的序列,然后用DNA合成技术把这段序列合成出来,信息也就被存在这段DNA里。想读取的时候,就对这段DNA做测序。而想把信息存到活细胞的DNA里,也是可行的。

2017年7月《自然》杂志发表了乔治·丘奇教授和同事的研究,他们把一部黑白电影存在了大肠杆菌的DNA上。虽然体内有一段“奇怪的DNA”,但大肠杆菌还是正常生存。而且不止生存,还可以正常遗传,每次繁衍都是一次数据复制,存储在基因组中的电影,在每一代大肠杆菌中也都完整无缺地保存下来了。

但是,由于DNA的存储和读取过程比较复杂,目前的DNA存储技术还不够成熟。此外,DNA存储需要高昂的成本,并且需要先进的实验设备和技术。因此,目前这种技术还没有被大规模的得到广泛应用。但是,随着技术的不断进步,相信这种高效、安全、长寿命的存储方案,在未来一定会有越来越广泛的应用。

不过,现在把信息存在活体细胞中的研究减少了。因为细胞会死亡,还会不断分裂复制,还存在着出错的风险。为了保障数据安全,大多数情况下,存储了信息的DNA都是以DNA干粉的形式存在。

在一个系统下,1克DNA可存储2.15亿千兆字节的数据,重量不到一块方糖的DNA可存储世界上所有的电影。一辆两座厢式货车大小的DNA可容纳世界上产生的所有数据。DNA之所以有如此高的存储密度,其中一个原因是DNA有四种碱基(A、T、G 和 C),而计算系统目前使用的是基于0和1的二进制系统。这种倍增使存储的信息量呈“指数级增长”。

曾读过读过一篇论文,1公斤DNA可储存全球数据,请见附图:

全球数据只需1kg DNA就能储存

而且,让信息保存千万年的方法,是通过DNA的储存。如不久前天津大学宣布,该校合成生物学团队创新DNA存储算法,将十幅精选敦煌壁画存入DNA中,通过加速老化实验验证壁画信息,在实验室常温下可保存千年,在9.4℃下可保存两万年。该算法支持DNA分子成为世界上最可靠的数据存储介质之一,可以让面临老化破损危机的人类文化遗产信息保存千年万年。

不过,我们实现这个目标的主要障碍是成本:要使用DNA读取、写入、封装和存储数据,需要大幅降低成本。在某一个项目中合成2MB数据的成本是7,000美元,而读取数据又需要2,000美元。而且,在DNA中读取和写入数据的速度,会慢于其他类型的存储技术。

写到这儿,我们不禁感叹自然界的奇妙和人类的智慧。DNA既是生命的基石,也是信息传递的重要媒介,其巨大的信息存储能力和长期的稳定性,使其成为未来信息存储的一个极具潜力的领域。我们期待着未来,当人类的智慧和科技的力量结合,解决目前还存在的那些问题和障碍,开创出更加广阔的DNA信息存储领域!

2023年04月20日写于多伦多安大略湖畔

标签: #基因计算公式 #dna序列c语言