人类的代码是什么?
可能大家都知道基因是一个生命的源代码,我们可能很小的时候就就问我们的父母,我们到底从哪里来?当然,我们很久之后才知道我们不是从垃圾箱捡来的,我们是人体的3D打印机打印出来的。
那我一直在问,这个3D打印机怎么知道哪里是我的眼睛哪里是我的鼻子呢?实际上3D打印机的背后是生命的源代码,我们从父母双方继承来的遗传物质。
父母精子和卵子的结合,最关键过程实际上是遗传物质的交换、重组形成了新的生命。每个人的源代码都是不一样,这就解释为什么我们每个人都是特一的,都是唯一的。
不仅仅我们人与人之间的源代码不一样,我们和我们周围所有生命世界,都是由源代码控制的,而且这些源代码都不一样,正是这种不一样才塑造出我们多姿多彩的世界。
当然我们今天听到林老师的分享,这样的不一样,造成了玫瑰的多姿多彩,玫瑰是美的。但是我们也听到大苗的演讲,我们在这世界上还有这样一群因为出生遗传缺陷而导致的各种障碍。
实际上源代码的各种变化有很多,它们会造成错误。我们知道,地中海贫血症在中国的南方两广地区人群中错误的携带率高达1/9,九个人里面有一个人携带了这样的错误。
而这样的这样错误导致了红细胞的携氧能力不足,最终导致了这些小孩没有办法像正常小孩一样活泼健康地成长。这样的变化同时也会引起更严重的疾病,比如说癌症。
中国现在一年新发的癌症超过了400万,而这样的癌症变化是怎么来的?癌症的变化实际上是源代码出错最后导致失控。
比如说,这里举一个例子,P53,这是一个很简单的基因,这个基因一小段序列的缺失最终导致了整个癌症通路的激活,最终导致了癌症的发生,所以这种错误实际上是非常可怕的。
所以我们就想,既然这个代码很重要,我们一定要把这个代码解读出来,从而能够掌握这样的代码,所以我们就要做一件事情,就是要把这个代码测出来,我们叫做测序。测序怎么测呢?实际上基因的源代码只有4个字符——ATCG。
就像计算机里面用的0、1这样的字符来代替所有的信息一样,ATCG长串序列的组合造成了所有源代码的基本组成。这个ATCG源代码存在于什么样的物质上呢?存在于一种我们称之为DNA的物质上,这可能是目前是世界上最有效的存储体系。
0.000,000,000,001,5克的DNA里含有30亿碱基的信息,包含了我们一生生老病死的压力。如果用1克DNA来计算的话,信息量可以达到ZB级别,这可以把目前沉淀下来的所有互联网数据都装进去还足够。
所以这是一个非常有效的存储体系,它字符间的间距只有0.34纳米,远远强于我们目前半导体工业10纳米的水平。所以这是个非常复杂的体系,我们想去解读它是一个艰巨的工程。
所以我们在解读第一个人类基因组的时候用了13年,有6个国家的200多位科学家花了30亿美金才完成。当然随着技术进步,我们已经可以非常容易和快捷的把基因组测出来。现在所有人都可以非常简单的拥有自己的基因组,那这是怎么做到的呢?
首先,我们的DNA在细胞核里面,我们把DNA从中体取出来。但是DNA非常长,将近有上亿个碱基的序列。
所以我们为了简化工作,必须把它打断成一段一段的小碎片,这样可以大大简化我们的工作。然后我们再把它形成这样的一个结构,通过这个结构把DNA复制上千遍。
复制的目的是为了放大信号,这样信号就可以放大一千倍,读取起来就会更容易。这样上千倍的DNA可以相互缠绕,形成一个纳米球,它可以放到测序芯片上进行测序。
而测序的时候我们把四种碱基ATCG分别标成不同的颜色,A标成红色,C标成黄色,T标成橙色,G标成绿色。这样我们就可以按顺序把碱基的序列读出来。
我刚刚提到,这是一个很小的片段,我们把上亿个片段组装成人们的基因组。
可以「读」以后,我们还能「写」基因吗?
正是因为我们可以读,所以我们现在非常想写。写这个事情我们人类一直在做,试图扮演上帝的角色。从人类有农业开始,就一直在做改写源代码、改写基因组的工作。
我们在实验室里有更高效的方式,从外源导入基因,比如将水母荧光蛋白转入到小鼠体内做一些功能试验,最近非常热门的是基因编辑,它可以非常精准的对几个碱基进行修改。
所以刚刚提到的一小个字符的错误,一小段序列的缺失,也许未来我们可以通过这种更精准的基因治疗方法来治疗疾病。为什么基因编辑这么热?就是因为它带来了治愈疾病的新的希望。
当然,掌握了这些编码的规则之后,人类最想做的还是真正创造自己的生命,从头开始写自己的代码。
合成生物学就是从头写人工代码的这样一项工作,我们已经成功完成了细菌源和生物的编码撰写,最近我们在做的是人工酵母的基因组撰写。可以想见,随着我们读和写能力的提升,我们改造命运、改造规则的能力会越来越强。
有了这些技术,我们在想怎样让这些技术造福人类。
2008年,华大收到了一封长长的血书。这封血书是一位鱼鳞病患者的妈妈咬破手指写的,这位妈妈本身也是位鱼鳞病患者。她一生中遭受过许多痛苦、孤独和不幸。
但当她生下自己的小生命时,发现女儿遗传了自己的疾病基因。这位母亲非常痛苦,陷入深深的自责。这样的故事在中国各个地方到处都在发生,但这本是可以避免的。
中国的出生缺陷比例是5.6%,也就是每20个新生儿里面可能就有这样那样的残疾,很多家庭都是因为这样因病致贫。这个事情从本源上来说就是基因出错,从目前技术来说是完全可以解决的。
所以我们想用这个帮助每个家庭都能生出健康的宝宝,所以我们启动了「千万家庭远离遗传出生缺陷」计划,用技术试图改变这样的现状,把中国的出生缺陷降下来。
通过我们的努力,目前已经对600多种疾病进行了筛查,完成了150万例孕妇的筛查,帮助了8000个家庭避免了出身缺陷的不幸。
同样作为基因组的疾病,癌症也可以通过基因组技术来进行改变,摆脱规则的束缚。
这三位美丽的女明星,梅艳芳、陈晓旭、姚贝娜,她们都是因为癌症离世,而这些本都可以通过技术的力量去改变的。
而安吉丽娜朱莉,她通过基因检测发现自己携带了BRCA1基因突变,而这诱发乳腺癌的风险高达87%,所以她毅然决定进行了双侧乳腺的切除,从而避免了罹患乳腺癌的不幸。这样一个技术完全是可以推广到所有人可以使用的。
如果身患癌症,因为这是基因代码出现了错误,所以也是可以改变的。当你找到代码树到底是哪段出错后,可以选择精准的靶向用药,从而能够赢得生机。
当然,最好的还是在癌症还没有出现或者是在早期的时候,将其扼杀在摇篮。所以我对游离DNA检测的技术非常热衷,这可能最终帮助人们消灭癌症,或者把癌症当作感冒一样去治疗。
什么意思呢?大家都知道,怀胎需要十月,癌症从最早一个细胞的突变,到变成癌症组织,它也需要漫长的时间,少则五六年,多则十几年。但当它长成影像学可以观测到的时候,已经到了中晚期。
如果我们能够在早期,甚至只有几个细胞的时候,像我们做新生儿筛查,在怀孕第十周时就能检测到体内的变化,那么癌症的治疗应该不是难事。
这样的事情其实是可以做到的,和新生儿细胞一样,癌细胞是会快速增长的细胞,它会把自己代谢产生的游离DNA释放到血液中,循环系统搜集全身的废物,最后在血液里汇集。
所以我们可以测定血液里含量极低的突变,来进行早起的检测和干预,从而预防癌症。所以我觉得,这是技术带来的突破。虽然这个技术还在早期,但我越来越看到它给治疗癌症带来的希望。
共享数据,造福全人类
我们到目前已经掌握的知识,已经彻底改变了对疾病的认识。我们现在虽然能读出基因组所有的序列,但真正能够去解释的含义不超过1%。有99%的区域,我们称之为基因组上的暗物质。
我们知道这些暗物质区域有它的功能,但它们到底怎样影响我们的生命形式,我们还不知道。所以我们在做的事情就是希望突破人类对基因的局限,真正掌握自己的命运,读懂基因组的每一个字符,但这个工作量非常大。
比如让人工智能去研究一个苹果,它要去看一千个、一万个苹果;同样,你要研究一本生命之书的变化,你要演讲上千上万,甚至百万级别的变化。
我们做了一个计算:如果想得到1%新的基因组认知,至少需要ZB级别的数据量,基本上看起来是不可为。所以为了产生足够的数据量,我们必须有足够便宜、足够高通量、足够快速的平台和工具。
说到通量最大,华大基因5年前就号称全球最大的基因组中心,我们买了128台进口测序仪。我们从中得到了巨大的科学发现,也获得了巨大的产业突破。
但我们也遇到了瓶颈:因为最大,所以被高度关注,在技术上、仪器维修上、价格上受到各种围追堵截。我们深刻体会到,没有自主知识产权所导致的快速发展瓶颈。
4年前到今天,我们花费40亿做了一件事,做真正自己的国产测序仪。这件事,我们在去年年底的时候做成了,大家可以看到,我们在做第一个人类基因组测序的时候花了30亿美金,做第一个中国人基因组时花了100万美金。测一个基因组还需1万美金。
当我们发布第一台自主测序仪时,价格降到了1000美金。但这还远远不是我们的终极目标和追求。我们希望价格可以更低,低到什么程度?几百美金,甚至几百人民币。
正是因为我们有了自主的平台,所以我们拥有了最大的数据。到目前为止,我们测定了1000万份不同的样本,产生出超过20PB的数据,美国前副总统戈尔在他一本叫《未来》的书中做了统计,认为华大基因产出了全世界50%以上的基因组数据。
我们对全球农业基因数据的贡献也超过了70%。按照传统的商业逻辑,我们好像应该把这些数据像宝贝一样藏在角落里,自己去挖掘。但实际上,我们没有这么做。因为只依靠我们自身的能力,是不可能解读出人类的天书的。
所以我们做了一件事,把已经产生的数据、即将要产生的数据、人类未来所有的数据都放到一个共享的平台,我们建了一个全球最大的基因共享平台,叫做中国国家基因库。
这个库在今年9月22日将正式对外开放。我们建这个平台的目的,就是为了汇聚全世界的科学家和全球所有聪明头脑的力量,共同解读人类基因组这本天书。
我们觉得,虽然道路还很曲折,但是想要真正能够掌握自身的规则,掌握人类自身的生命密码,100%的理解基因组里每一个字符的含义,这一天的到来是可以预估的。
到了那一天,我们也许就能实现人类的终极追求;到了那一天,也许我们就可以让基因科技真正造福人类;到了那一天,也许我们有希望治愈所有的疾病;到了那一天,我们可以期待所有人都可以健康的活到120岁。
因为除了人类的基因之外,我们也掌握了所有基因的天书。
我们也有可能解决农业的问题,真正解决饥荒的问题。我们也能够和自然和谐共处,建设未来城市。
所以我们在做的事情绝不仅仅是一群科学家对生命本源的热爱,而且我们在做的可能也是全人类最大的公益事业。
人类从来没有停止过对自身本源的探索,也从来没有放弃过对生命的追求。
从古代帝王道士炼丹,到达芬奇的密码,其实大家一直都是在这路上探索着。
我们一直在做的就是这样一件事——探索生命本源的密码,真正帮助人类摆脱生老病死的自然规律,最终把人类自己的命运掌握在手中!