本文的缘由是我看到某位著名学者今天发布了一篇文章批评测序(下图)。这篇文章的许多观点,我很不以为然。这位学者在文中描述了自己在1988年读研究生时就已经做过测序,而后总结:“拿到基因之后,才有测序,不是为 ...
本文的缘由是我看到某位著名学者今天发布了一篇文章批评测序(下图)。这篇文章的许多观点,我很不以为然。 这位学者在文中描述了自己在1988年读研究生时就已经做过测序,而后总结:“拿到基因之后,才有测序,不是为了测序而测序。” 其高度赞扬科学问题驱动的研究,而强烈贬低数据驱动的“那种文章”。(下图) 其实,只需要看一看诸如Cell、Nature、Science每一年有多少数据堆砌的“那种文章”就足以反驳。但是,我认为,这位学者的这种观点本质反映了其知识体系可能过于陈旧了。—— 这是我读完该文后的第一印象。 在80年代末、90年代初,“基因测序”或者“蛋白测序”不仅极其昂贵而且费时。在2001年人类基因组计划完成的那一年,单人的全基因组测序价格大约为1亿美元(下图)。—— 仅仅是价格就使得人类基因组计划在当年艰难开展。而如今,这个价格大约是100美元。 National Human Genome Research Institute 可想而知,在2001年之前13年的1988年,基因测序的价格必定给当时正在读博的该学者留下不可磨灭的印象。 在那时,显然,由科学问题出发,将测序作为研究课题中所使用的诸多实验手段之一。不然,你也做不起实验嘛,对吧,在80年代末任何一个高校课题组都不可能大规模测序,以测序数据驱动研究。 但是,时代变了啊。 我再举类似的例子。Chris Sander,生物信息学的巨擘,在1994年曾经说过这样一句意味深长的话:“很快,没有一位科学家能在她的脑海中记住所有的蛋白质结构,并凭借记忆比对它们的相似性。” Proteins (1994) 19, 165-173 今天的我们或许会奇怪,怎么会有人说出这么狂妄的话 —— 居然要记住所有的蛋白质结构,而且还要凭借记忆对比所有结构?! 不考虑时代背景的话,的确会有此一问。时代背景是:在1994年,PDB(蛋白质结构数据库)内的存储的实验解析的蛋白质(也包括一些核酸分子)的结构总数,超过1000。 也就是说,在此前,世界上顶尖的蛋白质结构生物信息学家,的确是把自己的大脑当电脑用的。而在此后,蛋白质的结构生物信息学迈入“大数据时代” —— 研究范式必须要变。 过去可以是科学问题驱动研究,产生数据;现在和未来,可以是数据驱动,产生科学问题。 再者,在80年代末、90年代初,数据驱动型的研究的各方面条件都是不成熟的,包括(1)数据本身体量还远没有达到“大数据”,(2)计算机硬件难以承载大型数据运算,(3)数据分析方法,例如机器学习(以及后来进一步发展出的深度学习),也远未成熟。 我们依然举蛋白质结构生物信息学为例。AlphaFold2 —— 今年的诺贝尔化学奖的一半,之所以在2020年这个时间节点出现,有几方面的客观原因:(1)蛋白质的实验结构数据(~20万个)、序列测序数据(~10亿条)等已经积累到比较大的体量;(2)计算机显卡,以英伟达的显卡系列为代表,已经适应于大规模模型训练;(3)深度学习算法,诸如注意力机制,日趋高效。 多学科交叉的领域,比如“测序”,更具备大数据驱动的优势,因为科学家可以用数据推动交叉学科的发展,因为生产数据的质量、效率、成本等是很容易量化和评价的指标,易于衡量包含硬件科研在内的各交叉学科的进展。 Comput. Struct. Biotech. J. 18 (2020) 3494. 人,研究者,固然重要 —— 我不持英雄史观,即便换一批研究者,类似于AlphaFold2的工具也一定会在稍晚一些时候被做出来 —— 更重要的是上述客观的历史条件。这是普列汉诺夫的唯物史观。 回到这位学者的观点,“先有基因,后测序” —— 在今天,这真可以反过来。 我举一个例子。麻省理工大学的张锋 —— 论水平张锋比这位作者要高得多吧,大家没有异议吧 —— 在2023年11月发表了一篇极为精彩的Science论文(下图)。在这篇研究论文中,张锋从公开数据集挖掘出188个前所未见的稀见CRISPR相关基因模块。这不就是先有测序数据,再有基因吗? 诚然,测序不是张锋做的;总得有人测吧?不能说测序没有(学术和经济)价值吧? 科学嘛,总是要有人当肩膀,有人踩肩膀,测序就是当肩膀咯。 我再举一例。上个月,中山大学、阿里、武汉疾控等19家单位联合发表了一篇Cell,非常精彩,从公开的宏基因组、宏转录组数据中,利用深度学习,识别出超过16万种新的RNA病毒(下图)。这不也是现有测序数据,再有基因吗?这份工作太有意义了吧,显然更全面而深刻地理解全球RNA病毒能帮助我们应对未来的病毒大流行。 同样地,宏基因组、宏转录组等等组学数据,不测序,怎么会有呢,怎么能推动全领域和其它领域的繁荣呢? 这种例子,比比皆是,太多太多了。这就是我在本文开头所说的:只需要看一看诸如Cell、Nature、Science每一年有多少数据堆砌的“那种文章”就足以反驳这位学者。 我只能说时代变了,研究范式变了,而大数据驱动就是一种新的研究范式 —— 用30多年前的学术观点看待今天的问题是刻舟求剑。 我还想说一个问题。 以近乎“暴力”的方式,测序,或者预测(蛋白质等)结构,一定要有某种意义上的“价值”吗?或者说,一定要有用吗?不能单纯因为“有趣”而非“有用”来研究吗? 基于第一性原理的科研是非常有趣的,像学生解题一样,一步推完,推下一步;基于大数据的科研,或者产生大数据的科研,也有趣吗? 嘿,真地有趣。 我举个例子。DeepMind公司发布了AlphaFold2之后,“暴力”地预测出了“人类几乎全部已知蛋白质”的结构,大约2.14亿个,然后向全世界免费开放了这份数据,名为AlphaFold Database,简称AlphaFold DB。这在当年就引发了学术界的批评。没有批评则赞扬无意义嘛。 这太暴力了,因为实验解析出的蛋白质结构才大约21万个。DeepMind直接提升3个数量级。—— 这就是纯数据的工作,当然AlphaFold DB的第一版本(35万个预测结构)也发了Nature。 这个工作解决了什么问题吗?这不也就类似于先测序吗?它怎么有趣呢?—— 这个数据库里头的结构太有趣了!堪称结构“金矿”!包含太多人类可能需要100年时间才可能通过实验解析出的未知的结构。 这个月初,11月1号,英国的一个课题组刚刚发表了一篇Science,从AlphaFold DB统计出AlphaFold DB所含有的数千个新颖度(novelty)极高的蛋白质结构域(下图)。光看这些结构我就觉得很有趣。它解决什么科学问题了?不必吧?结构好看不行吗?就说Science是水刊吗,为什么要发这种文章?当然,这些数据在将来可能会有助于解决重要的科学问题,似乎并不是现在。 多说一句,这篇论文的最末通讯作者 DT Jones 是第一代AlphaFold的唯一非DeepMind员工,也就是他在AlphaFold DB出现的当年就对之撰文提出了批评性讨论(Nat. Methods 19:11-26, 2022),现在“哎嘛,真香!” Lau et al., Science 386, 508 (2024) 例子太多了,我不继续举例了。数据驱动,测序先行,我觉得没问题。做科研不只是“集邮”,也是“拼图”,当我们手中的数据足够多、拼图碎片足够多的时候,我们或许能拼出完整的生命图谱。 最后,我只能说,可能,或许,小概率吧,这位学者的知识体系太久没有更新了。这样不行啊…… 本文完。 来源:小王随笔 |