为什么不应当批评测序？

体外诊断网 › 门户 › 资讯› 解读 ›

解读

鹏哥

2024-11-14 16:36 331人浏览 0人回复

来源: 小王随笔收藏分享邀请

摘要

本文的缘由是我看到某位著名学者今天发布了一篇文章批评测序（下图）。这篇文章的许多观点，我很不以为然。这位学者在文中描述了自己在1988年读研究生时就已经做过测序，而后总结：“拿到基因之后，才有测序，不是为 ...

本文的缘由是我看到某位著名学者今天发布了一篇文章批评测序（下图）。这篇文章的许多观点，我很不以为然。

这位学者在文中描述了自己在1988年读研究生时就已经做过测序，而后总结：“拿到基因之后，才有测序，不是为了测序而测序。” 其高度赞扬科学问题驱动的研究，而强烈贬低数据驱动的“那种文章”。（下图）

其实，只需要看一看诸如Cell、Nature、Science每一年有多少数据堆砌的“那种文章”就足以反驳。但是，我认为，这位学者的这种观点本质反映了其知识体系可能过于陈旧了。—— 这是我读完该文后的第一印象。

在80年代末、90年代初，“基因测序”或者“蛋白测序”不仅极其昂贵而且费时。在2001年人类基因组计划完成的那一年，单人的全基因组测序价格大约为1亿美元（下图）。—— 仅仅是价格就使得人类基因组计划在当年艰难开展。而如今，这个价格大约是100美元。

National Human Genome Research Institute

可想而知，在2001年之前13年的1988年，基因测序的价格必定给当时正在读博的该学者留下不可磨灭的印象。

在那时，显然，由科学问题出发，将测序作为研究课题中所使用的诸多实验手段之一。不然，你也做不起实验嘛，对吧，在80年代末任何一个高校课题组都不可能大规模测序，以测序数据驱动研究。

但是，时代变了啊。

我再举类似的例子。Chris Sander，生物信息学的巨擘，在1994年曾经说过这样一句意味深长的话：“很快，没有一位科学家能在她的脑海中记住所有的蛋白质结构，并凭借记忆比对它们的相似性。”

Proteins (1994) 19, 165-173

今天的我们或许会奇怪，怎么会有人说出这么狂妄的话 —— 居然要记住所有的蛋白质结构，而且还要凭借记忆对比所有结构？！

不考虑时代背景的话，的确会有此一问。时代背景是：在1994年，PDB（蛋白质结构数据库）内的存储的实验解析的蛋白质（也包括一些核酸分子）的结构总数，超过1000。

也就是说，在此前，世界上顶尖的蛋白质结构生物信息学家，的确是把自己的大脑当电脑用的。而在此后，蛋白质的结构生物信息学迈入“大数据时代” —— 研究范式必须要变。

过去可以是科学问题驱动研究，产生数据；现在和未来，可以是数据驱动，产生科学问题。

再者，在80年代末、90年代初，数据驱动型的研究的各方面条件都是不成熟的，包括（1）数据本身体量还远没有达到“大数据”，（2）计算机硬件难以承载大型数据运算，（3）数据分析方法，例如机器学习（以及后来进一步发展出的深度学习），也远未成熟。

我们依然举蛋白质结构生物信息学为例。AlphaFold2 —— 今年的诺贝尔化学奖的一半，之所以在2020年这个时间节点出现，有几方面的客观原因：（1）蛋白质的实验结构数据（~20万个）、序列测序数据（~10亿条）等已经积累到比较大的体量；（2）计算机显卡，以英伟达的显卡系列为代表，已经适应于大规模模型训练；（3）深度学习算法，诸如注意力机制，日趋高效。

多学科交叉的领域，比如“测序”，更具备大数据驱动的优势，因为科学家可以用数据推动交叉学科的发展，因为生产数据的质量、效率、成本等是很容易量化和评价的指标，易于衡量包含硬件科研在内的各交叉学科的进展。

Comput. Struct. Biotech. J. 18 (2020) 3494.

人，研究者，固然重要 —— 我不持英雄史观，即便换一批研究者，类似于AlphaFold2的工具也一定会在稍晚一些时候被做出来 —— 更重要的是上述客观的历史条件。这是普列汉诺夫的唯物史观。

回到这位学者的观点，“先有基因，后测序” —— 在今天，这真可以反过来。

我举一个例子。麻省理工大学的张锋 —— 论水平张锋比这位作者要高得多吧，大家没有异议吧 —— 在2023年11月发表了一篇极为精彩的Science论文（下图）。在这篇研究论文中，张锋从公开数据集挖掘出188个前所未见的稀见CRISPR相关基因模块。这不就是先有测序数据，再有基因吗？

诚然，测序不是张锋做的；总得有人测吧？不能说测序没有（学术和经济）价值吧？

科学嘛，总是要有人当肩膀，有人踩肩膀，测序就是当肩膀咯。

我再举一例。上个月，中山大学、阿里、武汉疾控等19家单位联合发表了一篇Cell，非常精彩，从公开的宏基因组、宏转录组数据中，利用深度学习，识别出超过16万种新的RNA病毒（下图）。这不也是现有测序数据，再有基因吗？这份工作太有意义了吧，显然更全面而深刻地理解全球RNA病毒能帮助我们应对未来的病毒大流行。

同样地，宏基因组、宏转录组等等组学数据，不测序，怎么会有呢，怎么能推动全领域和其它领域的繁荣呢？

这种例子，比比皆是，太多太多了。这就是我在本文开头所说的：只需要看一看诸如Cell、Nature、Science每一年有多少数据堆砌的“那种文章”就足以反驳这位学者。

我只能说时代变了，研究范式变了，而大数据驱动就是一种新的研究范式 —— 用30多年前的学术观点看待今天的问题是刻舟求剑。

我还想说一个问题。

以近乎“暴力”的方式，测序，或者预测（蛋白质等）结构，一定要有某种意义上的“价值”吗？或者说，一定要有用吗？不能单纯因为“有趣”而非“有用”来研究吗？

基于第一性原理的科研是非常有趣的，像学生解题一样，一步推完，推下一步；基于大数据的科研，或者产生大数据的科研，也有趣吗？

嘿，真地有趣。

我举个例子。DeepMind公司发布了AlphaFold2之后，“暴力”地预测出了“人类几乎全部已知蛋白质”的结构，大约2.14亿个，然后向全世界免费开放了这份数据，名为AlphaFold Database，简称AlphaFold DB。这在当年就引发了学术界的批评。没有批评则赞扬无意义嘛。

这太暴力了，因为实验解析出的蛋白质结构才大约21万个。DeepMind直接提升3个数量级。—— 这就是纯数据的工作，当然AlphaFold DB的第一版本（35万个预测结构）也发了Nature。

这个工作解决了什么问题吗？这不也就类似于先测序吗？它怎么有趣呢？—— 这个数据库里头的结构太有趣了！堪称结构“金矿”！包含太多人类可能需要100年时间才可能通过实验解析出的未知的结构。

这个月初，11月1号，英国的一个课题组刚刚发表了一篇Science，从AlphaFold DB统计出AlphaFold DB所含有的数千个新颖度（novelty）极高的蛋白质结构域（下图）。光看这些结构我就觉得很有趣。它解决什么科学问题了？不必吧？结构好看不行吗？就说Science是水刊吗，为什么要发这种文章？当然，这些数据在将来可能会有助于解决重要的科学问题，似乎并不是现在。

多说一句，这篇论文的最末通讯作者 DT Jones 是第一代AlphaFold的唯一非DeepMind员工，也就是他在AlphaFold DB出现的当年就对之撰文提出了批评性讨论（Nat. Methods 19:11-26, 2022），现在“哎嘛，真香！”

Lau et al., Science 386, 508 (2024)

例子太多了，我不继续举例了。数据驱动，测序先行，我觉得没问题。做科研不只是“集邮”，也是“拼图”，当我们手中的数据足够多、拼图碎片足够多的时候，我们或许能拼出完整的生命图谱。

最后，我只能说，可能，或许，小概率吧，这位学者的知识体系太久没有更新了。这样不行啊……

本文完。

来源：小王随笔

路过

雷人

握手

鲜花

鸡蛋

鹏哥

关注Ta

上一篇：当肿瘤NGS公司不差钱，他们会做什么？

下一篇：当IVD人失业了才领悟，这个行业已经日落西山！

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

鹏哥关注Ta

1 粉丝0 主题

该作者很懒，什么也没有填写

工作时间

为什么不应当批评测序？