◆ geekjourney · docs
$
Vol. 5 · § 0312026·06·16 · — words031
Ch. 5

如何做好研究

§ 031
UPDATED
2026·06·16 · git dev
GROUP
reading
LANG
zh

itsreallyvivek 这篇高传播研究方法文章的中文译文,讲清楚选题、输入、写作、实验循环、输出分析和研究共同体。

如何做好研究

原文:how to be good at research(作者 @itsreallyvivek,2026 年 6 月 10 日发布于 X)。原文链接:https://x.com/itsreallyvivek/status/2064686372737454155。这是一篇外部文章译文,原帖据整理信息约有 500 万展示。

没人真正教你怎么做研究。你得到一张桌子,一个别人替你选好的问题,以及一句含糊的要求:做出一点新的东西。

所以大多数人只能从看得见的东西里反推这份工作该怎么做:论文、帖子、公告。最后学到的往往是怎样看起来像研究者,而不是怎样成为研究者。

真正的研究能力是一组小能力叠起来的。几乎每一项都可以有意识地训练。

选择自己的问题

Richard Hamming 在贝尔实验室有一个习惯,这让他在午餐时不太受欢迎。

他会问坐在附近的人:你所在领域最重要的问题是什么?然后继续问:那你为什么不做这些问题?

后来有人开始换桌子。

这个问题刺痛人,是因为大多数人没有好答案。我们并不真的选择问题,我们只是吸收问题。问题来自导师,来自某个大实验室上个季度宣布的方向,来自这周大家都在转发的论文。

被吸收来的问题有一个麻烦:你拿到了结论,却没有拿到推理。

你知道某个著名实验室在意这个方向,却不知道为什么,不知道他们期待发现什么,也不知道什么结果会让他们放弃这个方向。等他们转向时,你可能一年后才知道。

如果一个问题已经变得流行,你还在和一千个比你更早开始、算力更多的人赛跑。

John Schulman 的机器学习研究指南把研究分成两种模式。

一种是读文献,然后寻找可以改进的地方。

另一种是选择一个你真心希望它存在的结果,再倒推需要做哪些实验。

他更推崇第二种。背后的原因很安静:它会制造原创性。一个你真的在意的目标,会把你拖到综述论文没有覆盖的地方。

品味常常被说成天赋。它更像肌肉。

每次实验前,先预测结果。读论文时,遮住结果部分,只根据方法猜数字。记录这个月发布的东西里,哪些两年后还重要,之后再回头检查命中率。

一次预测,加一次纠正,重复几百次。所有好模型都是这样训练出来的,包括你脑子里的那个模型。

升级你的输入

共同的阅读清单会制造共同的想法。

如果你的信息饮食只是 arXiv 趋势页,再加上群聊过滤后剩下的内容,你很稳定地会在同一时间得出和所有人一样的结论。这样的结论几乎不值钱。

旧材料被严重低估。

这个领域会延迟重演自己的过去。Mixture of Experts 可以追溯到 1991 年,LSTM 是 1997 年,反向传播在 1986 年开始成为主流。

Rich Sutton 在 2019 年用大约一千个词写下《苦涩的教训》。它对这个领域形态的预测,比长度十倍的综述更准。

Claude Shannon 在 1952 年做过一次关于创造性思考的演讲。他开头的方法是:把问题缩小,直到它接近微不足道;先解决这个小版本,再一次加回一个难点。

这个单一技巧能帮你穿过很多障碍,比大多数现代效率建议更有用。

广度和深度一样重要。

可解释性研究会大量借鉴神经科学。评测设计像是穿着实验服的机制设计。真正理解 GPU 如何移动内存,会让你在基准测试出来前,就知道哪些架构论文大概率走不通。

诚实的统计能力可能是机器学习里最稀缺的能力之一。很多已经发表的严谨,不过是带着误差线的感觉。

还有一点:读论文原文,不要只读总结它的帖子。

附录里常常埋着问题。限制部分通常是整篇文档里最诚实的一段。

把一切写下来

Paul Graham 提醒过,一个想法在你脑子里可能显得已经完全成形,直到你试着把它写出来。

页面会找到脑子自动糊过去的缺口:你没有测试过的假设,并不真的成立的步骤,以及两个悄悄互相矛盾的主张。

Feynman 的规则是,你最先要避免欺骗的人是自己,因为你最容易被自己骗。

写作是人类发明过最便宜的防御方式。

Darwin 更进一步,把它做成程序。任何与他理论相冲突的事实,他都会当场写下来,因为他发现自己的记忆会更快删除不方便的证据,而不是方便的证据。

你的记忆对失败实验也会做同样的事。

所以要保留日志:假设、设置、预期、结果、更新后的信念。重读上个月的记录,会带来一种任何审稿人都给不了的谦卑感。

然后,把其中一部分公开出来。

Olah 和 Carter 在关于研究债务的文章里说,一个领域会被没有消化的想法噎住。清晰解释本身就是一种真正的贡献,而不是服务性工作。

今天很多做可解释性的人,最早接触这个领域靠的是可读的文章,而非会议论文。

一组公开写作也会成为你能拥有的最强凭证,因为它是一份很难伪造的思考样本。

收紧反馈循环

关于 Alec Radford 的故事,很少是某次单点天才爆发。更多是数量。

每天更多次运行,每周丢掉更多错误想法,对现实的模型比别人更新得更快。

这才是真正的游戏。研究速度,主要就是你发现自己错了的速度。

所以工具是一等研究活动。

启动一次运行应该是一条命令。画图应该再多一条命令。每个实验都应该能从配置复现。比较两次运行应该只需要几秒,而不是花一个下午考古。

Karpathy 的神经网络训练配方里有一步,回报极高:在大规模训练前,先过拟合一个小批次。三十秒,半数 bug 消失。

把一切缩小到足够便宜,先做对,再花算力。

也该放弃“工程只是研究的初级搭档”这个想法。

在前沿处,两份工作已经融合了。能搭好实验框架、评测和数据流水线的研究者,才是真正能让假设被测试的人。其他人只是在排队。

盯着输出看

下降的 loss 曲线不是分析,只是安慰。

你的实验会产生远多于你实际消化的信息:转录、失败案例、分布尾部里的奇怪样本。大部分信息都死在日志文件夹里,没人看。

Karpathy 的训练配方在写任何训练代码之前就开始了:先花几个小时手工查看原始数据。

大多数机器学习 bug 都藏在数据里,而且它们会安静地失败。没有东西崩掉。你只是得到一个平庸的模型,然后对原因形成一个错误理论。

Andrew Ng 十多年来一直教同一个不性感的方法,因为没有什么比它更有效。

拉出一百个失败案例,全部读完,分堆,然后攻击最大的一堆。

这对模型有效,对评测也有效。一个你从未读过转录的基准测试,不是你真正理解的基准测试。

一个真正奇怪行为的转录,教给你的东西会比下一个小数点后的准确率更多。

有目的地游荡

你的第一个子领域只是时间的偶然结果,所以要把它当成偶然。

在可解释性、评测、强化学习、系统这些地方都花一些真实时间,然后再决定你要住在哪里。

这个领域里一定有某个角落,能让你自己那点特殊的怪异变成不公平优势。找到它的唯一方法,是在几个地方都交学费。没人会免掉这笔学费。

每个想法都先跑一次一次性版本,让大多数想法尽早死掉。

把基线调到让你难受为止。机器学习的墓地里,埋满了那些在正确调好的基线面前蒸发的收益。最糟糕的发现方式,是从审稿人口中知道这一点。

做消融,直到你知道到底是哪一部分撑起了结果。通常只有一个部分,而且通常不是标题里的那个。

广度也是保险。

所有子领域都会饱和,而且通常是在它们刚刚登上 Twitter 高峰之后。那些能穿过转换期继续产出的人,往往早就知道旁边的地形怎么走。

找到你的人

Hamming 注意到一个模式。

关着办公室门的同事,在任何一年里能完成更多事;开着办公室门的同事,做出了更重要的工作。因为打断里携带着关于世界真正需要什么的信息。

你的开放之门很可能是收件箱。让它继续开着。

在研究里,慷慨比任何东西都更能复利。

复现一个结果,并发布你发现的东西。把你为自己做的工具发出来。用普通语言解释一个困难概念。

回报会从侧面到来,几个月后,变成某次合作、某次引用,或者一个你无法直接申请到的角色。

也可以把半成形的想法公开出来。时间线上出错,比正式发表后出错便宜得多。

那个能在你投入三个月之前告诉你“这个想法不好”的合作者,比算力更值钱。这种关系买不到,只能挣来。

长期游戏

Pasteur 说,幸运偏爱有准备的头脑。

Hamming 在这个基础上建立了一整套职业哲学:知识和生产力像利息一样复利。

日常优势单独看都很小:你读什么,你记录什么,你的循环跑得多快,你和谁争论。

给它们几年时间,它们会产出从外部看起来像运气的职业轨迹。

在你觉得有必要之前,就开始复利。

未来的你已经知道,这一段是最便宜的部分。