itsreallyvivek 这篇高传播研究方法文章的中文译文，讲清楚选题、输入、写作、实验循环、输出分析和研究共同体。

如何做好研究

原文：how to be good at research（作者 @itsreallyvivek，2026 年 6 月 10 日发布于 X）。原文链接：https://x.com/itsreallyvivek/status/2064686372737454155。这是一篇外部文章译文，原帖据整理信息约有 500 万展示。

没人真正教你怎么做研究。你得到一张桌子，一个别人替你选好的问题，以及一句含糊的要求：做出一点新的东西。

所以大多数人只能从看得见的东西里反推这份工作该怎么做：论文、帖子、公告。最后学到的往往是怎样看起来像研究者，而不是怎样成为研究者。

真正的研究能力是一组小能力叠起来的。几乎每一项都可以有意识地训练。

选择自己的问题

Richard Hamming 在贝尔实验室有一个习惯，这让他在午餐时不太受欢迎。

他会问坐在附近的人：你所在领域最重要的问题是什么？然后继续问：那你为什么不做这些问题？

后来有人开始换桌子。

这个问题刺痛人，是因为大多数人没有好答案。我们并不真的选择问题，我们只是吸收问题。问题来自导师，来自某个大实验室上个季度宣布的方向，来自这周大家都在转发的论文。

被吸收来的问题有一个麻烦：你拿到了结论，却没有拿到推理。

你知道某个著名实验室在意这个方向，却不知道为什么，不知道他们期待发现什么，也不知道什么结果会让他们放弃这个方向。等他们转向时，你可能一年后才知道。

如果一个问题已经变得流行，你还在和一千个比你更早开始、算力更多的人赛跑。

John Schulman 的机器学习研究指南把研究分成两种模式。

一种是读文献，然后寻找可以改进的地方。

另一种是选择一个你真心希望它存在的结果，再倒推需要做哪些实验。

他更推崇第二种。背后的原因很安静：它会制造原创性。一个你真的在意的目标，会把你拖到综述论文没有覆盖的地方。

品味常常被说成天赋。它更像肌肉。

每次实验前，先预测结果。读论文时，遮住结果部分，只根据方法猜数字。记录这个月发布的东西里，哪些两年后还重要，之后再回头检查命中率。

一次预测，加一次纠正，重复几百次。所有好模型都是这样训练出来的，包括你脑子里的那个模型。

升级你的输入

共同的阅读清单会制造共同的想法。

如果你的信息饮食只是 arXiv 趋势页，再加上群聊过滤后剩下的内容，你很稳定地会在同一时间得出和所有人一样的结论。这样的结论几乎不值钱。

旧材料被严重低估。

这个领域会延迟重演自己的过去。Mixture of Experts 可以追溯到 1991 年，LSTM 是 1997 年，反向传播在 1986 年开始成为主流。

Rich Sutton 在 2019 年用大约一千个词写下《苦涩的教训》。它对这个领域形态的预测，比长度十倍的综述更准。

Claude Shannon 在 1952 年做过一次关于创造性思考的演讲。他开头的方法是：把问题缩小，直到它接近微不足道；先解决这个小版本，再一次加回一个难点。

这个单一技巧能帮你穿过很多障碍，比大多数现代效率建议更有用。

广度和深度一样重要。

可解释性研究会大量借鉴神经科学。评测设计像是穿着实验服的机制设计。真正理解 GPU 如何移动内存，会让你在基准测试出来前，就知道哪些架构论文大概率走不通。

诚实的统计能力可能是机器学习里最稀缺的能力之一。很多已经发表的严谨，不过是带着误差线的感觉。

还有一点：读论文原文，不要只读总结它的帖子。

附录里常常埋着问题。限制部分通常是整篇文档里最诚实的一段。

把一切写下来

Paul Graham 提醒过，一个想法在你脑子里可能显得已经完全成形，直到你试着把它写出来。

页面会找到脑子自动糊过去的缺口：你没有测试过的假设，并不真的成立的步骤，以及两个悄悄互相矛盾的主张。

Feynman 的规则是，你最先要避免欺骗的人是自己，因为你最容易被自己骗。

写作是人类发明过最便宜的防御方式。

Darwin 更进一步，把它做成程序。任何与他理论相冲突的事实，他都会当场写下来，因为他发现自己的记忆会更快删除不方便的证据，而不是方便的证据。

你的记忆对失败实验也会做同样的事。

所以要保留日志：假设、设置、预期、结果、更新后的信念。重读上个月的记录，会带来一种任何审稿人都给不了的谦卑感。

然后，把其中一部分公开出来。

Olah 和 Carter 在关于研究债务的文章里说，一个领域会被没有消化的想法噎住。清晰解释本身就是一种真正的贡献，而不是服务性工作。

今天很多做可解释性的人，最早接触这个领域靠的是可读的文章，而非会议论文。

一组公开写作也会成为你能拥有的最强凭证，因为它是一份很难伪造的思考样本。

收紧反馈循环

关于 Alec Radford 的故事，很少是某次单点天才爆发。更多是数量。

每天更多次运行，每周丢掉更多错误想法，对现实的模型比别人更新得更快。

这才是真正的游戏。研究速度，主要就是你发现自己错了的速度。

所以工具是一等研究活动。

启动一次运行应该是一条命令。画图应该再多一条命令。每个实验都应该能从配置复现。比较两次运行应该只需要几秒，而不是花一个下午考古。

Karpathy 的神经网络训练配方里有一步，回报极高：在大规模训练前，先过拟合一个小批次。三十秒，半数 bug 消失。

把一切缩小到足够便宜，先做对，再花算力。

也该放弃“工程只是研究的初级搭档”这个想法。

在前沿处，两份工作已经融合了。能搭好实验框架、评测和数据流水线的研究者，才是真正能让假设被测试的人。其他人只是在排队。

盯着输出看

下降的 loss 曲线不是分析，只是安慰。

你的实验会产生远多于你实际消化的信息：转录、失败案例、分布尾部里的奇怪样本。大部分信息都死在日志文件夹里，没人看。

Karpathy 的训练配方在写任何训练代码之前就开始了：先花几个小时手工查看原始数据。

大多数机器学习 bug 都藏在数据里，而且它们会安静地失败。没有东西崩掉。你只是得到一个平庸的模型，然后对原因形成一个错误理论。

Andrew Ng 十多年来一直教同一个不性感的方法，因为没有什么比它更有效。

拉出一百个失败案例，全部读完，分堆，然后攻击最大的一堆。

这对模型有效，对评测也有效。一个你从未读过转录的基准测试，不是你真正理解的基准测试。

一个真正奇怪行为的转录，教给你的东西会比下一个小数点后的准确率更多。

有目的地游荡

你的第一个子领域只是时间的偶然结果，所以要把它当成偶然。

在可解释性、评测、强化学习、系统这些地方都花一些真实时间，然后再决定你要住在哪里。

这个领域里一定有某个角落，能让你自己那点特殊的怪异变成不公平优势。找到它的唯一方法，是在几个地方都交学费。没人会免掉这笔学费。

每个想法都先跑一次一次性版本，让大多数想法尽早死掉。

把基线调到让你难受为止。机器学习的墓地里，埋满了那些在正确调好的基线面前蒸发的收益。最糟糕的发现方式，是从审稿人口中知道这一点。

做消融，直到你知道到底是哪一部分撑起了结果。通常只有一个部分，而且通常不是标题里的那个。

广度也是保险。

所有子领域都会饱和，而且通常是在它们刚刚登上 Twitter 高峰之后。那些能穿过转换期继续产出的人，往往早就知道旁边的地形怎么走。

找到你的人

Hamming 注意到一个模式。

关着办公室门的同事，在任何一年里能完成更多事；开着办公室门的同事，做出了更重要的工作。因为打断里携带着关于世界真正需要什么的信息。

你的开放之门很可能是收件箱。让它继续开着。

在研究里，慷慨比任何东西都更能复利。

复现一个结果，并发布你发现的东西。把你为自己做的工具发出来。用普通语言解释一个困难概念。

回报会从侧面到来，几个月后，变成某次合作、某次引用，或者一个你无法直接申请到的角色。

也可以把半成形的想法公开出来。时间线上出错，比正式发表后出错便宜得多。

那个能在你投入三个月之前告诉你“这个想法不好”的合作者，比算力更值钱。这种关系买不到，只能挣来。

长期游戏

Pasteur 说，幸运偏爱有准备的头脑。

Hamming 在这个基础上建立了一整套职业哲学：知识和生产力像利息一样复利。

日常优势单独看都很小：你读什么，你记录什么，你的循环跑得多快，你和谁争论。

给它们几年时间，它们会产出从外部看起来像运气的职业轨迹。

在你觉得有必要之前，就开始复利。

未来的你已经知道，这一段是最便宜的部分。