张小珺Jùn｜商业访谈录 405 min · 2026/3/16 · 112,367 次播放

133. 对谢赛宁的7小时马拉松访谈：世界模型、逃出硅谷、AMI Labs、两次拒绝Ilya、杨立昆、李飞飞和42

主持：张小珺

嘉宾：谢赛宁

世界模型AMI Labs计算机视觉表征学习自监督学习Diffusion Transformer何恺明杨立昆

这期405分钟的马拉松式访谈，是华人青年科学家谢赛宁（NYU教授、DiT共同作者、AMI Labs联合创始人）第一次接受播客访谈。他从布鲁克林的童年记忆出发，讲述了从上海交大ACM班到计算机视觉前沿的完整学术轨迹：差点失学被涂哲文老师最后时刻录取、与何恺明合作ResNeXt和MoCo、两次拒绝Ilya的邀请选择FAIR、在NYU与LeCun和李飞飞共事、开创Diffusion Transformer。他系统阐述了自己十二年的研究主线——表征学习，以及对世界模型的愿景：LLM是工具而非智能的基石，下一代AI需要理解物理世界的连续信号。最终他与LeCun共同创立AMI Labs，完成10.3亿美元种子轮融资，追求一种既非纯学术也非封闭式大厂的第三种组织形态。整场访谈贯穿了研究方法论（探索中寻找梯度）、Research Taste的哲学思考（《金刚经》与凡所有相皆是虚妄）、以及'人生只需成功一次'的无限游戏哲学。

视觉是理解智能的钥匙

谢赛宁认为视觉不仅是一个感官，更是理解智能本身的关键。视觉信号占人大脑皮层约30%，处理图像时激活部分达70%。眼睛是唯一暴露在真实世界中的大脑部分，解决视觉就是解决智能。5.3亿年前的寒武纪大爆发，正是因为视觉能力的诞生引发了物种间的军备竞赛。

选择导师而非选择学校

涂哲文教授从UCLA跳槽去UCSD，谢赛宁毫不犹豫选择跟随导师而非留在排名更高的学校。他坚信'跟谁在做什么事情'远比学校排名重要。事实证明UCSD后来AI实力大增。他成为涂老师在UCSD招的第一个学生。

十年的延迟正义

Deeply Supervised Nets投NeurIPS得了886/887高分，却因一个排版错误（缺少平方符号）被拒。转投AISTATS后，十年后获该会议时间检验奖。谢赛宁感悟：不要在乎一个point estimate，你需要时间的积累——所有评价到最后都是积分。

两次拒绝Ilya

2018年OpenAI面试时Ilya用手写A4纸出题，在黑屋里关了五六小时。谢赛宁拿到offer后毫不犹豫拒绝，选择了FAIR的恺明/Girshick/Ross。Ilya打电话质问语气非常严厉。2024年Ilya再次联系讨论SSI，话题是'如何给AI爱的能力'——伊利亚认为计算机视觉'已经解决得不错了'，谢赛宁再次婉拒。

恺明教他如何找research idea

不能坐着想——如果坐在那想出来了，要么一万人同时在想，要么是别人试过失败的bad idea。正确做法是给自己1-2个月探索期，像hacker一样play with things，推公式、写代码、reproduce baseline。最重要的是找到'信号'（梯度），这个梯度才是idea的来源。探索中的idea才是属于你的idea。

Research是无限游戏——只需成功一次

引用MIT教授Bill Freeman的经典图：很差的工作没人注意，还不错的工作也没人注意，但一篇真正厉害的工作会冲到顶点。研究者不是棋手（最差一步决定输赢），而是发明家——这辈子只需成功一次就够了。谢赛宁自评DiT只算0.25篇代表作。

LLM终将凋零但不会死亡

谢赛宁说LLM是很好的工具他天天使用，但它不是构建通用智能系统的基石，不是世界模型大厦的地基。'老兵不死，终将凋零'——LLM永不会死但终将凋零，因为它无法解决连续物理世界的认知问题。

《金刚经》与Research Taste

何恺明入职FAIR时送谢赛宁《金刚经》——凡所有相皆是虚妄，若见诸相非相即见如来。Research taste的核心是打破论文给你的幻觉，追问背后隐含的实质。沉迷于paper acceptance、fame这些'相'是taste不够的表现。这与康德的物自体、叔本华的意志与表象异曲同工。

Research就是拍电影

谢赛宁推荐Robert McKee的《Story》：真正的故事不是人物背景，而是人物在特定时刻的选择。Paper也一样——technique固然重要，但你怎么到达这儿的决策过程才是核心。恺明论文都在deadline前一个月写完，剩下时间polish每个标点，一行不能有小于60%的文字占位——这是沟通界面的审美。

多模态智能的五级阶梯

与李飞飞合作的Thinking Space提出：L0是纯语言模型（柏拉图洞穴式侧面了解世界），L1是看图说话，L2是视频流理解，L3是空间认知，L4是预测性世界模型。每一级都需要全新的capability，不是简单的延伸关系。

Tokenize视频是错误的路线

256个token×128帧=超长序列塞进Transformer与语言对齐——这把世界背后有global state的表征序列化成了高度冗余的token。Transformer要对每个token pay equal attention本身就极不合理。语言模型的modeling technique不能解决连续空间信号的认知问题。

与LeCun创立AMI Labs

有人建议去问LeCun是否想创业，谢赛宁心想'AI教父怎么可能创业'。结果第二周LeCun主动在1-1 meeting中说'我想在外面做这件事'。AMI Labs完成10.3亿美元种子轮融资（投前估值35亿美元），寻找第三种组织形态——既非纯学术也非封闭式大模型公司。世界模型的去中心化特质天然抗垄断。

"如果非要让我去掉一个感官，我也许听不见、没法说话、没有触觉嗅觉，可能过得很悲惨但还能接受。但如果我没有了视觉，我不能看动画片、不能看电影、不能打游戏，我似乎丧失了一个人的独立性。"

— 谢赛宁

"每个人都是这个世界的一个变量，每个人都是这样一个独特的函数，你的输出取决于你的输入，你的输入就是你的人生经历。"

— 谢赛宁

"恺明的魔力在于他能把所有很普通的东西变成一个金子般的idea。"

— 谢赛宁

"Demis跟所有intern说：DeepMind最后会成为一个能拿多个诺贝尔奖的公司。我们当初觉得太天方夜谭了，现在他们至少实现了一步。"

— 谢赛宁

"从数学角度来描述：不要在乎一个point estimate。你需要时间的积累，你做过的所有事情累加到一起，决定了你是不是一个好的researcher。"

— 谢赛宁

"Ilya问我'你对计算机视觉怎么看'，他说他觉得这件事情已经解决得很不错了。好，那我觉得可能SSI有自己的基于语言的路线。"

— 谢赛宁

"这世界不是要拼得你死我活。兄弟爬山各自努力——大家在各个地方做各自的事情，我觉得没有任何问题。"

— 谢赛宁

"发论文的目的不是给别人看的，是让别人看到之后有事情做。你理解了一些东西，大家的视野被打开了——这是research的目的。"

— 谢赛宁

"如果能让这个世界上所有人因为我们做的研究对问题多了一层新的认识，那地球上的智能总量就会被提上去，这永远不是一件错误的事。"

— 谢赛宁

"一个surprise、一个令人惊讶的observation，永远是researcher最幸福的事情。好的结果坏的结果都是好的结果，最怕的是你不知道往哪走。"

— 谢赛宁

"最差的研究是：一开始你定义好的问题，最后论文的idea跟一开始完全一致，没有遇到任何障碍。这说明你的idea是一个boring idea。"

— 谢赛宁

"最怕的是performance停留在原地不好也不差——没有信号。一个negative信号的反方向就是一个正向的信号，这才是最有价值的。"

— 谢赛宁

"你们title可都是PhD——Doctor of Philosophy。但为什么你们培养出来的人一点哲学都不懂呢？"

— 何恺明

"不是看见所以相信，是因为相信所以看见。如果我不相信，我完全看不到事情按我设想的方式发生。"

— 谢赛宁

"我在Google Gemini团队兼职两年，原因是想看看他们在做什么——这样我就知道我在学术界不做什么。"

— 谢赛宁

"人生最后最后，能力没有业力大，业力没有愿力大，愿力来自于好奇心。你对未来的好奇心在哪，决定了你的研究会建在哪。"

— 谢赛宁

追随兴趣而非路径

不要因为'更好的选择'放弃真正想做的事。谢赛宁拒绝了微软亚研院的常规路径去新加坡做视觉，拒绝了OpenAI的offer去FAIR，每次都选择了兴趣而非安全。

定义问题比解决问题更重要

李飞飞构建ImageNet的真正贡献是定义了'图像分类'这个问题。谢赛宁在与飞飞的合作中也学到了这个能力——Thinking Space论文就是在定义通向世界模型的能力阶梯。

增加输入，不要坐着空想

恺明的方法论：大量阅读、大量思考、大量动手，从探索中找到信号。坐在那想出来的idea要么别人已经在做，要么是已经失败的bad idea。探索中的idea才是属于你的idea。

把Baseline做到极致

Research的上限取决于Baseline的好坏。在弱Baseline上的任何提升只是灌水paper。恺明在TPU上单枪匹马搭建整套基础设施，就是为了把Baseline推到极限。

跑实验前先预测结果

如果你猜对了，说明思维链可以继续延伸；如果猜错了，这就是surprise，给你信号去审视自己的思路。不要盲目跑实验然后dump结果到表格里。

Be different是最高原则

'You are the genius of yourself'——做不一样的事情，提出别人不敢提的问题。ConvNeXt敢于质疑整个社区对self-attention的信仰，AMI Labs敢于在LLM时代走世界模型路线。

学会pivot

换方向非常重要。对比学习做不下去就转向MAE，MAE之后转向Diffusion，再从Diffusion转向世界模型。最差的研究是idea从头到尾不变——那意味着你做的是boring work。

表征学习

谢赛宁十二年研究的主线，研究如何从数据中学习到具有良好性质的表征，是深度学习的核心问题。

世界模型

能理解物理世界、具备关联记忆、能推理和规划的预测性系统，被认为是通向通用智能的下一范式。

自监督学习

不依赖人工标注，通过设计代理任务让模型从数据本身学习表征，是MoCo和MAE的核心思想。

Diffusion Transformer

将Transformer架构应用于Diffusion Model的开创性工作，被Sora等视频生成系统采用。

Research Taste

研究审美——打破表象追求本质的能力，包含选题判断、论文写作、实验设计等全方位的品味。

对比学习

让相似物体的表征更近、不同物体的表征更远的学习范式，MoCo是第一个在视觉上真正work的框架。

AMI Labs

谢赛宁与LeCun联合创立的公司，专注世界模型研究，种子轮融资10.3亿美元，投前估值35亿美元。

何恺明

ResNet、MoCo、MAE等开创性工作的作者，被谢赛宁称为'最牛逼的研究员'，具有'现实扭曲引力场'。

JEPA

LeCun提出的联合嵌入预测架构，在抽象表征空间做预测而非像素空间，是世界模型的技术路线之一。

无限游戏

Research作为无限游戏的哲学——研究者只需成功一次，不在乎每个时刻的point estimate，重要的是长期的积分。