133. 对谢赛宁的7小时马拉松访谈:世界模型、逃出硅谷、AMI Labs、两次拒绝Ilya、杨立昆、李飞飞和42
这期405分钟的马拉松式访谈,是华人青年科学家谢赛宁(NYU教授、DiT共同作者、AMI Labs联合创始人)第一次接受播客访谈。他从布鲁克林的童年记忆出发,讲述了从上海交大ACM班到计算机视觉前沿的完整学术轨迹:差点失学被涂哲文老师最后时刻录取、与何恺明合作ResNeXt和MoCo、两次拒绝Ilya的邀请选择FAIR、在NYU与LeCun和李飞飞共事、开创Diffusion Transformer。他系统阐述了自己十二年的研究主线——表征学习,以及对世界模型的愿景:LLM是工具而非智能的基石,下一代AI需要理解物理世界的连续信号。最终他与LeCun共同创立AMI Labs,完成10.3亿美元种子轮融资,追求一种既非纯学术也非封闭式大厂的第三种组织形态。整场访谈贯穿了研究方法论(探索中寻找梯度)、Research Taste的哲学思考(《金刚经》与凡所有相皆是虚妄)、以及'人生只需成功一次'的无限游戏哲学。
视觉是理解智能的钥匙
谢赛宁认为视觉不仅是一个感官,更是理解智能本身的关键。视觉信号占人大脑皮层约30%,处理图像时激活部分达70%。眼睛是唯一暴露在真实世界中的大脑部分,解决视觉就是解决智能。5.3亿年前的寒武纪大爆发,正是因为视觉能力的诞生引发了物种间的军备竞赛。
选择导师而非选择学校
涂哲文教授从UCLA跳槽去UCSD,谢赛宁毫不犹豫选择跟随导师而非留在排名更高的学校。他坚信'跟谁在做什么事情'远比学校排名重要。事实证明UCSD后来AI实力大增。他成为涂老师在UCSD招的第一个学生。
十年的延迟正义
Deeply Supervised Nets投NeurIPS得了886/887高分,却因一个排版错误(缺少平方符号)被拒。转投AISTATS后,十年后获该会议时间检验奖。谢赛宁感悟:不要在乎一个point estimate,你需要时间的积累——所有评价到最后都是积分。
两次拒绝Ilya
2018年OpenAI面试时Ilya用手写A4纸出题,在黑屋里关了五六小时。谢赛宁拿到offer后毫不犹豫拒绝,选择了FAIR的恺明/Girshick/Ross。Ilya打电话质问语气非常严厉。2024年Ilya再次联系讨论SSI,话题是'如何给AI爱的能力'——伊利亚认为计算机视觉'已经解决得不错了',谢赛宁再次婉拒。
恺明教他如何找research idea
不能坐着想——如果坐在那想出来了,要么一万人同时在想,要么是别人试过失败的bad idea。正确做法是给自己1-2个月探索期,像hacker一样play with things,推公式、写代码、reproduce baseline。最重要的是找到'信号'(梯度),这个梯度才是idea的来源。探索中的idea才是属于你的idea。
Research是无限游戏——只需成功一次
引用MIT教授Bill Freeman的经典图:很差的工作没人注意,还不错的工作也没人注意,但一篇真正厉害的工作会冲到顶点。研究者不是棋手(最差一步决定输赢),而是发明家——这辈子只需成功一次就够了。谢赛宁自评DiT只算0.25篇代表作。
LLM终将凋零但不会死亡
谢赛宁说LLM是很好的工具他天天使用,但它不是构建通用智能系统的基石,不是世界模型大厦的地基。'老兵不死,终将凋零'——LLM永不会死但终将凋零,因为它无法解决连续物理世界的认知问题。
《金刚经》与Research Taste
何恺明入职FAIR时送谢赛宁《金刚经》——凡所有相皆是虚妄,若见诸相非相即见如来。Research taste的核心是打破论文给你的幻觉,追问背后隐含的实质。沉迷于paper acceptance、fame这些'相'是taste不够的表现。这与康德的物自体、叔本华的意志与表象异曲同工。
Research就是拍电影
谢赛宁推荐Robert McKee的《Story》:真正的故事不是人物背景,而是人物在特定时刻的选择。Paper也一样——technique固然重要,但你怎么到达这儿的决策过程才是核心。恺明论文都在deadline前一个月写完,剩下时间polish每个标点,一行不能有小于60%的文字占位——这是沟通界面的审美。
多模态智能的五级阶梯
与李飞飞合作的Thinking Space提出:L0是纯语言模型(柏拉图洞穴式侧面了解世界),L1是看图说话,L2是视频流理解,L3是空间认知,L4是预测性世界模型。每一级都需要全新的capability,不是简单的延伸关系。
Tokenize视频是错误的路线
256个token×128帧=超长序列塞进Transformer与语言对齐——这把世界背后有global state的表征序列化成了高度冗余的token。Transformer要对每个token pay equal attention本身就极不合理。语言模型的modeling technique不能解决连续空间信号的认知问题。
与LeCun创立AMI Labs
有人建议去问LeCun是否想创业,谢赛宁心想'AI教父怎么可能创业'。结果第二周LeCun主动在1-1 meeting中说'我想在外面做这件事'。AMI Labs完成10.3亿美元种子轮融资(投前估值35亿美元),寻找第三种组织形态——既非纯学术也非封闭式大模型公司。世界模型的去中心化特质天然抗垄断。
"如果非要让我去掉一个感官,我也许听不见、没法说话、没有触觉嗅觉,可能过得很悲惨但还能接受。但如果我没有了视觉,我不能看动画片、不能看电影、不能打游戏,我似乎丧失了一个人的独立性。"
"每个人都是这个世界的一个变量,每个人都是这样一个独特的函数,你的输出取决于你的输入,你的输入就是你的人生经历。"
"恺明的魔力在于他能把所有很普通的东西变成一个金子般的idea。"
"Demis跟所有intern说:DeepMind最后会成为一个能拿多个诺贝尔奖的公司。我们当初觉得太天方夜谭了,现在他们至少实现了一步。"
"从数学角度来描述:不要在乎一个point estimate。你需要时间的积累,你做过的所有事情累加到一起,决定了你是不是一个好的researcher。"
"Ilya问我'你对计算机视觉怎么看',他说他觉得这件事情已经解决得很不错了。好,那我觉得可能SSI有自己的基于语言的路线。"
"这世界不是要拼得你死我活。兄弟爬山各自努力——大家在各个地方做各自的事情,我觉得没有任何问题。"
"发论文的目的不是给别人看的,是让别人看到之后有事情做。你理解了一些东西,大家的视野被打开了——这是research的目的。"
"如果能让这个世界上所有人因为我们做的研究对问题多了一层新的认识,那地球上的智能总量就会被提上去,这永远不是一件错误的事。"
"一个surprise、一个令人惊讶的observation,永远是researcher最幸福的事情。好的结果坏的结果都是好的结果,最怕的是你不知道往哪走。"
"最差的研究是:一开始你定义好的问题,最后论文的idea跟一开始完全一致,没有遇到任何障碍。这说明你的idea是一个boring idea。"
"最怕的是performance停留在原地不好也不差——没有信号。一个negative信号的反方向就是一个正向的信号,这才是最有价值的。"
"你们title可都是PhD——Doctor of Philosophy。但为什么你们培养出来的人一点哲学都不懂呢?"
"不是看见所以相信,是因为相信所以看见。如果我不相信,我完全看不到事情按我设想的方式发生。"
"我在Google Gemini团队兼职两年,原因是想看看他们在做什么——这样我就知道我在学术界不做什么。"
"人生最后最后,能力没有业力大,业力没有愿力大,愿力来自于好奇心。你对未来的好奇心在哪,决定了你的研究会建在哪。"
追随兴趣而非路径
不要因为'更好的选择'放弃真正想做的事。谢赛宁拒绝了微软亚研院的常规路径去新加坡做视觉,拒绝了OpenAI的offer去FAIR,每次都选择了兴趣而非安全。
定义问题比解决问题更重要
李飞飞构建ImageNet的真正贡献是定义了'图像分类'这个问题。谢赛宁在与飞飞的合作中也学到了这个能力——Thinking Space论文就是在定义通向世界模型的能力阶梯。
增加输入,不要坐着空想
恺明的方法论:大量阅读、大量思考、大量动手,从探索中找到信号。坐在那想出来的idea要么别人已经在做,要么是已经失败的bad idea。探索中的idea才是属于你的idea。
把Baseline做到极致
Research的上限取决于Baseline的好坏。在弱Baseline上的任何提升只是灌水paper。恺明在TPU上单枪匹马搭建整套基础设施,就是为了把Baseline推到极限。
跑实验前先预测结果
如果你猜对了,说明思维链可以继续延伸;如果猜错了,这就是surprise,给你信号去审视自己的思路。不要盲目跑实验然后dump结果到表格里。
Be different是最高原则
'You are the genius of yourself'——做不一样的事情,提出别人不敢提的问题。ConvNeXt敢于质疑整个社区对self-attention的信仰,AMI Labs敢于在LLM时代走世界模型路线。
学会pivot
换方向非常重要。对比学习做不下去就转向MAE,MAE之后转向Diffusion,再从Diffusion转向世界模型。最差的研究是idea从头到尾不变——那意味着你做的是boring work。
表征学习
谢赛宁十二年研究的主线,研究如何从数据中学习到具有良好性质的表征,是深度学习的核心问题。
世界模型
能理解物理世界、具备关联记忆、能推理和规划的预测性系统,被认为是通向通用智能的下一范式。
自监督学习
不依赖人工标注,通过设计代理任务让模型从数据本身学习表征,是MoCo和MAE的核心思想。
Diffusion Transformer
将Transformer架构应用于Diffusion Model的开创性工作,被Sora等视频生成系统采用。
Research Taste
研究审美——打破表象追求本质的能力,包含选题判断、论文写作、实验设计等全方位的品味。
对比学习
让相似物体的表征更近、不同物体的表征更远的学习范式,MoCo是第一个在视觉上真正work的框架。
AMI Labs
谢赛宁与LeCun联合创立的公司,专注世界模型研究,种子轮融资10.3亿美元,投前估值35亿美元。
何恺明
ResNet、MoCo、MAE等开创性工作的作者,被谢赛宁称为'最牛逼的研究员',具有'现实扭曲引力场'。
JEPA
LeCun提出的联合嵌入预测架构,在抽象表征空间做预测而非像素空间,是世界模型的技术路线之一。
无限游戏
Research作为无限游戏的哲学——研究者只需成功一次,不在乎每个时刻的point estimate,重要的是长期的积分。
The normal one
谢赛宁坚持自己是'普通的那一个'。他从童年开始讲述:父亲是心理学出身的传媒人,书房几面墙都是书;母亲带着他四处旅游。九岁有了第一台电脑,从游戏到互联网BBS到博客,信息爆炸让他变成了对一切感兴趣的人。保送交大ACM班的暑假是人生高光——因为两个月什么都没干就在寝室打游戏。
世界总不让我做Vision
在交大没有视觉组愿意接受ACM班本科生实习,谢赛宁自己联系新加坡NUS实验室,最终说服于勇老师让他去。这次经历让他第一次做了research、发表了BMVC论文,也恰好经历了2012年AlexNet时刻——这是他研究起点和深度学习的原点。
学术流浪
谢赛宁讲述博士期间五次实习经历(NEC Lab、Adobe、MIT、Google Research、DeepMind),每次3-6个月,一半没做出成果。DeepMind实习让他理解了不同于学术界的组织模式,Demis告诉所有intern'我们要成为拿多个诺贝尔奖的公司'。他的博士论文最终用'结构化先验指导的深度表征学习'将所有经历串联。
与何恺明的友谊
在Meta FAIR实习最后一个月,何恺明刚加入成为全职研究员。谢赛宁教恺明用Linux、带他吃饭开车,恺明则在一个月内带着他做出ResNeXt——参加ImageNet比赛获得第二名。恺明有'现实扭曲引力场',能让周围人觉得不可能的事情变为可能。
两次拒绝了Ilya
2018年OpenAI面试时Ilya手写A4纸出题,关了五六小时。拿到offer后谢赛宁毫不犹豫拒绝——FAIR有恺明三驾马车。Ilya打电话质问。2024年Ilya再次联系讨论SSI,核心话题是'如何给AI爱的能力',Ilya认为视觉'已经解决得不错了',谢赛宁再次婉拒。
杨立昆和李飞飞往事
选择NYU因为LeCun——他三次招募谢赛宁,NYU的数据科学中心全玻璃门设计体现了LeCun十多年前的跨学科远见。李飞飞的影响在于教会他'定义问题'的能力:ImageNet的真正贡献不是数据集,而是把图像分类定义为一个明确的问题。
草蛇灰线:'表征的世界'
从Deeply Supervised Nets到HED到MoCo到MAE到ConvNeXt到DiT,所有工作的暗线都是表征学习。恺明在2018-19年就预见了scaling的必要性。MoCo是第一个让对比学习真正work的工作,MAE则是更简单的masked autoencoding路线。谢赛宁列举了影响AI进程的约20篇论文,自谦DiT只算0.25篇。
Research taste与《金刚经》
恺明送谢赛宁《金刚经》引出research taste的哲学维度——凡所有相皆是虚妄。恺明的写作方法论:deadline前一个月写完,剩下时间polish每个标点,一行不能有小于60%的文字占位。Research如同拍电影——推荐Robert McKee的《Story》,真正的故事是人物在特定时刻的选择。
世界模型是什么?
谢赛宁批评当前多模态方法将视频帧tokenize后塞进Transformer的做法——把有global state的世界表征序列化为冗余token完全不合理。世界模型需要四个核心能力:理解物理世界、关联记忆、推理、规划。这不是LLM的延伸,是需要全新范式。
从下载互联网,到下载人类
RePA和Re-representation Autoencoder两篇工作证明:表征不仅对理解重要,对生成同样关键。将自监督表征与Diffusion Model内部表征对齐能显著提升效果。这揭示了表征学习是理解与生成的交汇点。
和杨立昆创立AMI始末
有人建议去问LeCun是否想创业,结果LeCun主动透露要离开Meta。AMI Labs有6位co-founder,包括CEO(Meta南欧区前VP)和VP of World Model(JAPA team前director)。用信用卡联盟类比:世界模型的去中心化天然抗垄断。种子轮融资10.3亿美元,投前估值35亿美元。
'硅谷被催眠了'
谢赛宁直言'Silicon Valley is very LLM-pilled'——硅谷被LLM催眠了。湾区的问题是核心模型训练部门必须在军备竞赛中冲在最前,压榨research空间。学术界被带成了有限游戏——大厂发一个工作,所有人蜂拥追赶。谢赛宁在Google Gemini兼职两年的目的是'知道他们在做什么所以我不做什么'。
自大的人类!
讨论AI安全与人类偏见——为什么人类信任自己的孩子却不信任AI?霍若香反问引出哲学命题:有爱的同时就有恨,学会爱就一定知道恨的反面。技术上可以通过手段让AI更可信、安全、可控,这也是为什么要做世界模型。
'42'
访谈以轻松话题收尾。谢赛宁推荐科幻作品(万神殿、同乐者、朴赞郁《别无选择》)、AI电影节获奖短片《Total Pixel Space》,以及人生之书《哥德尔、埃舍尔、巴赫》(集异壁)——交大ACM班的群体记忆,探讨自指、意识和智能的终极问题。章节标题'42'来自《银河系漫游指南》中生命、宇宙和一切的终极答案。
[0:00]请不吝点赞 订阅 转发 打赏支持明镜与点点栏目今天这场对话让我感受到了一种冰冻解风后的人间烟火气息今天坐在我对面的是华人青年科学家谢赛宁他刚刚和图灵奖得主杨丽坤一起踏上了创业的旅程他们的Neolab AMI刚刚完成了第一笔超大规模的融资目前团队规模为25人谢赛宁一直告诉我他不是那个天选之子他是普通的那一个
[1:00]那接下来就是我对谢赛宁的访谈我今天早上我们在纽约就是布鲁克林拍空镜我觉得这里我很喜欢这里因为我住在时代广场那边我觉得那边还是一个非常刻板印象的纽约但是好像来到这里就是一个充满了艺术气息和生活气息的纽约是啊 我觉得Dumbo这边当然非常艺术很多电影里面我们之前有个韩国电影叫过往人生他们那边拍你可能看到的旋转木马然后那边的Dumbo大桥时代广场只有游客才会去真正的纽约人是不会去的但其实NYU附近其实也很好那边叫做Grimwich Village然后那边也是一个村
[2:01]然后那边也很有生活气息你为什么会来纽约做学术呀这好像不是一个很多人的选择倒也不是吧但是历史比较长的确实是各种原因吧我觉得当然也是因为我确实比较向往这个城市向往这个城市里面的很多的元素它的一些人然后包括NYU其实也是然后当然主要的原因还是因为Young然后像AI的这些efforts对吧NYU确实做的很不错但另一方面NYU还有很强的电影学院对然后我喜欢的很多导演像是Martin Scorsese包括最近赵婷什么都是NYU的毕业生所以也是partly the reason吧也是也是也是也是一些原因对我这个我再跟你说我觉得我来美国现在多少年了一三年过来然后十三年左右了我这个后训练现在有点崩所以中英夹杂的问题
[3:03]对观众朋友们不好意思我尽量尽量解释多多见谅多多见谅多多见谅我好像没有在任何地方找到你的一个播客或者一个访谈所以这是你第一次做一个播客或者访谈吗第一次做播客第一次做访谈对你可能能找到很多我出去在各种conference会议上面的演讲做演讲之类的的演讲做演讲这些这些很多为什么你之前这么多年都没有上过一个播客或者做一个访谈啊我觉得嗯我不知道我觉得我更适合做一个听众我很喜欢podcast对我经常听很多podcast我的这个spotify啊youtube啊每天上班下班然后睡觉前平时没事都会听一些podcast嗯对然后我觉得我也挺有表达的欲望的或者说我私下里跟朋友也会聊很多东西我跟学生我觉得嗯平时抓大家一起聊天我觉得也很开心嗯但是podcast这件事情对我也不知道啊
[4:06]可能是因为没有人邀请我吧应该不会啊啊其实对有一些吧但是我觉得还是可能也是因为比较爱人吧我觉得很多时候对觉得嗯不知道哪些话应该说哪些话值得说哪些话大家愿意听啊但我现在我觉得慢慢对年龄大了之后也也还好拥拥有了这个不被人喜欢的勇气我其实在网上看了你的很多很多的信息但是我发现所有人对你的描写都是从上海交大的AZM班开始的那我也很好奇在那之前的谢赛宁是怎么样的呀嗯你能不能从以你对这个世界拥有最早的记忆片段为开端来给我们讲一讲你的童年和成长哦OK,你看这就是为什么我不想做podcast因为确实没准备过或者说你得让我回忆回忆从最早的记忆片段的当然就是我觉得从小时候开始吧
[5:07]可能四五岁的时候嗯我妈妈带着我去四处旅游这可能就是一开始的记忆哦在哪里旅游各种地方对因为他也做一些生意然后四处跑全国各处跑对吧我记得印象很深对吧这种在上海的这种地方这种出印象然后去啊四川啊然后这些就是能想象的各种旅游景点吧哦但是对我如果非要对深巴这个家庭情况的就是就是我爸是一个纯粹的私宅嗯从来不出门但是他最爱看的事情就是看书所以我家里呃反正有一个书房吧然后几面墙都是都是书所以所以我小时候基本上就处在这种状态之中要么就在外面跑被我妈带着到外面旅游啊要么就在家里面翻一些有的没的啊能看的不能看的书都看一看对然后我觉得这是这是一开始的童年然后到了后面后来确实我觉得我们这一代人的成长经历还蛮不一样的
[6:09]因为我觉得当然不知道我觉得现在孩子可能在这种AI的时代也会有同样的感受吧但我那时候我大概九岁的时候有自己的第一台电脑然后那时候开始啊不用来干正事的吧也是一盒一盒的买游戏然后打游戏然后后来有了互联网啊然后第一次感觉到这种信息爆炸所以那时候第一次知道什么叫做内容啊然后那时候就会觉得自己突然有了更多的表达因为你看书还是单向的这种学习的过程啊虽然也是很开阔的但到网上当初有这些BBS然后你可以上网去发表意见我还记得的吧有有这种新浪博客啊现在可能都没有了但我写了很多很多的博客哦是吗关于各种各样的乱七八糟的topic现在对现在肯定回头看过去都会都会很好笑但是最popular的一篇文章是什么呀很多吧我觉得我记得
[7:10]有点有点未复新词强说愁的感觉吧可能那时候包括QQ空间对吧就是大家总会有一个想要有一个平台去去表达自己然后到后面其实还有更多的这种新鲜的媒介出现包括有博客然后有有有微博对吧但那时候其实不是微博是泛否我不知道听没听说过是王兴对吧然后那时候我也是泛否的众多用户啊上面泛否现在还能登录但是实在是不忍直视啊有时候看了看我想哎呀要不要赶紧删掉最后想象还是留在那儿吧让它变成这个互联网基地的一部分嗯但是我觉得那时候我觉得我觉得这种互联网的爆炸式的增长让我变成了一个对很多事情都很感兴趣的人嗯我觉得是这样所以你爸爸妈妈你妈妈是做生意的
[8:11]你们是一个商人家庭吗也不是也不是对啊反正我爸爸基本上也是他他是本科是学心理学的啊他也之前也从事一家公司啊是一些教育工作啊后来也在一些呃这种电视台上的传媒工作哦可能跟你是同行哦对所以他小时候我的记忆对他的记忆是他扛着摄像机到处跑哦那这个有趣对对对但我家里确实没有没有人是学纯理工的啊哦这也让你的性格我觉得还有一有一部分是蛮文艺的可能吧但是但我觉得我觉得我我我一想说的还是嗯在这种非常轻松的家庭环境成长起来啊确实让我的自己的这个世界模型我觉得啊我自己对他我还是觉得蛮蛮proud of对蛮蛮骄傲嗯因为我觉得我会或者说你刚刚问为什么会来纽约我这我觉得这也是其中一部分嗯啊
[9:11]我觉得我可能会希望自己或者希望身边的人都更加open mind的去看待这个世界吧你是学习成绩一直很好吗因为你是保送到交大acm班的呃完全不是的我是从高中对我觉得这件事情是这样就是说你可以看我现在有身边有很多很多的朋友大家其实都是呃a class一路走上来的对啊最好的高中对吧然后最好的本科呃参加竞赛最好的文科然后最好的phd然后结束了之后去比如四大教书就有一个非常清晰的主线对吧然后我也很崇敬他们我完全不是这样啊我是一个呃呃最多是一个b class的这样的一个trajectory哦你像你像而且很多我的这些决策其实还是蛮玄学的因为我觉得我并没有刻意的在某种这种幽稽主义的这种这种这种这种setting下框架下面去努力追求一些事情很多时候其实还是挺随机的啊
[10:13]然后可能也是这个没办法啊这个智商不够但是确实比如说像保送的时候对吧这个也是很偶然然后反正有有两个呃这种心理学跟数学的竞赛的讲然后这时候恰好交大有这么一个呃计划就是说可以提前进校啊就是想收割一些同学然后让大家不要去高考的对其实我当初还是蛮顺着高考的这个框架去培养其实我呃本身应该是应该是要去参加高考的啊所以当当初还纠结了很很长一段时间学校老师都会说啊这个不行啊你怎么能这个临阵脱逃呢你已经你看你的成绩也很好对吧啊你当然应该冲一冲清华北大啊然后我的内心想法是哎呀交大挺好我觉得我去我去上海也待过我觉得我跟这个城市跟这个学校都气质相投并且我就是想学计算机然后我觉得交大那个时候计算机也很不错啊
[11:16]我也听说过有ACM这样的一个计划虽然那时候这个选拔的过程其实是要到啊你你你提前进校进去之后有一个下列下令营之类的这样一个一个program对吧然后你进行一些测试啊然后然后才能进入到这个班级里面对但这里面有很多很有趣的事情发生啊当然首先话又说回来我觉得我还是蛮啊怎么说呢就让我再选一次的话我完全不会后悔对我觉得提前进校的那个暑假是我这人生中的高光时刻为什么因为那两个月啥也没干我就在寝室里面打游戏这为什么是高光时刻因为这辈子在之后再也没有出现过这样的时刻了当时打什么游戏啊呃很多啊打dota啊什么的就是宿舍里面就就是那种我在高中时候从互联网上看到的那种大学生活你知道吗啊就是就是有好好学习的一部分但也有一些这些啊找寻自己然后在呃这种呃漫无天日的虚度时光的这样的一个
[12:21]一个经历对啊所以现在您的人生高光时刻是在虚度时光是吗在寝室里可以这么认为的嗯哎你很有意思啊你一直在说你不是成绩最好的那些人但是你你也很顺呀你也你似乎也是成绩最好那一批为什么你对你自己心里的认知是我的成绩其实是一半呢我其实就是说我看跟谁比对吧跟那些最顶尖的竞赛选手像我刚描述的这课非常顺利的这个对吧摇班大神然后四大PhD四大教授来比那我真的是啊远远远远不如但另一方面我觉得我还蛮感恩我所有这一段经历的因为我会觉得啊就接下往后讲的话其实我觉得还蛮还蛮有意思的啊比如说在我去交大的时候其实交大也不一定是一个在计算机方面人工智能方面一个特别特别顶线的这样一个学校吧然后到现在比如像一线班已经变成了一个啊
[13:23]当然这跟我没什么关系但我的学弟学妹们包括我的学长们对吧不管是做创业还是在做学术然后在各个地方发光发热然后并且我们有一个很强的这样一个校友的网络啊大家联系在一起然后做事情我觉得啊我觉得我觉得还是啊是是一个向上的这样一个去扎水吧向上的一个轨迹啊再到后来哎这里面还有一个很有很有意思事情我想提一下就是我一三班会面试然后面试的过程会有这种老教授的当初是这个神少教授面试我们啊这个面试其实不是不是问你一些technical的问题他会问你你喜欢读什么书嗯啊然后我觉得这件事情是明明注定有一些缘分因为啊我当初非常着急差点打不上来啊然后我跟他说我其实很喜欢看的一本书也是我最近刚看完那本书是这个这本书叫what is mathematics
[14:24]就是什么是数学然后沈仁超老师就接着就问说哎那你这本书的作者是谁要考考我啊然后我有点懵对然后你这个对吧一个高中生人家这个对外国人的名我也记不住想了想了最终还是打出来了是这个richard fran就是理查德科朗然后沈老师就是说啊对你一定要记住这个名字因为这是相当于二十世纪最伟大的一名数学家啊为什么这件事情让我觉得冥冥之中最有天意或者有些巧合在这里面呢是因为现在在nyu我在的这个这个系这个院就是科朗数学科学研究所啊就是richard fran啊拿铲子挖的第一勺土对他建起来的这个系嗯所以啊我觉得还蛮有意思的对吧然后到后面申请其实也是一样我觉得啊或者从另外一个角度来看从另外一个角度来来说这件事吧我觉得我觉得好像这个世界总是不想让我去做我想做的事情
[15:27]但是但是我偏偏要做我想做的事情啊呃比如说本科的时候我一开始就对计算机视觉对吧或者说对人工智能产生了一些兴趣啊那时候也是刚开始就是在a三班大家会在大二开始进行这种这种科研实习然后会到这个学校里面的不同实验室里面去然后我去的这个实验室就是一个做啊神经科学加ai的这样一个实验室啊叫BCMI然后书架上放着很多很多关于意识关于大脑关于图像啊然后关于我们怎么样对真实世界产生认知这样的书啊我看到之后觉得哇太有意思了然后呃后来在在这个过程中我还认识了我的一个学生我的一个学长啊这个学长是这个侯小迪啊然后他他对他也是丁颖大名他之前也创业然后现在也在创业啊
[16:27]然后我每每跟他聊起来他总会说这个世界变了但我们都没变啊我们特指我跟他因为因为我觉得我们每次聊的东西就像我们十几年前聊的东西一模一样对那时候他是这个学校的一个传奇对然后他干了两件传奇的事啊第一件传奇的事是他作为一个本科生啊发表了一篇cvpr的论文对然后这个论文里面啊呃是一个非常精巧的算法啊一共只有七行代码解决了一个很重要的问题然后发表了一篇论文嗯现在cvpr已经每年接受可能几千几千几千篇论文对吧好几万篇投稿所以现在你像我们要招本科生然后大家人手都三篇四篇五篇cvpr已经不算什么了好但在那个时候在大陆的学校啊能发表这样一个顶会的工作其实是非常非常困难的非常罕见
[17:28]非常罕见然后如果是一个本科生发表这样的工作我闻所未闻啊所以所以真的是每一个人都非常非常佩服他嗯但是呢他又做第二件非常厉害的事情是他啊带领一个team呃撰写了一个东西叫做交大生存手册交大学生生存手册哦是team写的呃应该是他主笔啊我不知道后面应该有一个团队跟他一起啊然后这个东西现在网上还有存档啊我觉得欢迎大家呃线下可以去看一下对呃这个手册里面讲了什么东西然后有些有些话对我前两天又回头又重温了一下啊我觉得非常非常有意思对呃他讲的事情是什么就是讲说人为什么要学习中国的教育体制大学的模式到底哪里错了你应该把时间花在什么样的地方上去达到你想要的人生嗯啊或者说他也指导大家说怎么样做研究做研究的目的是什么
[18:29]做研究的目的不是要灌水发论文而是真的对这种无限的未知的探索啊类似于这样的事情啊当然里面也会教大家什么怎么样逃课啊怎么样啊呃完成作业比较比较快速的方式完成一些作业对是一个这种小测试啊这种小测试我也去读了一下他说如果一个人把政策评分作为自己的至高追求那么他就是这个政策的牺牲品嗯我完全同意对我觉得这些事情现在回想起来可能潜移默化真的影响了我对很多事情的认知他在发表这个的时候你大几啊呃大一大二吧大一大二对大一大二你就认识他了是吗呃那时候他已经申请成功然后去了呃加州理工读phd哦所以我跟他是在因为他也是这个这个实验室毕业的所以我跟他相当于在网上沟通呃何小迪当初是在这个加州理工然后就已经读phd了对他也申请到了很好的学校然后我们都非常非常羡慕啊在那个时候
[19:30]然后我跟他还是会在这个当初是在google chat上然后跟他聊很多很多的话然后他真的是也是啊给了我很多很多的建议吧对现在还记得有什么建议啊呃没有更多的时候在网上跟他聊的时候呢更多是聊research对到底应该做什么事情嗯跟他讲一下我自己的迷茫啊然后呃然后怎么样怎么样能够发出来一篇论文吧大概向他取取经对然后那时候但那个时候我觉得通过小迪然后通过我看的这些书已经基本上确定了我觉得我这辈子就想做这个事儿啊我觉得这件事情可太有意思了计算机视觉呃那时候其实并没有这样一个名字在那儿或者说慢慢开始有计算机视觉这样一个一个terminology但其实之前对吧然后大家去处理图像或者view的信息已经很长时间了比如大家会做所谓image processing就是图像处理啊呃更多的是从这种we的major开始的
[20:30]对然后计算机视觉可能是呃you know呃慢慢变得更加更加popular嗯对然后也也就是我开始学习这些之后的这些知识的时候吧它开始变得越来越popular对然后呃我总说这个世界总不想让我们做这件事情是因为在呃交代A3班的时候其实还有另外一个特点是这个班里的每个学学生在大三的时候都要出去实习一次嗯嗯现在其实也蛮常规的但其实在当时还是就是这个班的主要的这个这个发起人叫于永老师啊他的一个创举所以那时候大部分人就是A3班会跟这个Microsoft呃recitation就是亚元亚元院有这么一个合作的一个项目所以会把我们的很多学生送过去然后做一个大概呃6个月的这样一个实习对所以呃我的当初的就是如果我什么都不做的话
[21:31]我就会去亚亚元院实习对虽然也很好但那时候呃其实没有一个做视觉的组愿意接受A3班的本科生去实习哦为什么呀呃我不知道可能是因为当初你像玛依老师啊孙建老师都在那边啊凯茗那时候应该也在那边了然后我觉得他们可能不喜欢有太多的这些啥也不懂的本科生哦过来参与这些事情对吧他那个他们那个时候非常的人才积极是的是的是的没错但但我们真的是什么也不懂对吧我觉得我我现在也慢慢能理解啊呃但那时候呃有一个选择就是还是去MSRA但是就不要做什么跟视觉相关的这些Research了啊然后于老师也跟我说说哎呀其实你们本科生啊现在最重要的还是有一段研究的经历学会怎么样做研究啊呃具体做什么样的这个这个方向不重要方向不是很重要嗯对呃但我觉得不行啊我觉得我没办法接受我去做一个完全不一样的一个一个方向
[22:32]我希望对这个领域了解的更多我希望能够踏踏实实的啊做一些事情然后希望有朝一日能像小迪师兄一样啊能够发一篇CVPR的论文对这是我当初的小迪那时候就已经是你的偶像了是吗有点有点他他是很多人的偶像对在加拿大的时候哦呃然后所以我就开始琢磨这个事情怎么办啊然后就开始发邮件所以联系了这个新加坡的NUS是吧啊新加坡国立大学的呃盐水程老师的这个实验室嗯对啊这件事情是完全我自己联系的也没有也没有告诉余老师啊然后等到敲定说哎我可以有这么一个实习的机会啊然后他那边已经有一些呃补贴然后说什么时间什么样的这些这些这些架构已经都啊比较完善了然后我就去找余老师我说余老师我实在是不想去亚盐院啊我想去这个新加坡的这个学校的这个组去做我想做的研究
[23:34]嗯啊余老师沉默了几秒钟对啊可能我猜啊我不知道我我我还没有问问过他这个问题但我猜他心里想法是啊这个学生怎么这么刺头嗯因为在老师心中亚盐院是一个更好的选择是的是的啊一是一个更好的选择二是我觉得也是能够让大家都通过对吧能能把大家聚聚合在一起啊我觉得一是当然也方便管理了第二也会有一些更多的这种心得这个吧大家还是可以互相交流啊啊然后那那你去一个新的地方这件事情到底意味着什么嗯这个地方到底靠不靠谱你要做的事情靠不靠谱这件事情可能是不可控的你纠结过吗我我没有纠结但但余老师我觉得我也非常appreciate他就是他反而反而沉默了几秒最后说好啊你去吧对啊然后我就去了啊但是这件事情啊发生了之后像水城这个组AOS的这个实验室变成了我学弟学妹之后的
[24:35]一个可选择的一个一个一个一个position嗯对啊所以我觉得啊对所以我觉得我还是想take一些主观能动性吧我觉得take一些initiative然后去做我自己想做的事情在当时还非常早期就是和图像相关的人工智能到底吸引你的事是什么呀嗯他为什么吸引了你呢让你做出了很多不一样的选择因为我觉得我感受这个世界的方式就是通过视觉嗯我会想我小时候也可能也比较无聊吧我就会想哎人有这么多对吧感官啊如果非要让我让我去掉一个的话我会去掉哪个我觉得也许我听不见也许我没法说话也许我没有触觉没有嗅觉啊我会过得很悲惨但可能还可以接受但如果我没有了视觉啊那那我不能看动画片啊我我也不能看电影
[25:35]我也不能打游戏了我似乎上丧失了一个人的独立性然后我觉得当然这件事情这些最开始的想法和后来我看到的一些书里面呃讲的事情我觉得也蛮不谋而合的吧嗯因为你相当于视觉信号其实占了人的大脑这个批层呃看你怎么说的吧就主要的视觉区域可能有百分之呃百分之三十占整个大脑但呃整个大脑在看到这个图像的时候啊激活的部分可能要占到百分之七十嗯对吧所以其实我们所有的人都是视觉动物啊然后这件事情对我我是这么觉得的我也是一个视觉动物我也很喜欢啊看一些东西对而不是听不是读生物也是不只是人不只是人对你说的非常非常对嗯所有的东其实不完全是这样因为其实在530 million啊year ago就530个百万啊呃年前
[26:35]其实地球上其实是这些生物是没有眼睛了大家都在这种深海里面生活呃暗无天日对吧大家都在深海里面然后光打不进来然后突然有一天啊有一些生物能够呃发展出来他们的视觉了虽然还是很弱只能看到一点渺茫的这个这个这个信号对吧啊但这时候他们就很厉害了他们就能看到自己自己想要捕食的对象在哪儿我就可以很快的游过去然后把吃掉他还能躲避躲避天敌有人要过来要抓我了我立刻逃跑啊一旦视觉诞生了呃其他的生物在进化过程中不得不演化出更强的呃这个这个视觉对吧因为因为如果你不有更强的视觉的话你就会被吃掉是吧所以就展展开了一场军备竞赛啊所以这是所谓的就是所谓的韩武纪大爆发啊啊就是所谓的堪贝尔就是说地球上在这个韩武纪之前
[27:36]可能只有屈指可数的这些物种但是过了韩武纪之后突然到大爆炸式的多了几十万种这种物种啊一个leading theory就一个一个理论其实是说这种大爆炸的啊来源其实就是因为大家在视觉层面展展开了这种军备竞赛是的是的所以所以你说的完全对我觉得我觉得这其实是不是一个人特有的事情我觉得所有的动物其实也是这样嗯然后所以呃我对这件事情还是还是蛮感兴趣的而且而且你知道呃视觉这件事情其实也不只是一个感官啊有一种说法是其实眼睛是唯一一个它是大脑的一部分但它是唯一一个暴露在真实世界里面的大脑部分因为其他的大脑部分都藏在我们的头骨背后嗯对吧所以这样想的话其实解决视觉不是要解决视觉本身而是要解决智能本身对所以一切我觉得都是能串起来的
[28:36]从你还没有进入大一的正式上学之前那个在宿舍里躲着打游戏虚度时光的你然后到你找到了计算机视觉的这个人生的主线这中间发生了什么呀嗯其实也没发生什么其实很多时候我觉得都都来源于偶然吧嗯就像我如果当初也许没看这本书然后我可能也不会走上这条路但有时候我觉得这也是一种必然我现在还是蛮相信其实每个人都有自己的命运嗯或者说我有时候跟学生说你不要想着说你不做这件事别人就会把这件事做了你要想如果你不做这件事这件事在这世界上永远不会发生啊这是什么意思呢就是说你现在在做一个research topic对吧然后你做了这件事情你是怎么样一步一步到达这个这个端点的嗯
[29:36]这件事情完全取决于你自己之前的个人的人生的经验成长的背景可能是你看过的一本书可能是你跟一些人的一段对话可能就是你的genetically呃就是你的基因wise就是就是跟别人不一样对吧我觉得每个个体在这个世界上都是很独立的每个人都是这个世界的一个变量每个人都是这样一个然后有可能谁说的准呢有可能你就是这个世界上最重要的那个变量这是你的世界观我觉得是我乐观的一面吧你在新加坡果立有获得你想获得的东西吗我觉得有首先是我交了很多很好的朋友之后我可以慢慢展开但我认识了比如说其实当初带我的主要的这个我的mentor是冯嘉时他当初是这个PhD学生对然后他带着我然后做了一些工作我们发表了一篇也不是鼎会很不幸本科还是没能发出一篇CVPR
[30:37]但发表了一篇还不错的这个BMVC的paper对是一个没那么鼎会的计算机视觉的这样一个论文所以我觉得还是有很大很大的收获我第一次知道了research是怎么回事对吧真正写过一篇paper跟没写这篇paper我觉得还是差别还是很大的那是你关于CV的第一篇paper是的但你可以认为这是一个关于CV的paper但其实跟CV也没有什么关系它的唯一的一个application是这个人脸识别对它更像是一个机器学习的论文但那时候也很正常所有在学CV或者说研究CV的人都在做类似的事情所谓的这些这种manifold clustering相关的东西对吧但是也就是在那个时间点上那是2012年2013年2012年对吧所以刚好也是AlexNet moment所以我也是在那个时间点上
[31:39]知道了这件事对吧然后对然后知道了ImageNet知道了深度学习所以我觉得那其实是一个原点那是我刚开始做research然后学会怎么样做research的一个原点也是整个深度学习的一个原点对吧这是你的大三大三对这个时候大学就快结束了所以你其实在本科期间就已经找到了你的主线我觉得是的那你当时的那一身奖励机制是什么呢其实我觉得还是好奇心吧对就是我觉得我想要知道为什么对或者说这可能也是我的一个自己的一个解释吧我觉得我也不知道我的intrinsic motivation到底是什么但是我希望了解更多东西我希望了解关于这个领域的更多的事情我希望跟这个领域的最顶尖的这一部分学生也好研究员也好老师也好
[32:40]有更深入的交流所以这也是为什么之后我决定还是想要出国想要申请我觉得也是parlay是这个原因这里我想多插一个小问题你也肯定有很多清华摇班的朋友也有很多清华摇班的朋友来过我的节目是的我想知道清华摇班你觉得跟交大的ACM班最大的差别会是什么呀在培养上我觉得可能ACM班没那么卷吧一个差别是again这件事情其实还是余老师的一个设计他我觉得是一个挺伟大的一个教育家我可以这么去说对像我们当初其实我们的课程设计上会有很多看起来还是蛮奇怪的这些设定比如说我们有一门课程其实很自豪的就是说叫做学资讲坛这个学资讲坛是什么呢就是说大家要到这个课上然后花可能45分钟到一个小时去做一个presentation给一个talk然后这个talk不能是
[33:41]跟学习有关的它可以是关于这世界上任何事情的但不能学习有关系所以有人会讲哲学有人会讲历史有人会讲社会有人会讲很多很多很有趣的东西当然也可以讲科学对然后我觉得我觉得这可能是一个培养机制的不同当然我也没去过摇板所以我也不清楚但我觉得大家还是在一个相对来说比较宽松并且比较强调通识的这种这种设定下往前走的你给我的感觉是你好像不是一个喜欢过度竞争的人我觉得我不惧怕竞争但是我觉得确实我不喜欢过度竞争并且我觉得过度的竞争一定也不利于创新对我觉得这个当然不是说A3班没有竞争其实有很强的竞争你在这个竞争中是优胜者吗没有被淘汰出去对但其实也不能叫淘汰了就是其实是大家觉得自己适合还是不适合
[34:44]然后选择继续留在这还是出去你本科大概排第几一共可能有三四十个人可能排十几名这样没有特别卷自己没有特别卷自己你有想过要成为ACM班的比如说第1名第2名吗这是你的追求吗我成为不了对真的成为不了因为我们有很强的这些对竞赛背景的学生然后或者说这个评价的标准其实我觉得也是多元化的其实不好讲谁是第1名第2名或者说如果只看GPA的话那我觉得做不到对然后我觉得而且我对这件事情可能也是受了生存手册的启发我觉得我也不是那么在意所以从那个时候就开始非常追随自己的兴趣是的对我觉得追随我的兴趣并且我会想方设法促成这件事情对吧尤其在申请的时候也是一样刚才的一个例子是你去了新加坡国立而没有去微软亚元宴
[35:44]对申请的时候其实对这里面还有另外一个故事就是当初差点失学但也没有失学就是还是有些offer但是也是没有一个我想去的做这一段期是觉得老师的offer这件事情让我非常非常的沮丧然后一度我会想好吧那我可以去做一些关于推荐系统的研究一些更加机器学习的研究直到最后然后我就开始疯狂的跟大家写邮件就是套词邮件对然后然后涂哲文老师涂教授然后回复了我但这件事情已经非常繁华了因为你知道大家申请phd一般都是要4月15号就截止了对吧我其实4月才收到了这个回复哦对你最想去的老师是谁啊在那个时候那时候其实做计算机视觉的老师不多对吧然后我觉得陀老师当然是一个我非常非常敬佩的一位老师所以我觉得他也是我的一个top choice
[36:46]对然后当然了还会有很多你当然说像像在斯坦福伯克利MIT都会有有很多这些计算机视觉的先驱但那时候这个超过我的能力范围之内对所以所以我跟陀老师发这个邮件然后他就回复了我然后我还记得非常清楚因为有时差嘛所以陀老师说我们要不要打个电话你什么时候有时间我说我任何时候都有时间然后所以我半夜三点在宿舍的楼下跟陀老师打了这么一个电话告诉他为什么我觉得我想做这件事我之前做了哪些事并且我觉得我为什么很欣赏你的research我觉得我们可以一起工作一起公事所以后来陀老师就把我捞起来了非常非常非常幸运最后几天最后几天把我捞起来了但后面还有转折
[37:47]因为我一开始这个陀车文教授其实是在这个UCLA所以我拿了offer也是UCLA的offer然后我办好了签证准备要入学然后之前大概一个星期陀老师说这个不好意思我要跳槽了我在UCLA因为种种原因不想待下去了不想在这继续待着了我要去另外一个地方我要去哪我现在我也不能告诉你我也不知道因为他当初也在面试真的然后他跟我说你有几个选择一是可以留在UCLA然后把你交给其他的老师托管然后也可以等一等看看我这边工作的情况然后有可能如果去到一个你愿意来的学校的话你可以跟我一起来所以你等了吗还是你马上说我就选择你我基本上就是说我马上说我就选择你了你不在意学校是吗我觉得我不在意学校并且我还是觉得对我觉得这些事情都很有意思因为当初其实
[38:52]你如果看UCSD的话可能感觉什么综合排名什么都不如什么UCLA现在完全不是这样如果你看这个CS ranking啊或者说从AI的这种招人啊然后学生啊包括这种师资的储备AI的这种力量来看我觉得UCSD都已经是前几名的这种这种级别了在当初完全不是这样在当初而且我其实还一直很想合作一个老师叫Search Blondie他刚刚决定也要跳槽离开UCSD所以我觉得一切都很绝望啊我要去的地方似乎排名也没那么高然后师资也在外流但我想想说这个都不matter都不重要重要的事情是我跟谁在做什么事情然后这件事情是不是我想做的事情我觉得抛开所有这些噪音这是我唯一一个想要去关心的事情这个很有趣所以这件事情发生了好几次的我刚说在交大其实也是一个向上的时辰
[39:54]然后去去这个去去去UCSD其实也是就是就是当然我不是说这件事情跟我有什么关系我觉得跟我没有任何关系啊但sum up我觉得我能看到一个地方或者甚至一个人他的upside的potential就是说他的潜力嗯然后我也愿意跟这些地方一起成长我觉得这是我体会比较深的一个事情你多久知道涂老师去的是UCSD可能隔了隔了几个月吧对啊可能隔了一两个月你当时有担忧过吗当然有担忧过了因为因为涂老师其实是一个非常谦虚能力极强但又非常谦虚的一个人所以他总会给我打预防针的说那我要去的学校有可能排名会比较靠后了你要考虑一下你怎么说我有点不太记得我说了什么但again对我来说这件事情可能不那么重要而且而且而且那时候还没有到要做选择的时候对吧那我为什么要
[40:56]为了没有发生的事情而提前忧虑呢所以没有想太多有其他人做这样的选择吗在涂老师沟通的学生中应该基本上没有我是他在UCSD招的第1个学生那我觉得光凭这一点涂老师应该非常喜欢你我觉得这个都是对我觉得也是他救了我吧确实是但这个也不只是一开始劳了我再到后面做research在PhD的过程中我觉得他也也是真的帮帮到了我对我之前像在新加坡实习啊什么的你可以认为我们在做一些research但事实上可以说还是小打小闹对有一个人在你的旁边教你做事这种感受还是不一样涂老师是那种坐在你的显示器旁边跟你一行一行代码往后去对的这样一个老师而且他也经常我觉得很骄傲的会跟我们说这些事情并且我觉得他也非常值得这样的骄傲比如说他发了几篇
[41:56]其实对后面的这个计算机视觉有重要影响的工作都是他独立单个作者完成的工作然后这些工作没有什么像现在一样大家用PyTorch有这么多这些开源的社区有这么多的这些库你可以调用对吧有GPU在他那个时候什么都没有他要从底层开始写起比如说他要做图像分割这样一个task他要从头写起大概有五万行的这样一个代码他还把这个代码发给我看过那这个包含了最底层的这些包括一些distributed training一系列的这些东西全都是C++写的对五万行代码我觉得一方面我觉得我很幸运不需要经历这些但另一方面我觉得其实他们这一辈的在美国的这些scientist这些professor真的是令人敬佩对如果没有他们的话也没有我们的今天他们其实是
[42:57]闯出了一条路本来这条路是不存在像我说的对吧发一篇CVPR这件事情其实是非常非常困难的事情并且有某个圈子有某个固定的圈子然后我觉得要靠涂老师要靠其实他的老板对吧朱松纯教授然后包括后来像飞飞啊等等飞飞老师然后大家把这条路蹚出来让我们才有路可走我看到有一个小红书评论说现在您在国内表现平平平凡无奇到了美国一鸣惊人这变量到底是什么呢首先我觉得没有在国内平平无奇吧我不接受然后在美国也没有一鸣惊人我也不接受我觉得我觉得好像我做的这件事情还是一个满smooth一个很平滑的一个过程或者说我觉得这也是我希望
[43:58]我作为一个研究人员对吧这种科学从业者吧我希望能够处在的一个位置就是说这件事情不是一瞬间的荷尔蒙或者肾上腺素的爆发这件事情可能是一个终其一生的一个建设一种一种很宁静的一个过程我是希望希望自己能处在这样的状态我说这样的状态是因为我知道很多人就是就是这样的状态这些我最崇敬的这些researcher他们就是这样的状态他们没有没有说怎么有这种一鸣惊人的或者至少他们的做事情的方式不是做事情的目的不是为了一鸣惊人我觉得是这样是为了什么是为了还是把问题想清楚你博士期间的工作是怎么展开的呀博士期间的工作也很有意思博士期间的工作我觉得也是靠这个托老师手把手带
[45:00]但我们有第一篇论文By the way我在博士期间也不是一个成功的博士的学生按现在的这种standard来看我一共发了可能应该有五六篇鼎会的paper吧这个是什么水平我不知道在那个时代应该还行吧是能找到顶尖实验室工作的水平现在可能已经是现在我的很多学生要比我当初要发的多的多的多的paper然后工作质量也好得多但是anyway就是一开始的话我觉得我们做了一个工作叫做deeply suplexed nets这个工作其实是我跟另外一个更高年级的博士生一起合作完成的然后这个时候这是2013 14年的时候然后这时候是深度学习终于开始爆发但我觉得这也是一个很有趣的时间点因为其实有很多人不接受这件事尤其很多做计算机视觉的老师都不接受这件事就大家觉得
[46:01]深度学习还是一个炼金术还是一个黑盒子大家更相信传统的机器学习理论相信SVM或者相信一些贝耶斯学派的一些理论对能够及时的转身去做深度学习研究这件事情现在看起来开着门在这个历史的后视镜都是一个no brainer就是你不需要做这样的选择你就应该这么去做但在当时要做出这样的选择我觉得是需要一些勇气的所以涂老师其实是这也是我另外一个非常非常敬佩他并且我深深的受到了这件事情影响的这么一个事情那就是说他其实是很及时的做了这个转身所以这个DP Super S Nets就是在这个时代我们第一个Deep Learning的一个工作所以这件事情的事情也很简单这件事情就是说我们怎么样你所有的这些神经网络在之前都是只是一个
[47:02]所谓的single strain都是一个长长的链条然后有你的输入然后得到你的输出然后现在DP Super S Nets就是说你现在其实可以有multiple branches就是说你的一个神经网络其实可以有多个出口你在不同的出口上你都可以施加一个监督信号这样的话一个最直接的一个好处就是说你可以不只从最远端的这个信号做back propagation回到之前的early的这个layers反向传播你不需要从最远端做反向传播一路到最头你其实可以从中间的一个节点做反向传播这样可以解决一部分这种梯度消失的问题然后这件事情其实跟后来比如大家做RestNet其实也有点神似其实就是或者说在那个时代大家其实都想要解决这样的问题那DP Super S Nets就是一个要解决这个问题的一个方式其实这件事情
[48:04]虽然很远了这已经12年前了但我觉得Research就是这样12年之后其实我们现在的一些论文又再次用到了同样的这样的设计有时候甚至是我们都没有意识到我觉得这个很有意思但我们先不说12年以后那我第二篇论文是叫做Holistic Edge Detection就是一个做边缘检测的工作HEDHED对我觉得我对这篇工作其实也蛮骄傲的因为这件事情说白了把把一个Research的问题解决了既是一种幸运也是一种不幸就是幸运的是说这篇论文是一个不错的论文不幸的事情是当这个问题已经解决了之后那后面没人做所以也没有人去Cite你的论文了所以少了很多Citation对但是但这个工作其实本质上就是一个Deeply Supervised NetsDSN在一个图像或者说边缘检测但其实是一个全局的
[49:06]这种我们叫做Pixel Labeling就是说像素级别的这种这种标注的这样Task上面的一个实现然后这件事情也打开了我很多的思路因为我会发现原来一个神经网络它的每一层其实是有它隐含的这个结构跟信息在这你的一个神经网络Again不只有输入跟输出你的中间会有很多的这些信息它代表了这个世界的一个所谓的Hierarchical就是层次化的一个结构对于边缘检测来说它代表了就是说你的初级的这些层输出的这些边缘就是更加所谓Course更加粗糙的这些边缘对吧然后越往上你的边缘也就更细致所以你最后可以把这所有这些边缘融合到一起得到一个最贴近于人的认知下的这种边缘的这样的一个输出的结果我觉得这件事情其实是也让我对深度学习有了新的认知
[50:06]它是一个很有趣很有趣的东西你可以认为它是一个Black Box但这个Black Box的每一个部分你又能把它打开接入一些新的灵感然后达到一些新的目标我觉得这件事情对我启发很大然后这个paper当初对我的人生影响也很大是因为它这个是发表在ICTV然后也得到了一个奖这个奖是这个马尔奖就是其实最佳论文奖的提名还不是最佳论文奖只是一个提名但其实这个对马尔奖来说就是他评选两个论文了就是相当于马尔奖的马尔奖提名是两个奖项所以这件事情让我觉得啊你要说什么一鸣惊人我当初确实觉得你看我也是年少成名了就现在当然我们有很多这种中国学生也在这种世界的舞台上得的这些best paper可太多了对吧但当初对我来说走上那个舞台然后或者那个讲台吧然后去给这个award presentation
[51:07]去给这个talk对我的触动是很大我会觉得哇我的这个人生开始了对吧然后我会不断的努力我会有越来越多的best paper很不幸这是我最后一次拿best paper这实是博几啊博二吧直到现在前两天春节大家发短信还是说祝你这个新年快乐best paper多多我说已经过去10年每个人都这么祝我了再也没有得到你还想要吗好问题就我觉得这件事情对我来说也没有那么重要一方面是我知道了这个流程我知道其实我得没得一篇best paper可能不代表这篇工作的好坏我也知道了当初我得了那篇best paperhonorable mention其实多半也是运气这是一个巨大的随机过程一个论文
[52:09]重与不重然后能不能得什么样的奖我觉得这件事情非常非常随机然后如果一件事情这么随机的话它不应该是一个researcher应该关注的事情所以你到了博二感觉到人生终于开始了对然后人生终于开始了然后立刻现实就把我打翻在地倒也没有那么夸张了就是说我觉得这也是另外一个我读phd的时候又要感恩陀老师就是他其实又是一个非常非常open-minded让我们去探索各种各样不同方向的一个人所以我在phd的时候一共实习了五次我觉得即使在今天看起来虽然跟学校跟industry已经合作这么广泛的情况下我觉得也是挺难以想象你为什么想去实习我就想走出去去看看可能就像我小时候去旅游是一样我想知道在这个世界不同的地方不同的组织有什么样的事情在发生有哪些人在做哪些事情
[53:10]我想知道这一切而且我一方面我跟你说对吧我一直想做人工智能或者想做计算机视觉但另一方面我也会问自己what if I'm wrong对吧what if万一呢对吧万一这世界上会有另外一个更有趣的事情发生那怎么办所以我觉得这也是另外一个我的一个motivation你去了NEC lab去了Adobe去了Mita去了Google Research和DeepMind感谢感谢背景调查对是的是的是的是这五个地方然后其实前四个都在湾区了所以我其实那段时间其实还是蛮开心的就是每年我有一辆自己的破车然后每年夏天我要把我自己的宿舍转租出去开着我的车一路从南家开到北家八小时的路程有时候会跟有一两次会跟朋友一起大部分时候是我自己在路上我这件事情还蛮酷的
[54:13]所有的身家就在我的车里两个行李箱然后不带走任何一切因为我这个房子我也没了我回来我要再重新找房子居屋定所这种流浪式的研究员的生活我还蛮开心的这五家里面你最喜欢谁啊我觉得各有各的特点像这五家里面就是所以我最近也跟学生说我有很多学生然后他们实习其实没有做出来什么好的工作然后我就跟他们说我就拿我自己举例子我说我做了五次实习一半都没做出来什么东西这个实习周期有多长一般都是三个月到六个月所以我大概一半的一年一半的时间在学校一半时间在湾区当然低慢的时候在伦敦然后我觉得没有什么喜欢不喜欢我会尽量的去diversify我会希望我去的每个地方都不一样我希望它是一个更多元的经历
[55:15]所以NEC Lab它当然是我第一个去的地方然后我觉得在那里我也发了一篇CVPR的论文然后那边有很多很好的小伙伴主要还是华人居多然后大家中午下班了就一起去Cupertino去吃饭这是我对它的印象我非常非常喜欢这个集体然后非常喜欢大家做研究的态度然后我也发表了一篇我自己的论文所以我觉得我非常高兴这段经历NEC Lab当年应该也是深度学习的聚集地于凯博士也在那里待过是呀是呀是呀嗯是的是的当然它有两个分部一个在Princeton一个在这个Cupertino所有做vision做media相关的人都在湾区然后所有做跟这种传统的机器学习相关的工作的人都在都都集中在这个Princeton这边然后后面可以有些可以跳过但是反正在Adobe我就没做出来原因是
[56:19]Adobe是一个非常非常artistic有这种艺术家气质的公司对了make sense然后我在那时候在三番然后然后做一些跟design相关跟这种cross-sourcing就是说你要在互联网上去写一些这种mechanical Turk就是一些互联网的这种用户Feedback的这种系统吧然后一些用户反馈系统然后用它来指导一些机器学习跟这种三级视觉的一些一些任务比如说segmentation这件事情我就没做好我还对我的Mentor心怀愧疚对当然他们也都很有善但这也是一次让我体会到其实It's ok没有做出来什么东西其实也不是The end of the world也不是世界末日但那段时间其实还是蛮消沉的然后这段消沉期其实一直持续到了我去Meta实习
[57:19]在学校里好像也没有做出来什么有趣的工作然后到了Meta之后然后实习只有可能三个月的时间我在前两个月基本上也我在Explore一些东西在探索一些东西也是跟这种神经网络的架构相关一些东西但也没探索出来什么东西什么名堂然后突然一个转机发生了这个凯明加入了Fair在那个时候所以这大概是我我记得一半的时候何凯明老师然后加入了Fair然后成为了一个Full time的研究员所以那是我第一次跟凯明共事那是我第一次三他学习然后那时候也建立了一些深厚的友情吧我觉得因为那时候他第一次来美国他第一次他有很多第一次是在Fair的时候发生的他那时候也不会开车
[58:20]第一次来美国也人生地不熟我要开着车带着他出去吃饭然后送他回家有时候但他后来也会自己学车然后他也不会用Linux这件事情也很有意思因为在微软的时候他们都用他们只能用windows来编程所以我要教凯明怎么样用这些clusters怎么样用Linux但你会发现凯明凯明这个是凯明不是没有原因的然后我觉得我觉得像他身上真的是有这种可以叫他光环或者我可以叫他某种这种现实扭曲引力场吧这其实是Steve Jobs的说法就是说Steve Jobs这周围的人受到他的这个影响都会觉得现实发生了扭曲的吧有些本来完全做不到的事情现在慢慢竟然可以做到了我觉得凯明也是有这样的魔力然后所以这是我第一次看到说一个真正顶尖的研究员是怎么样做的
[59:22]做research你那个时候实习期只剩一个月了你们为什么能够建立起深厚的友谊我觉得我觉得一是生活上的交流他为什么选择你呢他为什么跟你交流呢因为我在那边是一个intern然后我的manager就把我委托给凯明了因为反正我做的也很不好也没做出啥东西然后凯明来了说凯明你来带一带吧你参与参与讨论吧所以那时候还剩了一个月的时间然后凯明就说要不我们来一起参加一下这个image night challenge就打这个比赛然后然后我说好呀那我们来打打这个比赛因为凯明在微软的时候他做出他这些工作就是靠打ImageNet比赛对吧然后一步一步打起来的所以我们也来去去玩ImageNet这个challenge然后在这个过程中我们就发现我们之前想到的一些思路
[60:23]其实是一个rhythmic的思路其实是一个很好的思路对吧然后其实这个idea我propose给凯明凯明他的魔力在于他能把所有很普通的东西变成一个金字般之前的这个idea对所以我们做了这个RestNext的工作然后这个也是我们参加ImageNet的challenge的一个solution一个submitted solution然后我们当初得第二名没得第一名但我觉得我们其实是in fact应该是第一名因为第一名的solution是一个就是ensemble的solution就是把一些之前的算法做模型融合融合起来的一个solution对然后我们其实是一个全新的框架对然后那个时候对我觉得RestNext想要讲述的事情也是在涉及到我们怎么样去通过一个去更改我神经网络的架构去学到一个更加scalable对吧可以扩展化的这样一个representation
[61:24]这样一个表征这件事情其实也非常好玩因为这件事情好idea非常非常简单它就是说原来比如说我的RestNext只是一个串型的网络对吧只有一层一层一层的这样的这样的conflayers现在我可以平行的扩展成好几个不同的groups每一个group里面有单独的自己的一个小网络相当于你是网络在一个大的网络里面又平行的分布着很多小的网络这件事情为什么有意思因为按现在的话来说这件事情就是MOE对所以我们当初至少在ImageNet上面已经看到了某种scaling behavior就是说当你的group的数目越多你的这种神经网络也就越稀疏然后你的神经网络越稀疏你的宽度越大但你就能够在同样的这种flops这种计算量下然后得到更好的结果它就会收敛的更快
[62:24]然后你最后的结果也会变得更好我觉得这件事情跟现在大家在讨论的这种情况下在MOE export的东西也是不谋而合的这个工作算不算凯明那个RestNet的延伸量是的所以为什么叫RestNet的凯明说这个是所以它这个X既是Next既是下一代的RestNet也是给了我一些credit对凯明是一个很会取名的人对给paper取名的人后面很多这些论文其实都是他帮我们取名的他会把人的名字藏进去是吧倒也不会不是每次都会这样做但只是说是一个巧思吧我觉得这也是他的research taste的一部分那为什么要把你藏进去不知道我觉得可能也是我其实不知道我没有问过他你们那个时候已经公示多久了
[63:26]你的实习期有延长吗这都是在那一个月之后吗在一个月里面发生的对就是在一个月里面发生的这样的事情不计其数我很多很好的工作其实都是同样的节奏就是一开始怎么做都做不出来然后到最后突然一瞬间有灵感的迸发然后把这件事情收敛就是research从来不是一个线性的发展或者说一个线性发展的research永远不是好的research对然后我们很多的工作其实都是非线性的我之后可以给你再讲一些其他的story对反正这时候是跟凯明然后我就结束了然后就这段时期也就结束了但是你们有意保持下来了是吗我觉得是的对然后去玩了Meta这个又是一个有成果的一份实习我觉得是一份有成果的实习在Google呢在Google我觉得做的也还不错因为我开始去了解一些视频是怎么玩的对这些实习都跟我之前做的东西都不一样
[64:27]每段实习每段实习都跟我之前做的东西都不一样跟我之前做过的topic都不一样所以导致我最后的毕业的论文其实表面上其实是很散的但我还是能找到一个方式把它们串起来然后串起来的方式我再讲告诉你好但是但总之是在Google的时候我去研究了一下这些视频的这种这种神经网络的这种架构跟训练的流程到底应该是怎么样我觉得也收获也蛮大我有一个疑惑因为你既然在Meta在Meta跟凯明合作的很好然后他又是一个顶顶大名的AI的researcher你为什么不留下来继续跟他合作我觉得很多人可能会这么选择你为什么要接着去其他地方去游览了呢这其实是凯明的建议凯明会建议每个人去不同的地方实习这样才能去有最大化的收获对所以像我们当初我啊包括王小龙啊大家其实都是实习了一次然后之后我们当然都愿意留下来
[65:28]但凯明说你们去其他地方看看吧也许会有不一样的收获但是你博士毕业以后回到了Meta是的我觉得还有就是在Google时期完了之后紧接着又去了Demine时期我觉得那段经历其实是对我启发是很大的Demine那时候还不属于Google还没有收购是吗不不收购但是是两个不同的organization因为他只在伦敦所以那段时间我去再做一些IL相关的research然后原因是我真的不知道这件事情怎么玩的然后我想去看一看然后做的也很痛苦而且伦敦的冬天那段时间是冬天好冷伦敦冬天也很冷我还记得非常清楚我要从伦敦的地铁下来工作到很晚晚上可能十点十一点然后凛冽的寒风然后夹杂着雨打到我脸上然后衣服帽子的挡都挡不住一步一步回到我那个窝居的小屋对吧
[66:28]临时的宿舍其实还是还是蛮辛苦的对然后但那段时间对我的我觉得我觉得启发也很大第一让我觉得我好像不是很喜欢做IL相关的research或者说我不喜欢做机器人相关的research机器人因为其实当初IL其实就是在在在这种虚拟的环境里面模拟环境里面去做一些embody agent的task对然后然后但是我觉得我更多的收获其实是来源于我对demand这样一个组织的认知是在那个时候build起来的我觉得哇这个地方好不一样啊跟我去的所有地方都不同对他们会有一个很不一样的管理模式比如说他们会有很多这些PM去协调不同的research的team之间的这种运作他们会有这种不同的working group就大家还是会有很多bottom up的idea自下而上的这种idea但是他们又有一种top down的管理的模式
[67:31]并且他也是一个层级化的管理模式一开始纯粹探索性质的这些这些idea然后大家可以有自己的一个小group去去去做一些early study然后立刻就会进入一些如果一旦一个东西成型立刻就会进入一个更加top down更有组织性的这样一个管理的模式下我觉得这件事情非常非常有趣然后现在回想起来对吧我我之前在推特上也跟大家说就是Demis跟很多intern也都见面然后大家组织了一个meeting然后Demis就跟大家说或者说其实是有人问他这个问题就是说D-Mind的使命到底是什么这个公司你们到底最后想成为一个什么样的公司Demis的回答是D-Mind最后会成为一个能拿multiple noble prices的公司能获得多个这个要要要划重点多个诺贝尔奖的公司我觉得我们当初都说哇这个也太ambitious啊是不是有点天方夜谭
[68:33]只是在做AI而已但现在我们看到他们已经至少实现了一步我觉得我觉得我觉得真的是非常非常敬佩其实Afterfall的这个这个整个的team就是在我实习的那个过程中逐渐逐渐衍生起来的对我我其实能看到哪些人在做这些事情然后一开始也也有一些intern在参与这个过程然后一步一步他是怎么样从一个一个探索性的这样一个idea逐渐变成一个由组织讲究execution一步一步能够去达到最后彻底改变这样世界的这样一个项目的这样一个过程组织问题我们稍后会着重的来聊我在想你是不是实际太多所以你后面没有best paper了我觉得有可能是这样或者说我觉得我做的东西啊可能太多太杂实习是从博几开始的就是第一年开始哦第一年开始
[69:33]所以这两个一直是交扎交织的一直是交织的对所以所以我觉得你说的很对其实我的时间线其实是被打乱的对吧确实会失去一些注意力但我觉得这也是一个我自己的设计所以说回回来就是说怎么把这些事情串起来呢我觉得我的博士的论文题目是啊这个deep representationlearningwith induced structural priors大概就是说一些结构化的鲜艳嗯用用这些鲜艳来指导我们怎样能学到一个更好的深度学习的表征嗯然后这件事情again已经过了很多很多年了但我我发现我现在在做的事情还是这件事然后并且这个11月还是12月开会的时候然后然后然后有一个workshop他们这个workshop title就是说representation learning withstructural prior大概就是用结构化鲜艳和表生大概类似这样的一个topic
[70:35]然后我再给了一个talk过去然后我在我talk到最后我就说其实过去的12年你们这个workshop的topic虽然现在还是frontier我们我们在讨论它的时候有了一些不同的意义但是这个也是我当初一开始想要study的问题也是我现在觉得还还是没有完全解决的问题对所以一方面我觉得我的这个读phd期间时间线有点支离破碎啊原因是我在不同的地方在做不同的事情但另一方面这也是如果你想要去涉及的东西是表征学习这个topic的话这也是不可避免的原因是它就像种一棵树一样你的表征其实是你这个树的树根这个树长长起来之后它得要有不同的枝芽对吧这每一枝其实就是一个不同的我们叫做downstream的这种application就是一个新的应用所以我做过图像识别然后图像分割边缘检测
[71:36]视频识别动作识别对吧然后包括甚至后期有一些这种embodied RL相关的task在所有做这些事情的时候我看到的这些问题它们都是这些树枝上的一个分叉它们不是根我觉得有可能你说对啊我没考虑过这个问题我会不会有更多best paper但我希望还是能够更多种这棵树然后我希望能够扎更深的根而不是去在这个branches上面走得更远对然后我觉得again我觉得这件事情是deep learning的核心就是我们说这个表征学习representation learning这件事情基本等价于deep learning给大家解释一下什么是表征学习好问题对这件事情我觉得之所以我很喜欢说我是一个做表征学习的人是因为这件事情还是蛮难定义的从数学上来讲你可以认为表征学习就是说你有一个data对吧X
[72:36]然后你现在要把它map到一个一个啊一个一个space去然后现在这个space可能会具有一些性质啊这些性质可能这些好的性质可能会更容易让你在下游的任务上面取得更好的结果然后所以你要学的这个从从从初始的这种数据再到这个具有良好良好性质的这个空间的映射的这个函数这就是所谓的表征学习然后这个函数也不是只是一个简单的映射他有可能是一个好啊一个层级化的一个映射然后我们现在当然这件事情可以用不同的方式实现那现在呃主流的实现的方式那就是用一个非线性的神经网络来实现这个这个这个这个函数对所以我觉得这是一个定义但我刚说我会我会愿意呃说我自己是做一个representation learning的人是因为我觉得这是一个永恒的title就因为这个领域发展太快了
[73:38]很多时候我们做很多的事情包括我我举一个例子吧这个可能是一个非常非常非常native example就是以前其实呃在我在我什么时候可能phd刚毕业的时候有个东西非常非常火叫nas叫neural architecture search就是叫做呃神经架构这个这个检索吧我不知道应该怎么翻译就是neural architecture search嗯呃这个领域里面很多的共识就是说这样一个topic耽误了整个领域大概两年的时间这是一个错误的方向大家在这个错误的方向上面发了几千篇论文但最后没有任何的收获嗯然后所以为什么我说表征学习是一个很好的这样一个title呢或者说我愿意跟所有人说我是一个做表征学习的人是因为这是一个fundamental的问题啊如果你现在说我是做一个neural architecture search的人那那这个这件事情就很麻烦有可能过了两年之后
[74:39]你就立刻得要改行啊你就要把自己网站上说我的research方向是neural architecture search把这句话删掉替换成下一个更fancy或者说更不一样的一个一个term它不是一个永恒的主题它不是一个永恒的主题representation是一个永恒的主题是一个最fundamental的主题也是一个还没有被解决的主题嗯所以啊phd可能讲的有点长了但是但还要说就是说我觉得phd的时候其实也也遭受了更多的挫折啊包括比如说我们一开始deeply surprised ness这个论文这件事情也是是一开始我们投了new apps得了一个挺高的分数啊大概是886还是怎么样887的一个分数啊最后还是被拒稿了啊然后这件事情对我来说也是一个打击嗯我发现哇原来发表一篇论文这么难即使得到了很好的评价但还是因为一些很离谱的原因
[75:40]然后被拒稿离谱是什么离谱原因是因为我们当初我们的里面有一个数学公式啊他应该是平方没有一个type of把这个平方像落在哪儿没有写纯粹是一个type非常容易fix但pc说啊就是这种program chair就是负责这种这种会议的人就会说啊这件事情导致你的数学上不成立是一个错误啊然后这件事情rebuttal的时候就是说你在反驳review的时候review没有看到所以啊我们很不幸你没有办法被被fix啊那现在我们只能拒稿啊现在看起来已经不可想象了就是因为第一现在可能大家也不会去检查论文里的公式了第二我觉得大家也相对来说更加宽容了在那个时候其实大家会非常非常抠这些细节对啊但没关系反正我们就投了这个AI stats另外一个一个会议啊机器学习的会议然后这个论文去年啊得了他们的这个test of time award就是一个时间检验奖
[76:42]所以我觉得那么久对啊因为因为所有的时间检验奖都是说你要评价十年以后的在十年以后的这个节点评价十年前所有发表的paper里面哪一哪一篇论文影响力最大对这个领域影响最大所以我觉得嗯我突然又释怀了我觉得啊确实做研究是一个长期的过程然后所以这也是为什么我跟很多学生也会说这件事情然后我觉得啊其实就是不要在乎啊每一个时刻你的成败啊我觉得或者说从数学角度来描述的话就是说不要在乎一个point estimate就你不要在这个时间轴上在每一个点估计你做的好还是不好因为所有的评价他知道到最后都会是一个积分你需要时间的积累到最后你看所有你之前做过的所有的事情累加到一起他决定了你是不是一个好的researcher
[77:44]但是在那一刻你还是会很沮丧的很沮丧对非常非常沮丧你在那一刻很难想到十年后的事情很难想到十年后的事情你在博士毕业的时候对自己的人生是抱着什么样的期待啊因为你也发了一些很好的论文你也是有过五次实习经历了你觉得你自己是应该往科研方向走还是往产业走你有做这个选择吗我觉得那时候一直都不是很自信那时候我都没有去想过找教职因为我觉得我不配啊你为什么在每一刻都觉得我不配啊我觉得现在好一点但是可能这个有点夸张了也没有觉得真的不配吧但只是觉得比起我的那些peer他们在这个既定的轨道上面像我说的一步一步通向这个很好的教职这条路线我觉得我不在这条路线上或者说你刚说的这件事情也很有道理如果你最后真的路线是要找一个教职的话至少在当初那个时间点上你不应该去五个地方做五个实习
[78:45]做五个不同的项目这件事情非常不利于这件事情你必须找教职因为如果你想找教职的话你留在何凯明的那个团队里面你可能会能发更多的paper然后你有更多的结果在那个时间段他可能能够更加顺畅通往一个确定的目的对我不知道是不是一个确定目的我真的我觉得还是挺玄学的所有这些决策都是说我只考虑的事情是我应该去做哪里跟我做我最想做的事情然后最好是跟我最想要共事的人一起共事我觉得其实这个想法其实非常非常单纯所以在当初找工作也是其实我就是也四处都在找吧各个大厂其实也有不少offer然后我之前也讲过我当初面试open eye的经历其实还是蛮酷的反正在一个小黑屋里面关了五六个小时做一道题目出来的时候天都黑了对我觉得我对那个体验也比较奇妙感觉也比较奇妙但那时候其实我心里面谁是面试官在open eye
[79:45]张舒曼对我看到你在知乎上写过这个经历对吧都是在推特上面在apps上面对知乎转了那就是是的他当初的这个面试题是一张A4纸他是手写的铅笔手写的一行一行的这个面试题我觉得这件事情对我也是一个很大的触动我觉得太有意思了这个地方很有意思然后最后其实对当然也有offer了但是最后没有去open eye没有去open eye这就是这个时间线开始对量子力学开始发生了一些变化那时候是二零二零一八年好早所以如果我去open eye现在也是LLM的一员maybe我觉得可能不会但我不知道我不知道会发生什么但那时候其实想都没想那时候我就想去fair如果fair给我这个offer我一定会去你想去fair的原因是凯明对凯明Peter Ross Gershick就是所谓的当初的计算机视觉的三驾马车
[80:47]他们都不是那种很很强的计算机视觉的三驾马车他们都不是那种很很强的计算机视觉的三驾马车他们都不是那种很很强的计算机视觉的三驾马车他们都不是那种很很senior的比如说大学的教授或者怎么样都是这种中青年吧大概的研究员但就是最顶尖的三个人对他们在那然后他们做的研究就是最最最顶尖的计算机视觉研究所以对我来说没有什么好选择所以当初还挺好玩的就是这个这个伊利亚给我打电话就我我什么都没说我就把open eye拒了他们发给我一个offer然后说我不去抱歉伊利亚打电话说什么非常生气然后他问我说你为什么你为什么不讨论一下就把这个offer拒了是我们给的钱不够吗多少钱记不太清了其实非常非常低可能就可能几十万吧当初的那个pay都是就是一个顶尖的phd的学生在2008年能拿到的这个工资大概是可能40到50万左右对美金然后现在已经至少翻了三倍但是anyway然后那个时候open eye也是这个level没有什么问题对然后但是伊利亚
[81:47]他很生气然后我也我也只能搪塞两句然后跟他说不能去然后但但那时候确实生气会说什么呢呃其实也没有就只是语气非常严厉吧的他为什么要决定打这个电话我不知道那说明他确实对招人很用心吗他没有被拒绝过呃我不觉得是这样在2018年的时候我觉得他应该经常被拒绝嗯因为那时候的fair呃不止在为人我觉得在很多方面对于最顶尖的phd毕业生来说我觉得都是一个比opi更有确定性更更open然后更像一个学术环境的这样一个一个一个机构啊我觉得至少在那个时间点上我身边的所有人如果有这样的选择的话啊啊除非他们是确实要做一些opi已经在做的很擅长的这些事情嗯我觉得他大家还是会倾向于fair的你是很顺畅的拿到了fair的offer吗呃也没有那么顺畅了啊我觉得也也挺对一路都很都很都很坎坷
[82:49]你当时拒绝了opi是因为你拿到offer的吗是的是的是的对但在fair的时候你像我给了一个talk这个talk啊我当初也没有任何经验我觉得所有人在我那个阶段好像找工作都蛮有经验的就我啥也不知道然后给了一个talk本来呃allocate的时间是一个小时那正常大家应该是讲45分钟到50分钟然后有10分钟提问啊然后我讲了半个小时讲完了然后大家这个面面相去不知道该怎么办当然当然当然我觉得会有很多下面的researcher给了给了我很大的面子然后提了很多的问题所以把时间三泡撑到了45分钟吧啊然后不至于那么尴尬然后后来坎宁跟我讲说大家觉得这件事情第一很不常规啊怎么能这么快就讲完呢第二我觉得要不以后面试都这样算了啊半小时讲个talk也挺好的省省大家的时间所以所以有很多时候啊所以所以有很多时候啊我觉得我做的这些事情都没有做到尽善尽美
[83:50]嗯你为什么那么快讲完了你为什么不遵守他的规则我不知道有这个规则哦没有读呃我不知道有这个规则你想现在比如因为因为这个规则其实是一个drop talk的规则就是没有没有没有人告诉我这个规则对大家说有这么一个11点开始有一个talk但其实这是一个既定的规则因为在学术界的面试就是这样啊然后fair在当初其实是一个其实是一个学术学术机构嗯他其实是一个大学他的运作的模式其实就是pi带着一些小年轻对吧不管是intern也好还是一些新入职的同学们也好嗯然后一起做事情并且当初我加入fair的时候我可能是啊我不知道是前几个可能这个陈新雷可能是第一个但我可能是第二个就是这种fresh phd graduate能够加入fair一开始他们不招这种new phd graduate的如果是只是一个phd毕业生他们他们不愿意要要他们只会招这些像凯明一样啊
[84:51]已经做的很不错的这种这种这种这种研究员嗯对所以我也是比较幸运吧对啊我觉得我觉得fair对确实是那个时候的圣殿了嗯然后所以我去我觉得我也没有纠结太多的太多其他的可能性嗯然后伊利亚这件事情的再多插一句呃我一共就跟伊利亚打过两次电话这是第一次啊第二次可以之后再聊也是他是24年7月的时候他SSI刚成立然后他跟我发邮件说愿不愿意来一起工作你又拒绝了他呃对这次为什么呢这次是因为我刚在NYU开始我的工作然后嗯我就好几点吧我跟大家聊的时候呃我们主要讨论的topic这次不是工资什么的都没有聊这些事情主要讨论问题是怎么样给未来的人工智能给予爱的能力给予爱的能力嗯讨论哲学
[85:52]呃当然我最后问问他的一句话我说你对多莫泰这件事情怎么看你对计算机视觉这件事情或者你对general的这种感知的模型你应该你你怎么看啊伊利亚的说法是他觉得这件事情已经解决的很不错了好那所以我觉得可能呃SSI有自己的基于预言的呃这样一个一个一个路线吧然后这条路线至少在现在为止不是我想要去去设计的路线这是你们底层的分歧就是到底是LLM还是视觉对我觉得之后可以再聊这个细聊但是我并不觉得这是一个分歧嗯我觉得我觉得这是一个一个有机体然后大家只是在不同的地方在不同的时间在做不同的事情而已我一直喜欢说一句话是兄弟爬山各自努力啊大家在各个地方做各自的事情我觉得没有任何问题啊不是要拼的你死我活的状态啊
[86:53]LM跟我想做的事情不冲突并且没有LM最近的这些发展可能也没有现在计算机视觉现在的这种状态嗯你们那个话题怎么赋予人工智能爱的能力有结论吗结论就是这件事情很重要为什么呀因为如果没有的话我们面面面临的是一个非常不确定非常危险的未来但是有爱的同时一定就有恨就他他是一体两面他不可能只有爱当他学会了爱的时候他一定会他一定知道他的反面是什么对我我完全同意你说的嗯这件事情就上升到哲学命题了嗯但我觉得霍若香反问一句吧就是为什么大家会对自己的孩子会对人这么信任然后对AI这个新的这样的一个智能的实体会这么担心或者恐惧呢啊我就这一面
[87:53]我我没有答案对但我觉得会有技术上的一些可以去把控的地方就我们可以通过技术的手段让AI能在未来变得更加可信变得更加安全变得更加controlable嗯可以控制然后其实这件事情侧面也是为什么要做要做世界模型啊呵呵他为什么想要找你啊啊不知道可能可能他reach out了一千个人一万个人吧我猜对我们那天在一起等餐厅排队的时候其实我们在纽约的街头一起走了走我们的话题很自然的就延展到了那些对你非常重要影响过你的人嗯就是刚才在你的分享里面其实人这个因素占据你的很多选择的非常大的比重为什么人对你来很重要而且你的那个自己的个人简介里面也清楚的写出来了哪些合作者对你来说很重要
[88:53]这个非常少见为什么人对你来说这么关键这件事情少见吧我觉得一点也不少见我觉得我觉得这这这就是一个在学术圈里面大家的一个一个一个行为的模式吧我觉得大家会有有这种组织起来这种social network嗯然后这些人决定了你的认知啊因为他们可能是你的学生他们可能是你的老师对吧但是不是说老师就一定教导学生有时候也是学生反过来教导老师的啊所有这些事情都能成立所以它是一个一个巨大的一个graph然后人与人之间全都会被联系到一起嗯然后我觉得这也是为什么research或者science这件事情特别奇妙的一点嗯因为我觉得很多时候人与人的这种这种这种彼此的信任彼此的欣赏啊彼此的这种这种感受吧我觉得不是通通过比如大家非要生活在一起然后做朋友这样建立起来的很多时候其实是通过scientific discovery这种这种这种research的部分建立起来的人与人的关系啊
[90:00]我觉得这件事情其实是非常有意思的比如说对我很深影响的人那我可能了解他们的个人当然我也会尝试去了解他们的个人对吧但这个对我来说不重要我似乎在透过他们的论文了解他们的想法然后我觉得这才是research的意义我觉得research的意义不是为了发论文我不认为发论文是这件事情的一个目的完全不是这样目的应该是目的是什么呢是对人的游历吗我觉得凯明跟我说这个目的是其实它的本质的意思是要把这个把knowledge share出去就是你发的论文的目的不是给别人看的是为了让别人看到这个论文之后别人有事情做就是你发表一篇论文别人understand了一些其中内容
[91:01]然后大家会觉得我自己的视野被打开了就是对别人有帮助对别人有帮助能够inspire别人或者说能够启蒙别人这个是research的目的我觉得这是research的目的或者说一个更浪漫的说法其实是说这句话是汉娜·阿伦特说的然后她说我不在乎什么impact我不在乎影响力这件事因为其实在research中在四字圈子里面大家会说我们发paper的目的是创造某种impact对吧其实在我字典里面我其实有点对impact这个词是有抵触的抵触有一点抵触为什么呀你抵触它的是什么again就是说这个阿伦特他说的说法是说他说他觉得impact这个词是一个过于aggressive过为男性化的一个词就对他来说他做这些事情的目的不是创造impact而是为了理解本身
[92:01]他觉得如果能够理解到一个事情这件事情的感觉是很奇妙的如果你能把你理解到的东西写下来不管是一篇文章一篇论文也好传播出去那你就能够有可能让这世界上更多的人对这样的一个问题有跟你一样的这种理解然后这件事情会一步一步的传导下去形成一个很大程度的某种共鸣然后这个阿伦特的说法是他会在这之中找到一个家人的感觉他会觉得自己理解了一件事情告诉别人让别人能够被理解说明这些人也一定程度上理解了我但我觉得人作为这个社会上的生物是需要被理解的他把影响力这个词用了一种非常柔软的方式表达了出来是在谋求理解我觉得你赞同这个说法
[93:01]我觉得很赞同他因为我觉得对我觉得创造impact这件事情他特别以我为中心我要创造impact对以我为中心并且是对你说你说非常对我要创造这个impact我要改变这个世界但这个世界的人同意我这样改变他吗或者说这个世界上很多的灾难其实是因为大家要创造impact要去改造这个世界所带来的对我觉得这件事情我会倾向于同意这种更柔软的表述我觉得如果能让在这个世界上的所有的人因为我们做的研究能够对问题多了一层新的认识多了一层新的了解那这个地球上的智能总量就会被提上去但地球上的智能总量提升这件事情永远不是一件错误的事它永远是一个对世界来说有利的事
[94:03]不管是impact也好还是被更多的人理解也好你希望被更多的人认识和记住吗你对这种fame是有需求的吗我当然没有这个需求了你没有这个需求但我觉得我没有这个需求真的吗或者说我趁在我现在这个角度我其实是某种虚假的fame的一个受害者我其实是某种虚假的fame的一个受害者我其实是某种虚假的fame的一个受害者原因是现在大家会把我们的一些论文放到小红书上去议论然后其实这件事情没有一个或者说大家说所谓什么三大会然后要宣传工作我从来没有一次要求过任何一家这样的媒体去做这样的宣传然后我跟我的学生说你们千万不要去什么去小红书去什么知乎去宣传自己的工作你可以去解释你的工作你可以去评论你的工作没有问题不要去宣传自己的工作为什么在X上是可以的呢
[95:03]我觉得X上面更多的还是还是看怎么叫做宣传吧我觉得我更focus的东西还是说把这件事情稍微凝练总结然后告诉大家是怎么回事更有点像吸引大家去看我的工作我觉得这件事情没有问题但我说的宣传更像是你说的fame这件事情因为我真的很不能接受的事情是大家想要去宣传自己的工作现在会说某某某团队发表了什么什么工作会强化那个人会强化这个人某个人的团队会强化这个人对如果有小编们听到这件事情的话希望大家以后能够不去说这件事不能写在你团队上不要把我的照片放在上面不要把我的名字放在上面我们需要更加鼓励年轻人真正做出这个工作的人让他们有更多的visibility对吧那他也会做到他也可能会觉得你是一座对如果我是一座的工作没问题但我不是一座我只是这个团队的负责人
[96:05]然后很多这些工作都是学生做的那应该叫什么呢不叫现在你团队就事论事就好讲这件事情解决了什么问题然后它为什么重要我觉得就够你很讨厌被别人拿出来当靶子是吗对啊因为我觉得这件事情会增加增加很多的风险吧我觉得那你来讲讲那些影响过你的人吧其实刚才我们已经讲过几个人了凯明 涂教授还有吗是我觉得对吧这个是在是在Fair那其实可以顺着Fair往下讲那就是说Fair结束之后那我就来NYU了我觉得这又是一个Decision making pointFair待了四年待了四年整对OK是的也是起起伏伏对我刚刚说我很多去的地方其实都跟这个地方共同成长
[97:05]可能Fair是一个例外我去的时候是它的顶点是高点可能是高点对然后现在对也很可惜吧现在在那里发生的事情但我觉得也对我因为我跳船跳的比较早所以我也不是在它谷底的时候才离开对我我觉得我也是看到了一些迹象对OK然后但是对然后然后我觉得如果如果说影响我的人的话那在这个过程中去NYU的时候我觉得这又是一个蛮玄学的一个决策的过程对吧然后那个时候其实决定去纽约我刚刚其实也说了是因为可能我会比较喜欢这个城市然后但我觉得另外一个很重要的事情也是因为Yang在这对Yang Kun在这嗯对他也对我非常感兴趣嗯为什么他在这儿你愿意去你们在Fair也是共事过呃他会他经常会说他有recruit我就是招招了我三次对吧
[98:09]然后第一次是在Fair啊但那时候是因为他是这个Fair的总的负责人他是这个Fair的director啊我没有跟他直接的共事对但也当然也受到了他的影响或者长期以来有交流吗有交流也聊过对但没有直接的合作嗯然后去NYU是第二次啊第三次我们可以之后再聊嗯嗯然后然后在NYU这段经历也是我觉得我觉得为什么他在这非常重要也是因为我觉得他是一个非常有vision的这样一个人所以对我觉得我觉得还是很多很直觉的这种决定吧比如说NYU的教学楼我们叫做这个scientific data science呃是就是就是所谓的这种数据科学中心啊这件事情其实是样前头在过去十几年之前就就设立了这样一个一个组织对他独立于啊比如说传统的计算机系或者数学系之外他是一个新的这样一个department
[99:12]所以我们有一栋新楼然后第一次我踏入这个楼的时候我就觉得感觉很好啊因为呃完全都是玻璃门对之后有空的话可以带你过去看看他他都是玻璃门啊呃所有东西都非常非常open啊然后学生有点像公司但是然后配色又很好对我刚刚一直说我是一个视觉动物对就这个这个里面有这种暖色调的然后橙色的这样一个floor啊然后有各种沙发然后大家呃虽然虽然很混乱有各种各样的机器人在地地上跑来跑去然后有各各种各样的学生在这个沙发那个沙发然后坐着学习啊然后没有任何隐私毫无隐私可可言所有的教授的办公室的玻璃门啊看得清清楚楚里面里面发生的事情嗯对然后但我觉得哇这个很有趣这个环境很有趣对啊现在其实越来越越多的美国的学校开始有这样的effort就是说我们希望有一个嗯这种呃interdisciplinary
[100:13]就是跨学科的这种中心对吧通常来讲就是说这种ai的这这种中心啊然后然后然后通过他来吸引人才通过他来把不同的院系组织到一起因为ai确实承担了一个这种中间层的这样一个一个一个一个身份和和位置连接大家连接大家都都需要对嗯啊不管你是做科学的对吧做物理做化学然后做数学做统计商学院啊然后包括当然计算机科学啊我觉得ai是一个很好的一个中继的什么样一个中间的节点嗯对但一样的远见在于他啊十几年前就把这件事情已经establish下了嗯对所以我觉得我觉得他这个啊是蛮visionary的一个人嗯对然后所以anyou在ai的布局上面也很好所以其实呃again我觉得计算机系不是他的这个学校的强项但是他有很多呃ai的人才储备对他汇集了很多很厉害很厉害的ai的这种这种faculty
[101:20]嗯嗯乐坤是你选择nyu的一个原因这是我觉得有很多很多原因他是其中之一因为他需要面试我然后他需要最后拍板对啊或者说是他选择了我嗯重要的人还有其他人吗嗯我觉得还有啊比如说在nyu的这个时间然后我还跟很多其他的老师也有合作然后对我影响我觉得很大的一个人也是可能飞飞老师吧对啊我觉得李飞老师呃嗯他写的那本书大家一定要看一看对就是他的自传嗯啊然后我也读过但是我觉得跟他深入交流下来我觉得我的收获又更大对然后或者说有时候我会我会跟他说我遇到我面临的这个困境和challenge然后飞飞老师会很语重心长的告诉我他过去的一些故事嗯
[102:21]然后这些事情其实对我是一个极大的安慰比如说什么样的故事啊嗯具体的事情可能可能就不方便讲了但是总之是他一路成长起来其实也不是一帆风顺嗯他也是有有有需要嗯踏遍很多的荆棘然后一步一步克服很多的障碍然后到现在站在这种世界的舞台上啊变成一个华人骄傲或者说变成整个这种research领域计算机视觉的一个北极星啊让大家就是他能够看到嗯他他他他他想的想的事情然后能够啊在某种意义上制定一些新的这种路线吧我觉得这件事情嗯对他对我的影响都非常非常大嗯然后我觉得飞飞老师最厉害的点在于他是一个能够定义问题的人嗯就这件事情其实也不是一个很很很直观的事情就是说其实大家说
[103:25]这个飞飞老师呃最厉害的这个这个成就就是build这个image net这个dataset对吧但其实事实上这个不只是一个dataset这个不只是一个数据集啊大家可能很难想象可能在过去这个时间点对吧然后啊比如2012年或者2011年的时候图像分类不是一个明确的问题啊就是把这个问题定义清楚远比build这样一个数据集要强得多得多要要重要的多得多的嗯嗯然后我觉得飞老师就是说set了这个agenda把这个问题定义清楚使得接下来deep learning可以有一个playground有这样一个平台啊可以去施展拳脚我觉得这件事情是是是他最厉害的地方也是我一直想学习的地方嗯对所以我跟他做了有两篇工作一篇是thinking space然后这篇论文主要也是在涉及到这种多么态的圆模型里面怎么样去解决更好的解决这种啊这种空间智能的问题然后最近我们有一篇paper叫can be an ass然后这个论文也是涉及到事情是说在视频里面啊我们怎么样去定义问题到底哪些问题才是重要的对我觉得我觉得这一部分跟他的合作也帮我拓展了我research的边界
[104:48]飞飞老师是怎么跟你熟识的啊都是很机缘巧合的机会吧他有有一次来纽约出差然后我们就一起吃了吃饭然后我们讲讲跟我讲了很多很多东西对然后后来他经常会来纽约然后因为他也在创业嘛啊然后我们会经常一起聚一聚然后聊一聊对大概是这样然后平时我们会在research上面会有一些meeting嗯我有一个好奇我想可能也是很多人对你的好奇就是你是怎么样从一个非常年轻的开始做学术的研究者然后慢慢的能够和这些AI业内赫赫有名的人走到一起并且站到一起的也就是说你是怎么走进AI的核心内我还是不觉得我在AI的核心或者走进AI的核心吧嗯因为你刚才说这些人肯定很多人都很想跟他们合作是吗
[105:49]当然是了对我觉得而且你看你们都是一些一些机缘巧合可能凯明是刚过去你作为intern让他打开了自己然后飞飞老师是你们也就是吃了一顿饭你是怎么让他们打开自己的呢我觉得这件事情很难刻意的做到或者说这件事情也有点玄学我会觉得你可以教他某种吸引力法则或者说你可以认为大家想法一致的人最终都会聚聚聚合在一起虽然你可能无数的小西但最后可能都会汇聚到一条河流上我觉得比如说我上书列举的所有的人他都至少是作为认的啊或者说我即使包括样他可以认为是做山上也但他出发点对吧也是做这种数字的识别这件事情也是一个视觉的问题对我觉得大家的这个根基还是非常非常非常非常吻合的
[106:53]嗯所以我觉得我真的没有刻意让这件事情发生对然后很多或者说我觉得也不需要很刻意的那些事情发生吧大家只是基于这些research的问题然后对这些问题的理解啊然后一起合作对嗯我就会这么认为认定这个问题就是从外部看嗯我觉得你是一个很有目标然后很有逻辑的人但是刚才通过我们聊我发现你是一个选择上还蛮无序的人对吧对我觉得我觉得有一点无序啊但我觉得这也是一个所谓的by design的过程就我觉得我选择这样的无序啊我我觉得呀我觉得我觉得用这个这个很老套的说法就是follow your heart对吧但我觉得其实很多时候对没办法就或者说我的很多选择没办法真的优化一个一个结果啊我觉得这是无序是一个适应的来人对那在这个这么无序的选择之中你能把你的这个所有的研究的历程串成一条线啊
[107:55]刚才其实我们已经讲了几个工作了是的是的是的对我觉得那我们可以一点点去讲吧我觉得我觉得确实一个好处是我也没那么多paper所以也许可以可以比较容易的去串一串啊然后我觉得确实呃我觉得不能说是这个草舌灰线吧但也确实有一条呃线在背后对直到是我一直做这件事情或者说其实说这些论文呃之前我想说其实计算机视觉发展了这么长时间对吧我有很多朋友其实大家开始慢慢去探索新的方向对吧比如说去做一些呃robotics对吧然后做三地的视觉啊我其实也也在尝试向外扩展边界但回过头来会发现这条主线上对吧我觉得这条主线啊这条主线对我来说就是表征学习这件事情上啊有太多的问题没有解决对所以我希望停留在这条主线上往前拓展我们所做的事情
[108:56]所以我觉得这一切的起点可能如果往前数的话当然是涉及到deep learning涉及到deep neural network这些architecture的design我觉得这一部分当然跟你的表征学习是有关的然后这也是我觉得在过去大家努力的一个方向吧也不不只是我对吧然后所有的人大家都在做表征学习我们在做这件事情怎么样去design一个更好的architecture使得我们能够去学到更好的表征使得我们能去解决更好的解决问题对吧然后再到后面其实我觉得我觉得事情就会发生一些变化你就发现其实architecture本身不一定是最重要的它一定很重要但它不一定是最重要或者说它不能不是事情的全部所以至少有好几件不同的事情会交织在一起对吧architecture是一个事情就是你的架构是一回事然后你的数据也很重要然后还有就是你的objective你的目标也很重要对吧
[109:56]我觉得架构决定了你用什么来训练我们可以想象这件事情是你有一个巨大的引擎然后那你可能引擎的这个硬件其实就是一个neonatural的架构但是你只有这样一个引擎的架构其实是没有用的你没有油你没办法发动它对吧所以有数据层面跟有这种objective层面这种目标函数层面的这种考虑然后所以我之后的这些research其实也是按这条主线对表征学习的主线围绕着架构数据objective往前走然后那其实在fair的过程中我觉得fair这个正式工作futime工作在这个工作的这个过程中我觉得一个核心是我跟凯明一起然后凯明在立的一些这种自监督学习的这样的工作对
[110:57]然后其实again现在大家会说这个scaling是一个已经是一个buzzword就everybody is talking about scaling对吧但其实第一个人真正有人跟我说我们要做scalable这样的model就我们需要把模型做的大大大这是凯明的原话好大大对是凯明告诉我的哪一年告诉你呢就是大概可能18年19年这个时间对然后所以他从一开始对这件事情的认定就是说我们一定需要把模型变得更大把数据变得更大这样就能够得到一个就能推演到一个更好的结果我觉得凯明很早很早之前就有这样的一个vision然后所以我们也在这条路上呢在这条路上呢在这条路上呢在这条路上有一些努力吧然后所以我觉得一开始大家讨论资金能学习包括杨洛空啊他是一个一个一个big advocate就是说他是他是非常在乎这个资源都学习
[111:59]他有这个经典的这个蛋糕的这个analogy这个这个比喻对吧就是底层是你的蛋糕的这个这个这个body这部分必须是soft suprise那里在上面你可以有一个super ice learning对吧这一部分是他的icing on the cake就是你蛋糕的这个body蛋糕上的这些这些这些奶油吧啊然后再往上有一个reinforcement learning他只是cherry on top他只是上最上面的一点樱桃嗯啊这个蛋糕上面的每一层其实都很重要但是他没有主次之分嗯如果你没有蛋糕的这个底座啊你是没办法只靠着上面的一个cherry能够通向这个智能的嗯对所以因为我们在fair因为我们做vision所以其实我们很早就在这个底座呢在关注这件事情但这一部分research进程是这样的就是说大概在15年16年的时候大家已经开始知道自监督学习其实是Vision的一个未来所以那时候呃
[113:00]大家会design就设计各种各样的我们叫做pretext task啊或者说它是一种代理的这种objective代理的目标啊就是一些代理任务吧就是说呃什么是自监督学习呢就是说我现在没有一个label我直接给你对吧不像ImageNet一样我有一千个classes那我可以直接去训练一个supervised classifier然后通过这种方式拿到这个representation在过去的时代其实大家做的都是这件事嗯通过一千个class的labelby the way这一千个class里面有两两百个狗的不同的这个种类啊啊即使这样这是这是为什么为什么ImageNet这么强对吧即使这样的分布它还是能让啊我们的神经网络学到什么样的效果啊学到很好的表证我觉得这件事情非常非常厉害但是大家也能看到这件事情的局限性一旦你所有的事情都只是supervised learning很多东西你是没办法去刻画的嗯啊因为他学到的东西比如我们现在坐在这里我们看有这些椅子
[114:00]对吧然后我们现在有大量的这些图片啊有不同的椅子啊有些椅子可能比较正常是在我们这种studio里的椅子有可能是在家里的椅子有可能是一些这种设计师的椅子的吧或者说是一个avocado chair一个长得像牛油果的椅子那对于监督学习来说你需要把所有的这一切映射到一个label这个label就叫做椅子啊所以你的network其实要学的这个映射啊其实是非常非常困难的对所以他是无穷的映射他是无穷的映射啊所以所以他只能要么去memorize要么去记忆背诵一下你见过的所有的椅子你背给他所有的椅子要么就啊这个通过一些我们叫做spirits correlation就是一些假的一些相关性来告诉你是一个椅子比如说他也许没有看这把椅子但是看的是椅子背后的背景啊然后或者说他觉得啊
[115:02]所有的椅子都会在一个桌子旁边所以他基于这个来有一个决策的分界然后说哎这是一把椅子但这件事情不是我们想要的我们想要做的事情是从这种非常diverse的real knowledge里面real observation里面去能够有某种common sense有某种某种这种这种这种这种直觉嗯直觉对或者说某种常理对所以这是一开始大家为什么想要做呃所谓的soft suplexing for unsupervised learning一个常见的过去的误解是因为呃是是说哎我们要做unsupervised learning是因为给这些数据打标签这件事情太难了太贵了我们需要雇人需要去打label啊啊花钱花时间我们不想这样做但只是这只是其中的一个很小很小的问题大的问题是在做计算机视觉的人看来啊很早之前大家都知道啊只通过这条路径是没办法给予AI系统这种common sense的嗯所以1516年的时候大家非常非常有创造力
[116:04]那段时间其实还是一个蛮有创造力的时代大家会设计出来各种各样乱七八糟的人物啊这些任务比如说你把一张图啊转个90度啊或者转180度或者转270度你不给这些图一个标签但因为你设计了你你设计了怎么转这些图对吧然后这些图啊会这些图以及他所旋转的角度可以形成一个valid pretext task你就能够去预测这些被转过去的图到底转了多少度这就变成了一个所谓的一个代理的任务嗯类似的代理的任务还有包括给一张图然后我们把它变成一个灰度的图把它的颜色全去掉但是我要通过我一个神经网络去重构我原来这个颜色相当于从一个灰度图怎么去predict啊怎么去预测每一个object的颜色到底应该是怎么样嗯然后还有还有类似的例子啊这个数不胜数比如说还有另外一个最后一个例子啊
[117:04]再再举一个例子说这个所谓的contact encoder就是说我现在把图中间挖掉一块把它变白我现在怎么样去训练一个神经网络然后去把这一部分的图把这一部分的这个这个cone给它填进去所有这些protextask的依据都是说我们现在觉得人其实这件事情是可以做的人之所以能做这件事情人之所以知道哎你这张图片到底是转了90度还是180度你这张图片上面的一只蝴蝶啊一个房屋它得有什么颜色或者你可以去预测中间缺失一块信息这些事情是因为人有基于对于这个物理世界的模式的某种认知他有这个common sense嗯所以他就能够去猜出来这些被cropped的这些信号被已经损失到的信号啊应该以什么样的方式被重构出来被遮掩的信号对嗯但当初的问题是百花齐放有各种各样的paper嗯然后但是没有一个能打的啊所有的结果都其实很差啊
[118:06]都比ImageNet的这种portraining要差大概可能15到20个点百分点啊所以大家在make一些progress大家再一步一步往前走但是这个距离ImageNet能够通过这种superwise learning在large scale这种data上面学到的这种这种label有label的情况下学到这种representation还是差的太多太多对吧所以呃我们当初做了一件事情然后这个跟凯文一起做然后这个这个架构叫做叫做MOCO嗯momentum contrast动量对比学习对动量动量对比这个中文名字听起来都很有趣对是的是的啊动量对比学习啊呃其实我觉得其实不用深究它里面具具体的这些技术细节因为现在看起来已经很多东西已经不重要了但它总之它是第一个把这种叫做对比学习的这样的一个框架嗯把它真正做work的一一篇论文然后什么是对比学习呢
[119:06]也很简单就是说我们现在在这个representation space这个表征的空间里面有有有不同的点这些点可能是同样的一个object也有可能是完全不一样的object比如说我有好几张关于这个椅子的图片嗯对吧然后也有一些可能是桌子的图片或者是一只猫猫狗狗的图片嗯这些图片都不一样但在这个空间里面我们能够去度量它们的距离或者说我们知道这些所有的不同的椅子它的这种这种图片应该离得更近啊它的representation应该离得更近但是其实一个椅子跟一只猫它们距离应该更远嗯嗯所以这就是一个对比学习的一个基本的一个逻辑然后这件事情其实也不新这件事情其实也已经做了很多很多年了然后白德韦这件事情这一期的一些论文其实还是杨鲁空第一个跟他的学生一起做到的很有意思当然在解决的问题不直接是referential learning的问题
[120:09]而是一些metric learning的问题一些度量学习的问题但是没关系在这个大概是2019年的时候我觉得我们又赋予了这个对比学习一些新的意义当然这件事情也不是横空出世其实在之前整个领域已经慢慢在往这个方向去拓展比如说有一篇paper叫做CPC还有一篇paper叫Memory Bank这两篇paper已经是在朝这个方向就是通过对比学习来做自监督学习这条路线上已经走了几步然后这时候就不得不佩服凯明的本事了我觉得这也是我觉得这也是一个时间点让我觉得哇这个一个顶尖的研究员然后或者说我觉得不能说顶尖的研究员吧我觉得凯明在我心里面就是最牛逼的研究员然后他到底平时怎么做事情的
[121:10]我觉得我觉得有好几点吧我觉得也许我们可以简单聊一聊就是我觉得他是有某种极致的专注力然后这个专注力能够让他有某种心流叫做这种mind flow对吧他能够沉浸在这个问题上不需要考虑这个世界上发生的所有的其他事情然后我觉得这件事情我特别特别佩服然后另外一件事情是他专注会怎么体现呢我觉得我觉得他专注体现在他每天除了这一个问题之外不会想其他任何的东西他会抓着跟他一起合作的人去聊这件事也会抓着其他人去聊这件事反正就是这件事情是一个他思维的这样一个主体对然后他大部分的这种mental cycle都会被allocate到这一个具体的问题上这是很难的我觉得我觉得非常非常难
[122:11]因为念头很多时候自己很难控制是的是的是的对这个跟世界模型有关系念头很难控制这个话说的好但凯明其实是一个非常非常有这种决策能力然后能够决策能力能够专注的人对其实我觉得有好几点吧我觉得一个top researcher他们都或多或少需要这样的能力他们需要有足够多的专注力他们需要有足够好的这种research的品位这个怎么定义我们等一下可以聊然后他们还需要能够有一定的坚守就你不能说只是随波逐流然后然后然后去做别人感兴趣的事情然后当然你还需要有很强的这种这种决策能力工程的能力research的sense包括你看文献的时候你知道哪些事情重要哪些事情不重要这个很重要对就这件事情其实也是一个学术界其实蛮莫名其妙的地方就是大家你要会画重点
[123:11]对大家主要的原因也是因为大家不讲重点你知道吗有时候要么是大家不会讲重点要么是大家有时候不愿意讲重点要么是有时候大家其实没有意识到重点是什么但凯明的能力在于他能够把这些重点抽丝剥茧然后提取出来然后告诉你然后建立这种在这种高维度的抽象空间中的这种联系我觉得非常非常厉害对所以很多时候其实凯明的每一个idea不是坐在这个backward room对吧然后在家里面拍脑袋想出来的然后其实是基于不断的探索基于大量的阅读然后基于大量的思考然后基于大量的思考一点一点衍生出来的然后这件事情其实我觉得真的是非常深刻的影响了我做研究的方式以及我现在跟我的学生说大家应该做研究的方式是应该增加输入增加输入并且我觉得这里面其实是有一个范式存在的
[124:12]就这里面范式这也是凯明教育我的他就说其实这些所有的idea你不能坐在那想因为如果你要想出来一个idea这个idea一定是不可能的一定不是一个好的idea这个idea无非有几种可能性第一种可能性你比世界上所有的人都聪明所以你想出来一个特别厉害的idea其他人什么人都想不出来但我觉得这件事情概率极小所以更大两个可能性是第一在你想这个idea的同时这世界上一百个人一千个人一万个人在想同样的idea所以你要面临跟他们竞争你的手速可能不一定比他们快第二个可能性这是一个非常差的idea别人已经试了很多次不成功那你可能也没必要去试下来所以我觉得凯明对我的最大影响是他教会我怎么样找到一个research idea怎么找我觉得这是一个求索的过程
[125:13]所以现在我有新学生进来我会跟大家说一个research的周期当然我希望它会更长一些了但是在现在的这种竞争的环境下面可能最多有六个月时间也就是说从六个月一开始你要开始想一下idea然后再到后面你要把这个idea写成paperpublish出来这个整个的周期大概是六个月然后这个流程是怎么样的呢是你需要有一个general的方向你得知道你要干嘛你也不能完全什么也不知道然后就说我要做research也不行这件事情可以通过跟你的老师一起去聊然后或者说跟你的peers对吧你的周围的同学一起去讨论或者你自己通过你自己的阅读有一些general的这种direction这种方向性的认知对吧然后但是一定要给自己足够多的时间跟空间去explore然后这个explore这种探索期
[126:14]我觉得至少要有一个一到两个月的时间探索期应该做什么呀探索期好问题探索期做什么事情呢不能坐在那想问题你要探索的事情就是说我现在要不断的去hack一些东西你要真的像一个hacker一样去play with去玩一些东西就把research当做一个游戏当做一个玩具去玩这个东西比如涉及到比如你可以去推一推公式你可以去读更多的论文你可以找一些联系当然可能更重要的事情还是要动手去做事去写代码然后但是你写代码的时候要注意的是你写的代码不是一开始你的出发的这个idea或者这个direction而是一个探索的过程所以你写的代码可能是简简单单reproduce一个base sign对吧拿一个别人的paper在做的事情然后现在我们把它重现一遍然后还有可能是在这个base sign的基础上
[127:17]去有一些某种拓展然后这一面最重要的事情是要找到一个信号就是说你现在还是你刚刚说的有点像所有这个决策的过程其实是一个蛮无序的一个探索的过程它是一个我们叫做随机梯度下降对吧这是一个这是一个所有机器学习的基石但它同样apply to这个research本身以及我们的人生就是大家在追求这个最终目的的过程中其实都在进行一个stochastic gradient descent的一个过程然后我觉得research的部分也是一样对你来说对research最重要的事情不是从A点通到B点比如A是一个ideaB是一个paper而是这个过程中你到底能找到什么样的signal你的gradient你的梯度到底在哪对所以这个凯明的说法是这个梯度本身这件事情才是你真正的idea的来源就是当你经过不断的探索
[128:19]你试了很多东西有可能不成功有可能成功by the way不一定是一个成功的实验才能给你这个梯度有时候一个错误的实验会给你更大的梯度对吧就是说你只要就是最怕的事情是你不知道往哪走所以一个好的结果一个坏的结果都是好的结果对于research来说一个surprise一个令人惊讶的这样一个observation永远是一个research对一个research来说最最幸福的事情意外你观测到的东西对你看到了某些意外嗯所以所以所以他说就是经过这样的探索之后在这个过程中你发现的这些idea才是真正属于你的idea一开始你想的这个idea不是你的idea这个东西不属于你探索中的idea才是属于你的idea然后research的过程就是找寻属于你自己的这个idea的这个过程嗯但但这个词你要看到它是属于这个东西真的是
[129:19]是你自己的就上天给了你一个灵感注入你的脑袋里对一方面是上天给你了一个灵感另一方面它又是基于大量的实证跟实践嗯得到的对吧它这里面没有没有free launchagain有可能你真的是一个天才或者说你真的极端走运啊上帝握着你的手写下了这一个公式有可能发生嗯大部分时候大部分的进展甚至大部分对这个这个领域产生很多影响的工作我觉得还是一步一步啊发生的对总能够追根溯源找到它的起点所以我也跟学生说其实最差的research是什么样的research就是一开始你定义好的一个问题你说这是我的idea最后你发了一篇论文这个论文的idea跟你一开始想的idea完全一致你没有遇到任何的障碍你没有遇到任何的困难它为什么是最差因为这件事情说明你的这个idea是一个boring idea你发了发发表论文
[130:20]也是一个boring paper对啊我觉得我觉得这件事情呃我这么多年观察下来确实非常非常准确对所以所以我觉得这件事情也是为什么要跟学生说呢就是因为大家其实有时候没办法接受这个事实大家总会觉得我一开始应该想到一个小妙招然后我现在实现它嗯把它做work发一篇paper我成功了我目望去做下一件事情哦但这件事情能够给个人的积累其实是非常非常有限的探索的过程其实非常难很多人不会探索探索是非常难而且这是为什么所有这些论文在我看来都是非线性的这个非线性体现在两点第一点是你六个月的时间哦然后到第五个月的时候比如说我刚刚像跟你说这个这个rest next的这个story对吧一方面大家听起来哇你最后一个月的时间重新改方向把这件事情做好啊那那那这个时间周期这么短你竟然能做成这件事情好像听起来很不可思议
[131:21]但你知道这件事情发生的太多了之后我发现这件事情真的是有迹可循你经常是这样啊我经常是这样或者说我最好的工作都是这样发生的那你前五个月怎么保持自己的心态啊呃那就没办法你得要接受这个事实你得要你得要能够能够告诉自己这是一个常态化的research的过程哦哎那前五个月你会想到换一个方向吗我可能去选选那个boring idea哦我觉得会方向而且而且而且而且换方向这件事情非常非常重要就是你你一定要学会pivot因为我刚说最差的工作是你一开始idea就是这个idea最后的pivot也是这个idea嗯最好的工作是你在这个过程中已经弯弯绕绕然后跳来跳去走了很多很长的路才走到这个节点嗯啊这条路虽然非常崎岖但你总能从最后的这个这个终点一步一步找找寻回最开始的起点嗯就最后才能把它连成线最后才能但是你在过程中是不行的是的你在过程中啊
[132:22]我觉得我我觉得你在过程中因为你不知道你俩预测未来对所以这永远是一个探索的过程所以我觉得有两个月这样的探索逐渐形成一个idea然后逐渐去拓展然后去skill up对吧然后然后把实验补充分这个东西可能再花个两到三个月的时间到最后把paper写出来然后花一两个月时间这是一个已经是一个非常非常顺利的一个research的流程嗯啊然后然后我觉得我觉得这件事情呃again我觉得在现在这个时代面临着很多的很多的challenge大家会受到各种各样的压力对吧我觉得现在的竞争压力太大了竞争压力太大了啊然后然后我觉得会会让大家觉得一定要追赶最前沿的东西然后把事情尽早的做完抢占先机嗯啊把坑占住对但但回过头来说我觉得就像我刚说的我觉得飞飞老师最厉害的地方是因为他是一个能够定义问题的人
[133:22]啊如果失去了定义问题的能力基本上也丧失了很多创新的能力基本上也丧失了做research的能力对而且这件事情我觉得我刚说research的非线性这是这是时间上但从结果上来讲其实也是非线性的嗯就是说这个是其实是MIT的教授bill freeman然后他有一个非常经典的这样一个一个plot就是一个一个一个illustration啊这样一个插画他经常做的啊经常做talk的时候会讲就这条这个插画有一个横轴轴一个正纵轴横轴的起点是一个很差的工作一个还不错的工作一个非常好的工作一个非常非常厉害的工作这是他的横轴他的纵轴是对你的整个职业生涯的影响这篇论文对你职业生涯的影响所以你可以猜一下这个curve到底应该是怎么样的对吧他不是一个linear的curve他不是说一个很差的工作啊
[134:24]就对你比如职业影响可能很差然后然后到最好的工作或者或者说比较好的工作已经给你很不错的这个回报然后一点一点往上是一个线性的过程那不是线性的嗯他是说基本上你一个很差的工作其实也不会怎么伤害到你没nobody cares没没人会注意还不错的工作也没人注意能给你带来的收获也很小嗯但是有时候你做出来一一篇非常好的工作特别厉害的工作嗯每个人都知道工作嗯你的这个impact对吧我好像说我不喜欢impact这个词到顶点了这个东西这个这个这个以下就会冲到冲到顶点对吧嗯所以说我们经常说学术界里面大家衡量的是所谓的代表作或者说另外一个说法是说大家optimized的目目标不是一个average不是你所有之前的工作的一个一个平均嗯而你你optimize东西是你的你的工作的一个max嗯就是它的最高点最高点
[135:24]对吧我觉得这件事情也体现出来research这个游戏的一个一个一个一个一个非线性的一个特征嗯啊所以最高点是好还是不好当然好了就是说就是说你的你你只需要就你这辈子只需要成功一次就好嗯啊然后这件事情其实我之前cpr的时候给了这个talk我叫我叫research这个无线游戏嗯对吧这件事情呃大家反响还是蛮强烈的其实其实我觉得啊我觉得我觉得很少给这种non technical的talk这个东西更多的是一些折丝跟一些总结吧research经验的总结嗯对然后啊但里面其实也呃也也包含了我上面讲的所有的这一切因为因为你想呃其实research这个这个职业对吧一个researcher这个职业他的他的他的本质到底是什么啊他不是一个下棋的棋手他也不是一个现在冬奥会的一个运动员因为对于一个棋手和一个运动员来说你最后的成就取决于你最差的一步
[136:24]to some extent你要保证你的每一步你的动作得要标准你如果中间出了一点点差错对吧你下棋中间出了一点小错下落子错了一次就输了你就输了嗯对吧所以这是一个有限游戏啊在这个过程中总有赢家总有输家但researcher更像一个发明家说你这这辈子真的只需要成功一次就够了嗯啊,如果你足够幸运你可以成功几次啊两次吧但你不需要成功100次两次就到顶点了是吗我觉得我觉得是的啊所以所以我觉得这件事情其实挺好玩的所以所以我觉得我觉得整个这个领域慢慢往前走我觉得也需要反思吧我觉得我觉得现在啊原来的学术界其实他的社会责任也好或者说他在整个这个research的这个landscape下面定位也好都是制定这个游戏规则的人嗯都是制定接下来我们去去哪的人
[137:27]对吧现在完全不这样嗯现在制定这个去哪的人是是open eye嗯啊是可能是是google啊或者是meta或者其他各各大厂对对吧他们是有限游戏他们他们彼此之间是有限游戏嗯但导致他们把学术界也带成了一个有限游戏的这种这种决策的这样一个联调嗯对吧所以你就会看到很多时候大省发一个工作啊不管他叫他什么欧系列也好gpt什么系列也好啊nano banana系列也好一个特定的这样一个一个工作一个产品的launch紧接着学术界的所有人都会蜂拥而至然后说我们怎么样在这个范式下面用这项叫做peanuts of resources就像花生米洋勺的这种这种这种资源嗯然后尝试去追赶啊追赶嗯what's the point对吧就是确实确实有有这种追赶或者说可能大家也也不相信自己能
[138:28]大家可能也对你说的对就可能也追赶不了所以就变成了某种某某某种意义上的附现或者在他上面通过一个我觉得这个这样的research的过程其实是非常非常痛苦的啊因为我还有一件事情没说是因为我在nyu的最近两年其实我还在google兼职嗯做part time然后这件事情是在nanobonana团队对对在nanobonana团队然后就是janayi里面的团队然后呃这件事情持续了两年所以啊哎不知道当讲不当讲我可能有时候跟跟一些朋友说我之所以去google做这个工作原因是我想看看google大家在做什么嗯这样我就知道我在学术界不做什么哦就是就我要知道你们在做什么所以我不做什么嗯因为如果你在做这件事情的话我为什么要跟你一起做呢make sense啊因为他有更多的资源啊他有更多的资源没有必要再跟他卷了嗯是的是的是的所以这也是一个
[139:29]指导我们对这个这个我不想太跌味啊by the way这个disclaimer这些我所有的东西只是基于我在nyu一个不那么成功的这样一个经验的一些分享呃完全不代表这个世界research的多元性跟复杂性嗯啊而且回过头来就等一下我们还可以说我觉得有些paper我确实想想想跟大家分享一下嗯但回过头来说我觉得我并没有做出一篇我认为真的有价值的工作嗯你说这句话就是为了告诉大家哦我还没有到最高点我还没有到达那个max嗯你说对我还我还我还我还年轻哈哈哈还还还可以再努力努力啊不是但确实是这样因为因为我我我我现在在想这个问题我想可能有大概这个二十篇文章啊二十篇左右吧二二十二三篇paper然后呃深远的影响了整个深度学习跟AI的进程啊那那这个世界有二十篇paper或者二十五篇paper吧
[140:32]那那我一篇都没有啊我还有什么理由不继续努力继续做下去呢嗯我觉得我觉得这是一个目标dit不算吗呃我觉得算零点二五吧就或者说dit更像是在这个research的边界的切线上面往前push了一小步这件事情不是我们做也会有其他人做啊他没有complete change属于你对他没有他没有完全属于我嗯你说你说对对是的是的啊对但这些或者说我我觉得呃diffuser model当然算对吧包括可能ddpm算嗯然后啊我不知道我们也也行啊也许可以列举一下我觉得这个可能还蛮有意思的啊我觉得let算我可能数数不全啊好我们随便数一数我觉得影响过AI进程的论文对吧对啊或者说我觉得在我看起来啊
[141:33]这件事情是是能真真正称得上代表作然后或者说我差的还很远的这些工作对吧然后我觉得我觉得我觉得呃let当然算alex net当然算嗯然后image net当然算呃resnet当然算呃这个rcn或者fasterrcn这个detection的部分当然算啊呃这个凯明已经好几次啊然后嗯然后还有什么然后transformer当然算嗯tension is all you need当然算呃gpt3当然算呃bert当然算呃我觉得clip也算嗯vit我觉得也算对呃vision transformer我觉得也算嗯嗯嗯还有干啊我觉得也算对啊数不全大概大概大概是这些level吧包括3d里面包括nerfgaussian spotting我觉得都是算嗯都都会算
[142:33]对嗯所以各个领域吧都有都有他们的这些工作这些工作的意义在于大家本来是呃渐进式的通向一个方向啊突然有这样的一个论文横空出世彻底改变了我们刚刚说这个stochastic gradient design的过程就你看他的收敛的曲线夸有一个drop嗯这是我定义的这件事情啊然后我觉得那假设这个漫漫的历史长河是说这条曲线还在继续往前对吧有一次一次的这种这种呃这种这种这种让大家不管是跳出之前的local optimal还是进入下一个阶段这样的这种论文的出现啊呃但是我觉得还差的很远这条路还远远没有收敛因为之后还有很多事情可以走我我希望呃我觉得不需要是我自己我希望至少我能够参与到这件事情上对我希望假设有下一次的revolution啊我希望我希望回回过头来
[143:35]对吧我说我说可能不是创造某种impact但是是因为我个人的经历我身边的这些合作的模式嗯然后我自己的认知我自己的思考然后我能够理解一些东西然后我理解的这些东西能够somehow对对这这些这个世界的啊或者ai的发展有一定的影响吧我觉得我觉得这件事情啊是我现在很关注的事情嗯啊要按是不是没有这个希望了呃下一个revolutionAgain我觉得完全不是没有希望或者说我会说LM终将凋零不对不对LM永不会死但终将凋零就老兵不死终将凋零为什么终将凋零They won't die they will just fade away就是说这个东西一定会有它的价值它是一个很好的工具
[144:35]我现在会天天使用LM但它不是我们构建一个universal一个通用智能系统的基石它不是这个世界模型的这种大厦的地基世界模型我们稍后再聊你的工作你还要展开吗我就再讲一下有时间吗有有有你都已经说没有达到max了是是是对对因为这样说起来好像这些工作也没有什么好聊的了但我觉得还是有一些意义的因为就像我刚刚说这个non-linear research对吧在一篇论文里面我们会先做一些事情然后逐渐的然后然后有一些储备然后在最后一个月里面然后找到一个新的方向然后然后deliver最后的结果我觉得当我看我之前所有的工作的时候我心里面也会有这种感觉就我现在还处在一开始迷茫的探索期但谁知道也许今年也许明年也许我突然这个这个对吧灵魂开窍然后就能做出来一些更有意义的工作但我觉得这里面的根基在于
[145:38]像我刚刚说的它得要能够串起来一条线然后或者说它其实不是一条线它是一个graph它是有不同的节点不同节点跟节点之间每个节点是一篇论文它们之间都有彼此的联系你后续发的论文都会受到前面所有这些论文的影响对所以所以后面比如说contrasting learning这件事情作为就是我们第一次在视觉的这些task上面看到moco这样的工作尤其我们有v1 v2 v3对吧然后在v3我们用transformer然后我们去skill out其实已经比ImageNet能得到的representation在各种各样的task上面都要好很多了这件事情对我们来说其实是一个重大的一个surprise然后其实那个时候在那个时间点上我会觉得一切又是惺惺相容我们的问题基本上可以找到答案我们找到了一个方式自监督学习可以work接下来我们只需要skill out
[146:39]我们现在做的事情那就是一个无比光明的未来但又很不幸这件事情也没有发生对吧但在这个之前我们又有另外一篇也是moco跟MAE by the way都是凯明lead的项目其实大家说这个什么叫做一个lead的一个项目我觉得凯明也真的show出来这个leadership就是说他真的承担了80% 90%的一座加last author就是末座这种corresponding通讯作者的职责需要自己写base案需要自己跑很多很多的实验需要最后把paper写完去讲这个story去present所有这些事情基本上是凯明一个人单枪匹马然后做到了那其他人呢其他人我们当然也有参与也做出了贡献但我只是说这件事情是凯明主导的一个路线对我们在这加快了这个事情的进度可能会让结果也变好了很多
[147:39]但不影响这件事情的实质所以这是凯明到现在比如说前两天他还跟我说他非常enjoy这种IC的workindividual contributor就是个人贡献者的这样的一个身份他并不enjoy说管理一个大的团队让大家一起只是做一个manager来指导方向他不喜欢这样的事情他现在管多少人他有很多很多人他现在有很多本科生来visit他对然后他现在现在也做很多很多很好的工作所以我其实不相信他我跟他说你其实也是一个很好的manager至少我虽然你没有真的manage我但是只要我在你的身边我就能感受到对自己做事情的效率我就觉得我自己变聪明了我觉得我觉得我如果想要有一个manager的话我希望我希望得要有这样一个manager他能够empower身边的人去变得更好对我觉得这是凯明所以MAE反正就是说
[148:41]contrastive learning这条路我们走了走发现它不能skill up所以我们想要换一个方向我们又回过头来去用了一个更简单的方式就是某种去造的autoencoder就是这种自编码器就是masked autoencoder这个方法就更简单了反正大家可以回去看favor但是总之是就是通过把一些image做一些corruption的方式然后去再去重建这些noisy的这些image或者crap的imagemasked的image的方式去学对这件事情跟contrastive learningfundamentally不一样但它的结果也很好对虽然它会有很不一样的特点比如说它不会去explicit的去model这种某种invariance这种不变性导致它做这种linear probing的时候结果会稍差跟做unturned fine tuning这是两种不同的测试这种representation的方式对的时候效果又会好很多总之它们会有不同的性质它们去try representation也长得也不一样
[149:41]然后这些事情到后面也会有很深远的影响我们可以再聊但是这是MAE然后那时候我们就觉得哇MAE好厉害MAE至少能拿个best paper吧后来也拿不了MAE skill up就能解决所有的问题吧后来发现也不skill up其实我听你跟祥宇之前是聊过这件事情因为他其实也关注过自建动学习他其实也讲了很多为什么自建动学习不能skill up的一些原因其实我就不赘述了欢迎大家回去重听节目但是总之是当初其实是有点这种大起大落吧大家一方面得到很好的结果但另一方面这些paper又只是一个paper我们从来没有能够真的deliver出来一个实际的对吧然后像GPT一样能够通向一个完全不一样的skillable的未来的这样一个范式
[150:41]对我觉得这件事情所以到那个时候就有点告一段落当然那时候我还做了一些其他的工作比如说我把自建都学习可以说是第一次拓展到了比如3D的领域在Point Cloud上面也做了一些工作对这些叫做Point Contrast但这些工作可能更多的就是说证明了Representation Learning这件事情不只是一个Image Domain的问题它是一个很朴实的一个方法或者说一个方法论它不只在Image上面成立它也在3D的空间到后面很多人去试各种样的Medical Imaging还有包括这种Robotics的这种Task各种Domain它都成立所以这件事情我不认为它是一个失败因为它确实在影响很多很多不同的就超越我们现在关注的比如说聚能器视觉本身的领域对但另一方面它也远远没有达到像LM的
[151:43]这样的这种影响力所以做完了这些事情之后又做什么呢对好像又开始回到了探索期了这些都是在Fire实验室的都是在Fire实验室的在Fire实验室在做的你在那个阶段待了4年待了4年这时候的Fire周期就结束了吗没有结束还早还早这可能是前面的一到两年时间吧还有个很好玩的事情是再吹一吹凯铭就凯铭当初其实资源永远是一个问题GPU总是不够的然后当初Firemake了一个Decision是说我们试一试TPU这个东西好不好玩GOOGLE一直在用然后他们也全面转型使用TPU所以我们买了大概5000张TPU的Core的芯片不是买就是租吧就是在GOOGLE CLOUD上面然后一开始是为了做Language Model人准备的
[152:45]然后大家去玩了一玩后来发现太难用了实在是不好用凯铭上来说我来所以他真的是single handedlyAgain 单枪匹马从头到尾在TPU上面Build了一整套Infrastructure使得我们能去做之后的一系列的这些工作包括Moco 包括MAE包括后面的这个DIT都是在上面在TPU上发生的所以这件事情对我来说也是一个很重要的一个Guidance吧就是怎么总结呢就是就是工欲善其事必先利其气然后凯铭教我的一件事情是说你的Research的上限其实取决于你Baseline的好坏就如果你的Baseline很差的话你可能很容易自欺欺人
[153:46]你是做不出来什么东西的你如果没有花足够大的心思去在Baseline level上面去把这个System搭建好把工程也做到极致你是没有一个平台让你去做真正的探索的因为你可能会发现一个有趣的有价值的一个信号但有可能这个信号完全是错的原因是因为你的Baseline你的基准本身就不够好所以这件事情也蛮反直觉的因为大家总说我的Baseline要是差一点那我能受出来的这个Performance Gain就会多一点那我可能更容易发Paper但是其实凯铭不这样想他会想我们怎么样把Baseline做好他们把Baseline做到高到不能再高这时候在这个基础上我们做出了新的事情那是Ground breaking的事情那是真正的Breakthrough你在一个弱的Baseline下面做的任何的提升可能只是一篇灌水的Paper而已所以这件事情对我来说也是一个启发
[154:47]包括他们做Detection的时候这部分工作我没有参与我还在读PhD但所有的这些Fast RCN或者Mask RCN然后这些Focal loss等等一系列的工作这些工作都是因为他们包括Ross包括凯铭包括吴玉欣他们做了大量的工作去搭建这个Infra然后去Build这样一个Codebase使得Baseline这些方法的Baseline就已经远超于这些所有的乱七八糟CVPR的Paper我们的Baseline已经比你强了我再往上走一步我当然要比你走得更远所以我觉得我也是一直有这样一个方法论在这的我觉得我会比较重视我觉得我不想叫它工程因为它还不完全是这种只是Codebase的这种事情它不是一个在产品公司里面
[155:48]打造一个Codebase这样的一个关系它更是一个Research的Breakthrough的脚手架你的脚手架如果不稳你什么都做不出来所以这件事情也影响到我们现在做的这些东西Anyway就是说凯铭在搭这个脚手架的方面其实真的也是非常非常厉害我觉得你好幸运因为你很早就有人告诉你很多正确的做法所以其实在很多事情上你少走了很多弯路对 我觉得我非常幸运但我也希望但我觉得很多东西真的是一方面是Common Sense像你说的一方面对于一个学生来说这件事情可能不那么Obvious不那么显然像这个脚手架现在我们在Fair的时候会有一个这样的Running Joke吧其实有点开玩笑性就是说大家进到Fair实习的第一课你猜猜是什么第一课是要用一个工具你猜这个工具是啥不知道
[156:48]这个工具是Excel表格哦这件事情也很有趣就是大家我们会有一整套这样的Track Experiment当然了这件事情有可能有点过时因为现在可能会有更好的有飞鼠有很多更好的工具对但那个时候我们会精细的去构建这样一个Template这个Template就是Excel所以有时候我们有点像文职人员我们每天做Research过程中不是满屏幕的代码我们在写一些什么Fancy的东西而是盯着这个SpreadsheetExcel的表格然后去看每一行它到底代表什么这一面关于Research的部分就是说你怎么设计这个表格你怎么能保证你的每一个实验都能给你像我刚刚说这个T度因为你总会有可能有两个极端一个极端是你做实验做太少了所以你的信号不明确你啥也不知道另一个极端是
[157:48]我完全不care我在做什么实验我就瞎跑实验对吧我有这么多资源我就Maximize我的资源然后就Run所有的Job然后把所有的结果全都Dump到就是直接放到这个表格里然后我就觉得心满意足我觉得我Research已经做完了这两种情况都是一个比较差的学生的Research的一个Pattern但当初其实通过看凯明怎么样去Build这样的一个Spreadsheet我觉得我学到了特别多对其实你就会要去Make一些决策这些决策就是说我到底应该关注哪些Metric对吧我到底应该记录哪些内容就是哪些Column哪些Lib然后还有就是说我到底应该有哪些行我到底有哪些实验的结果应该放到这个表格里面哪些实验的结果我可能就不放了或者说我隐藏起来因为你放进去的这一行是需要跟其他的表格里面其他的行发生关系的
[158:49]然后这种对照式的对比这个是Research的流程这个东西again再次给了你一个这种梯度的信号对吧然后这件事情其实有时候是非常Subtle非常微妙的因为它并不是说你的结果越好你就一定是通向正确的道路但应该是就是还是说你看你哪一个对照能给你最大的信息量比如说我举个简单例子如果你做了一个实验这个实验给你了这个这个这个差了比如说你的Performance掉了10个点对吧这时候如果你是一个悲观的你就会说这个实验Fail了完全不成功那要不就算但如果你是有这种发法论的人你会觉得这个方向可以掉10个点那我往这个方向的反方向去设计我的算法那是不是我就可以涨很多点了因为你最害怕的事情是
[159:50]他的Performance停留在原地不好也不差对吧不好不差就没有信号没有信号一个Negative信号的反方向就是一个正向的信号一个Positive的结果的正方向也是一个好的信号所以这件事情也是一个非常有趣的事情然后还有一件事情凯明用这个表格经常告诉我们的事情也是说你要学会做预测在你跑每一个实验的时候你要预测这个实验的时候你的结果应该是怎么样为什么呀因为你要猜你想的对还是不对如果你想的对了说明你前面的这个思维链条是可以往前继续延伸往前继续推的如果你想错了Again这也是一个Surprise对吧也是一样的也给了你一个信号那你就会怀疑说我为什么想的不对对吧我哪里想错了我可以尝试去解释最后的原因然后或者
[160:51]我可以去重新去审视我自己的思路这些东西都是有价值有益的信号这个可能说的有点具体了但是确实这些事情这个很有启发或者很多人对很有启发对因为他们可能没有你信誉不能在他身边工作是对但凯明其实他也是我说的好像凯明是一个这种无所不能的机器研究机器其实他不是他也是一个很真诚很有趣的人他是有生活的人吗他的生活很干净很纯粹但是我跟他一起工作的几年时间里我也跟他一起打了几年游戏打什么游戏他是魔兽世界的忠实玩家然后我们一起那时候会打炉石炉石传说是一个棋牌式的这么一个游戏也是对战的我跟他有时候会一起联机然后打几盘游戏
[161:51]然后我有时候上线发现凯明也挂在上面打游戏你们会一起打多长时间没有一起打很久对但只是平时线下会讨论游戏就先一般是比如我们讨论一个小时或者两个小时前一个小时讨论research后一个小时讨论游戏讨论什么呢就是说我遇到的你最近玩的怎么样然后我给你讲一下我上次对这个12连胜然后发生了什么就类似于这样的事情听不了的挺好玩的事情从打游戏身上能学到什么research的方法吗倒也没有但是发现凯明游戏也比我打的好他天梯爬的也比我高我就觉得哎呀这个没办法各个维度上被碾压对但是对然后但我觉得确实凯明也是一个蛮蛮蛮蛮蛮有趣的就是他会对如果如果你是真的是跟他一起工作的话他会很愿意跟你去交流很多东西
[162:53]然后并且这些东西包含我刚说的这些research的方法论也包含一些有些虚无缥缈或者说很brow的这些内容他最喜欢聊的东西其实是进化生物学他本来学物理的还有物理然后包括量子啊然后还有包括然后还有包括啊哲学对他一直劝我们的事情是说啊哎那个30你们你们在美国读博士你们的title可都是phd啊对吧it's a doctor of philosophy啊是哲学博士嗯啊但为什么你们培养出来的人一点哲学都不懂呢嗯灵魂考问哦他不是在美国读的他他不是啊然后嗯嗯那这个也不只是美国香港应该也是phd就是phd只是变成一个代号但他说你们一定要多读点哲学啊然后所以哎呀这件事情也是啊挺好玩的事儿
[163:56]就是他给这个其实每个人或者至少给我吧然后一开始入职的时候给我一本书然后这本书是呃不是不是教你怎么做research的嗯那这本书是金刚经啊啊呃这个对哎呀我是不是透露的过多了哈哈哈金刚经跟research的关系是什么呃我觉得我觉得这个涉及到research taste的问题嗯对这个也是我很想问你的因为研究员圈现在我觉得说最多的词就是research taste一些人在说你的时候就会说你是research taste好的人好谢谢谢谢那什么是research taste taste呢什么来决定它呢我觉得我觉得你看你用这么一个很高大上的词啊对吧然后还要用用英文来说说明这些东西很难很难被定义它真的是一个内访的过程研究审美对然后我觉得包含我其实上述所说的所有的这些事儿对具体怎么做事情我觉得这些事情都包含在之之内但呃也涉及到一些更high level的这种这种这种哲学啊
[165:01]呃部分的这种考量我觉得啊像像凯明送过我金刚经我觉得他因为金刚经里面说这些所有事情如梦幻如泡影对吧然后其中一句话也是凡所有相皆是虚妄若见诸相非相即见如来嗯然后这件事情扯远一点其实跟西方的哲学里面的某些观点其实也蛮像的吧比如康德去讲所谓的物字体然后然后然后然后到比如说本华讲了书本华讲了作为意志跟表象的这种世界对吧然后其实大家想要表达的事情啊我不懂哲学我也不想高谈阔论但是以我粗鄙的这种认知我觉得他们想讨论的事情都是说你看到的东西不是这个事情的本体嗯你看到的是世界也不是实质对所以当你看一篇论的时候
[166:02]重要的事情是打破这个论文给你的一个幻想去追问一下这个论文背后到底隐含着什么样的一个实质性的东西然后我觉得research taste的来源就在于大家能不能真的抛开所有的这些虚无的像然后去一直去通往通往这个真理的道路一直去求索嗯我觉得凯明这件事情做的是最好的所以这件事情如果你想的长远一点就是说我到底应该用什么样的方式指导我怎么样去选择一个题目到底做什么样的事情对吧然后这件事情又会涉及到你在做research的过程中具体每一步该做什么我觉得所有事情都是一致的嗯然后我觉得research taste的不够好的一个问题在于可能大家会沉迷于这个项这个项可能是一个paper acceptance可能是外界像你说的某种fame
[167:04]可能是因为你可以很快的去把它这件事情做出来你够得到的这种一时的这种称赞和和这种追捧对我觉得我觉得对于凯明来说这件事情完全complete out of his world model对他完全不care啊我就我觉得嗯对啊但但你要问我具体research taste有如下ABCD几点啊这件事情就比较比较难讲了这件事情因为涉及到的东西也很也很多因为因为其实research本身就像我说也是一个创意流程也是一个写作的过程对吧从你的写作的by the way凯明也是写作能力最强的人他也非常鼓励我们说一定要开始早点开始写作这件事情非常非常不幸到我现在哎都已经这个一把年纪了还是做不好啊就是凯明所有的论文都是在deadline前一个月做完的只要在fair的时候是这样的哦哦就是当其他人都还在为了deadline通宵奋战
[168:07]然后赢这个这个获得获得巨大的满足感的时候凯明你知道吗就是那种闲云野鹤然后然后一个月把事情已经做完了然后开始把它一一遍一遍的polish然后观察着你们去感deadline吧啊我是一个非常chill的方式然后把这件事情做到尽善尽美他是一个月前全部做完全部做完哦不是说这个结果得到是paper全部写完这是一个已经publishable的一个不错的工作那这是这意味着他是要在什么时候开始写那就是提前两个月开始写他只要写一个月呃我一个月很长了对呃当然他后面还会继续写在deadline之前的这一个月呃会会polish每一个表格呃就是每每一个每个字吧每个标点符号啊比如说这件事情也也也也影响到我比如说我现在就就有这种ocd对吧就是这种应该怎么说强迫症对然后也是凯明时期带给我的
[169:08]就是说你的一行论文不能有一行有小于百分之六十的文字啊站什么意思就是说如果你有一行你你有大半行是空的这个看起来不好看你得把这一行占满或者占的占的大概有百分之六七成满哦这样的paper看起来才比较优雅优雅对嗯或者uniform对嗯哦所以所以这也是我们现在每一篇paper最后我都会让大家所有学生这个对你们好好看你如果有一个什么trailing word吧你有你现在如果大家不注意的话你会有一个有一个有一个有一个词然后单独占一行在一个地方啊很难看的对哦嗯然后而且凯明想这件事情的时候的想法是说呃这个paper不是给你自己看这个paper给别人看所以你要在乎的是别人的观感啊你怎么样能够就是paper只是一个载体我怎么样通过这样一个knowledge的载体
[170:08]使得大家可以比较顺畅的get到你自己的这个这个想要表达的这个内核他这个沟通界面要赏心悦目啊哎你总结的好好的沟通界面要赏心悦目啊所以保证你paper也不能太难看对吧然后你这个细节要做好啊所以所有这一切你可以认为它也是某种research taste但我觉得这件事情其实是一个general的对于生活或者对于这宇宙一切的某种审美嗯啊我觉得这件事情在我看来都是相通的嗯对吧然后这也是为什么我们很在意我们自己的论文呃怎么样能够比较unique就是比比较有自己的这种独特性然后我们可以呃有自己的网页的设计然后我们会自己录一些视频嗯嗯就是就是有很多人录视频啊是啊对但是有很多人觉得为什么你们要搞这些事情这些事情跟跟跟这个research一点关系都没有
[171:08]这难道不是一个destruction吗为什么你要花额外的精力去去polish这些东西嗯你是不是就为了炒作营销啊啊我希望大家不这么觉得吧因为因为我觉得我觉得有你自己的一个风格这件事情其实是非常重要的嗯嗯这也是为什么我们所有的paper都会用一套这种模板然后我们会有一些自己的设计然后间接的我也希望把一些我的tasteagain我不能完全保证他们都很好啊但是somehow至少跟我的学生一起讨论吧然后大家可以一起去把这件事情嗯至少一起能够去构思一起去想一想对我觉得这件事情也是在我看起来这个大的这个research taste中间的一部分嗯它包含了很多很具体的小的细节嗯非常非常非常多的细节嗯对对但我觉得这也是为什么做research很有趣的点我我昨天跟你说过我这个从小的梦想其实是当个导演嗯
[172:08]嗯从小的梦想没有没有从什么时候破破灭了呃很快就破灭了很不幸啊但是但我还是会看很多电影吧然后但是我觉得到后来我会发现research的过程跟拍电影过程呃其实没什么不一样为什么呢因为电影也需要发现一个主题它也是经过探索我我有一个我想要拍的故事它也不应该是我站在此刻我就觉得哦我这个故事就是这样了然后我直线通往彼岸也不应该是这样的你也应该去拍电影我觉得有很好的直觉对就是是的exactly对吧最差的电影就是说我是个流水账的吧我有这个我有a中间没有什么冲突然后通往b然后事情结束了我就我就我就我就放给你啊啊一个好的电影其实是说或者说为什么我们写配备的时候大家说哎他讲的故事讲的很好啊虽然这件事情可能甚至有点nativestorytellingstorytelling对吧嗯电影是一个storytelling的过程有一本书其实我之前还跟学生推荐
[173:10]我就我学我学习凯明跟大家推荐一些呃这个不搭嘎的书我跟大家推荐一本书叫做就叫story是这个麦基的这本书啊这本书其实是新闻学所有人都要设计的真的吗ok i see i see i see对因为它里面讲对吧你真正的这个故事本身不是人物的背景而是人物在特定时候的选择啊这件事情带来了冲突然后带来了对这个世界的变化推进剧情的发展我觉得paper exactly就是这样你写的这个paper本身technique当然重要这个knowledge当然也很重要但是也许更加重要也许更加重要的点是你到底是怎么怎么到达这儿的你到底中间做了哪些决策嗯对吧你的decision到底到底是how did you make the decision嗯哦为什么这个decision很重要为什么读者读了这个decision making的过程之后
[174:10]也许他们自己也会受到启发也许他们自己也能去做一个完全不一样的事情但somehow又能跟我们present的这个东西串起来我觉得这件事情不就是拍电影嘛已经把research进化到了艺术的层面哎呀不是这个pig说了吗这个他不喜欢艺术家我觉得对我也我完全不是我其实没有什么艺术的见解也没有什么艺术的修养更没有什么艺术的能力但我还是觉得这世界上的每一个人不管你是不是经历过这样的训练有一些非常非常common的事情非常非常个人化比如说这个martin scorsese说的吧最有创意的东西其实是最个人化我觉得每个人都太不一样了你怎么样在做research的过程中也能发觉出来你心里面那团火你自己不一样的地方然后用它来指导你的research taste
[175:10]我觉得这件事情才是在我看起来一个scientific的道路上面很重要的一环其实人在选择自己偏好或者相信自己偏好这件事情上是非常难的因为大多数人都愿意走一条就是我们一起走的路因为它更安全就包括你说的做research的探索的过程也是一种就是更加愿意相信自己某种偏好的一个过程对我觉得我觉得这件事情是这样而且这件事情对research来说还蛮重要的还是有点玄学但是其实这也是在A3班然后于老师在我们本科时候跟我们说过一句话他说不是因为看见所以相信因为相信所以看见就如果你不相信这件事情的话你可能完全看不到这件事情按你设想的方式去发生我觉得我觉得不能太玄学但是就这一面research还是一个科学的过程
[176:14]然后每一次的decision你也要继续试试不能完全只是因为你相信一件事情然后你就往那走对这件事情肯定是错的但是somehow还是有一点这个的成分就是大家还是有某种自己的属于自己的这种精神的力量其实能够去改变你在study的问题或者你在看待这些问题的方式我要拉回来我们飘出去了飘出去太远了对对嗯你说research是就是更重要的是你怎么做决定的那你这个做研究的这个历程你刚才还是没有讲完嗯就是后面的决定是怎么做下去的其他可能可以比较快讲一下因为其实有现在普遍很多事情也蛮好讲的因为其实很多时候我觉得我觉得有好多点来指导怎么做事情吧第一是可能要有某种质疑精神这件事情我觉得应该不用讲吧
[177:14]但是有时候在现在的这种竞争的环境下大家可能会慢慢丧失这种都很难对有点难然后还有就是说我觉得还是要我在我那个无线游戏的talk里面讲You are the genius of yourself你是你自己的天才希望你自己能够去做一个不一样的事情Be different这件事情我觉得也是一个很high level的一个指导的一个原则所以往后说像我跟我当初的实习生柳壮他现在也是一个很强的researcher他现在是普林斯顿的一个教授了然后我们一起做一个工作叫confnext这件事情可以看到对跟restnext也是一个映照然后paper title非常ambitious叫做confnext for the 2020s就是2020年代的卷积神经网络可以猜一下这个名字谁取的
[178:16]凯明对其他人也不敢取这种名字又有X然后凯明取了这个名字然后我觉得我们做出来但这个paper其实很简单就是说大家认为在VIT里面就是vision transformer里面最重要的东西是soft attention但我们质疑这件事情到底是不是真的然后通过这样的质疑我们去铺叠这样的实验对然后最后发现其实这件事情没有想象那么简单soft attention可能是最不重要的一环整个的这些global这种architecture design以及这些宏观跟微观design才是决定这个performance的一个一个更加至关重要的地方对所以这件事情我觉得对也是当初跟刘庄一起但是还有其他的同事一起我觉得我们能够去提出这样的问题有所质疑然后刘庄做了大量大量的实验把这件事情最后梳理清楚
[179:16]然后我们有这样一个figure有这样一个plot在paper里面就是说我们现在怎么样一步一步从一个卷积神经网络通向一个这种层次化的这种transformer架构它每一步哪些实验重要哪些实验不重要对吧就是一系列的ablation study然后这个图现在也变成了paper我觉得还不错它可能也配得上它的题目在此之后也没有人设计卷积神经网络的架构了基本上然后还有figure这个配图现在变成了一个经典的配图所以在各种各样的paper里面都能找到它的痕迹这个图也是我当初花了很长时间手搓出来的对然后这件事情对我的启发也很大就我觉得对吧就是其实大家是知道因为这个图本身他在讲关于这个paper里面的一些逻辑但他所涵盖的这种怎么样去精细的做appellation
[180:18]并且控制变量的这样的一个方法这件事情是可以被应用在很多很多不同的paper不管你的topic是什么的对所以我觉得这件事情也很好玩嗯然后后来可能可以谈一下比如DIT对吧然后但这个paper也是这个paper又是一个这就到NYU了没有没有没有这个也是Fair是Fair的最后一个工作哦嗯然后Fair那个时候已经开始有一些culture shiftOK因为那时候ChaiGPT刚出来哦OpenAI然后Dmine也做得非常好OpenAI作为一个新兴的这样的一个research的历史的力量嗯然后其实做了很多在Fair大家想都不敢想啊想即使想了也做不到的事情对然后大家就开始在思考这个组织模式上到底出了什么问题是不是要进行大的改革其实已经进行了很多次这个reward
[181:19]这也是一个trigger是说为什么我觉得当初已经不是一个好的事件我继续留在Fair了已经开始下滑了倒也不是下滑只是说大家的focus已经不在research上面了嗯大家会呃有开这种好几个小时几个小时的这种这种research的alignment的meeting就是这种对接的这种会议对齐会议对齐会议啊然后这个会议的唯一的topic就是说我们到底应该做啥啊但这样的会议呃这个持续了比如说好几个星期的时间啊还是没有办法确定因为没有人会知道自己要要做什么因为这件事情是完全烦我刚刚说的这个research的正常的这种bottomup逻辑的嗯对吧现在变成是说我们要坐在一起讨论我们接下来一年两年的时间应该做一个什么样的research project这件事情在我或者在凯明或者在很多研究员的心里呃看起来都是都是烦research对所以那时候也受到了很多的影响嘛
[182:21]比如说当初我在做这个dit的时候diffusion也是刚刚起步啊还没有人fair还没有一个人在做diffusion model相关的研究啊但我觉得哎这个东西好像很有趣我觉得应该去尝试尝试然后bill peoples啊他是我当初招的一个intern对吧然后他现在是sour的hat啊也在sour的这种各种生成的视频里面他也是主角嗯对他是一个非常非常sharp啊或者或者在我看来是一个我觉得完美的phd学生吧就是在各个方向呃至少是六边形战士的这样一个学生对但anyway当初我们的起点其实不是要做diffusion model也不是要做dit在前两个月的探索完全也是集中在表征学习这件事上就是说我们想要看一看你一个diffusion model学到的这个表征到底跟一个正常的superwise learning或者说一个soft surprise learning学到的表征到底有什么不一样其实后续在这个方向还有很多很多的工作
[183:24]但我们开始的这个做了一段时间的感受就是说这个东西好像也还行也就那样嗯他能学到一个不错一个生成模型能学到一个不错的表征但这个表征要比你的自监督学习的表征要差的多的多的多嗯啊就完全不能打对所以我们就放弃了但是在这个过程中到了最后一个月的时候我们发现哎啊啊by the way这个东西前提是说因为dit我们需要在这个表征的level去跟比如说vit base的这种表征的系统要做一个对比嗯所以那个时候是我们为什么我们不用unet要用vit来做这个diffuser model这个是出发点对吧然后后来我们发现哎这件事情在表征的这个角度好像没有什么太大的价值但是好像我们的这个新的architecture他确实更加efficient然后确实更加scalable嗯比unet要更稳定并且从代码的角度我会非常care这些事情
[184:26]就从你的代码的角度来看我们叫他这种minimal description length就是说你代码其实还是很重要的你是能体现出来一些事情的如果你的代码的长度很短啊就能够去达到同样的目的那你这个方法typically会优于一个比如说写了好几千行代码一个非常非常膨胀的系统啊即使他也能做同样的事情但你的前一种这种更elegant的solution更simple solution一定是更好我觉得这也是某种意义上research taste嗯所以我们发现哎这件事情又简单又能work又scalable然后又efficient那好像这件事情才是应该我们去pursue the direction所以也是提前一个月啊然后然后去做这件事嗯啊然后那时候也要竞争很多的资源大家就说哎呀你这个做这个事情干什么呀我们现在要把资源集中到一起然后我们要做一些更有意义的更大的project虽然againnobody knows大家所以要有这种对其会议里面讨论了
[185:27]但是但至少diffusion model不会是在这个critical path中的一个重要的就在这个核心路径上的重要的一一元嗯对所以大家会有很多的反对啊但我觉得我能看到这件事情其实是一个很重要的事情因为我觉得这这件事情从架构我做我做架构做这么长时间我觉得这是diffusion架构的未来对它不是diffusion model全部像我说的data架构还有还有objective都是很重要的对但是在架构上这件事情是绕不过去的一环所以这是为什么最后一个月就朝这个方向去push最后结果也很好然后我们能售出来这种真的很好的这种scaling behavior然后我们投了paper到CVPR然后我觉得都非常开心然后paper被拒了对乐坤好像写过这个推特是的就是就是novelty不够所谓对你们可能做的这个东西对吧你没有大段的数学你没有大段的这种复杂的结构
[186:27]你弄了一个很简单的结构你弄了一个很简单的这样一个结构虽然得到很好的结果但是reward不买账对所以这也是另外一个lesson但到那个时刻其实我已经慢慢回过神来了我发现这个research paper这件事情其实在这个巨大的随机过程里面重或不重一点都不重要所以我们接下来又投另外一个会那什么也没改那又中了一篇all order paper所以再次证明这个完全是一个纯粹的随机过程但之后发生的事情比较有趣就拿到这个paper之后我发现这件事情在各个维度上都比一个unit based的system要好why not你就应该用这件事对吧你统一了你的底层的逻辑在制造在架构上面统一了这个逻辑你可以share很多这种infrastructure它又这么efficient结果又好又scalable你可以创建更大的模型所以我们就想这件事情这个paper发出去那一定会有很多关注which by the way确实有很多关注
[187:27]就是推荐很多人讨论但是我们发现好像没有人真的用它干任何事然后我们开始就开始跟大家聊比如说我们去找stable diffusion的人by the way我觉得stable diffusionLDM也是一个在我看起来属于那二十几篇paper里面的一个但我跟他们有一些人也在去聊然后我们跟一些其他的大公司也有在聊我们相当于在学校里面那时候我已经就相当于这篇paper是刚好落脚在我在fair的最后和我在MYU开始所以两边都署名是吗这样的话对其实不是其实是只属了MYU的名字和Berkeley的名字因为fair不让我们署名为什么因为第一是他们觉得这篇paperit's okit's a paper第二是那你已经离开了不要署我们名不要借我们fair的名声给你有趣灯光天才然后anyway其实本账还是一些legal的原因反正就没有署名所以是署的MYU名
[188:28]但这件事情是一个在fair完整的做完的事情对世界总是这么讽刺有点讽刺对然后后来反正发生的事情大家也知道那就是Bill跑去OpenAI那说好你们都不买账那我自己来做这件事是这个原因是这个原因对然后或者说那时候他也在跟我讨论说到底应该去找什么工作他有好多不同的offer然后有些startup有OpenAI然后也有一些大公司然后然后然后那时候他才第三年然后他也是我觉得也是有一个非常好非常好的这种可能比我强多了的这种预测模型我觉得他是能看到说要早点加入OpenAIOpenAI现在不得了那是哪一年是22年22年年底22年年底对22年年底那个时候不是Chashbit刚出来吗是啊他就加入了
[189:29]对就是他加入了工作就做完了吗做完了对你们不是在Chashbit之后做的吗不是因为我是23年1月就已经到MYU了所以这个工作其实是上一年22年的暑假开始的一个工作所以是在Chashbit之前就做了之前对所以这是为什么OpenAI我觉得也很厉害就他能够意识到比如Bill的才能并且能够让他们有一个包括Tim Brooks对吧让他们能够有一个这样一个很bottom up在我看起来其实是一个蛮research的一个effort给他们足够多的自由度跟资源让他们做一个在之前大家想都不敢想的事情这件事情就是骚扰对吧我觉得这件事情至少在当初Fair是没有这个基因的大公司也不会有这个基因就如果你们没有离职还在Fair对吧他们依然不会用DIT那我觉得也不见得
[190:30]倒不是用不用的问题我觉得更多的是怎么样能催生出这样新的这种创新的这种结果对然后我觉得或者说这个架构只是其中的一部分我觉得它一点都不重它只是一个选择它battle了这件事情对或者相信这件事情能做成我觉得这件事情不是所有人都能相信得了的我觉得这件事情其实是非常重要的这其实在讲的是Sorrow的诞生的很多前续的故事对吧有点是然后对你见证了好多对我觉得见证了一些人一些事吧但也错过了很多错过了什么比如当初没去OpenAI或者说之后还有很多其他机会我就不说了但总之是有点我觉得我看对了很多事情和很多人很多人但也有一些时候比如说某些创业公司在非常早期的时候
[191:30]然后跟我聊然后想要说我可能是第一个看他们的demo的人也许可以说吧就是这个ArovinPerplexity的Arovin然后他从OpenAI出来在Palado的Blue Bottle的咖啡店这也是一个硅谷里面很多事情发生的一个地方很小我可能是至少第一第二个看到他的demo的这样一个人他拿着一个电脑给我看一个浏览器然后说我们要革了Google的命然后我说你这个好厉害但我心里面觉得这个是什么东西这个不就是GPT套了一个壳然后Why are you doing this对吧所以他说要不要一起来做我说我还是比较硬的啊比较Enjoy being at NYU这个对去继续做Research
[192:31]但后来其实确实我觉得我觉得我对创业者的这个认知在过去的几年也发生了一些变化然后我觉得这件事情跟Research还真的不一样有很多相通的地方但也有一些不同的点对但anyway就是这个又扯远了然后工作上我觉得我们可以快速在讲一讲后面的一些东西吧因为我可能可以最后总结一下对除了Populacity还错过了谁其他的其他就不说吧其他的有可能是刚错过或者我还不知道是不是错过的一些地方对 但其实没有什么错过或者说我在现在这个时间点里我并没有后悔任何的决定我觉得每一个决定都是比较忠诚于我的内心然后在做我想做的这件事情有可能这些决定很傻有可能从一些维度上来看其实是一个错误的决定但我现在会觉得第一很知足
[193:33]第二我觉得像你说这是属于我的一条路这条路还能通向更远的未来我还会在这条路上继续走所以我觉得非常感恩反正DIT之后然后我们又做了一个工作然后就是把这个flow matching就是把这个新的objective然后在transformer setting下面也把它拓展起来对 然后这个每次也是都是当笑话讲了也是先投稿然后又被拒了然后然后同样的原因但是again经过这样次数多了之后我觉得我就基本上免疫了或者这件事情其实还是蛮叫做反脆弱的塔勒布有一本书叫做反脆弱然后我觉得我当初讲无限游戏的时候我其实也提到这个观点就是说我觉得research其实必须得要是一个反脆弱的系统这个反脆弱是什么意思就是说一个组织或者一个个人或者一个事情
[194:35]它如果是反脆弱的就是anti-fragile他的意思是说一个可能的这样的一个random的event某种黑天鹅事件或者说某种shock就一种这种令你感到惊讶的一个事件的发生这件事情如果对于这个组织对于这个人或者对于这个事情来说你的收益要比你的损失要大那你的这个组织就是一个反脆弱的组织但如果你立刻被这个shock击倒了那你就是一个脆弱的组织所以我看起来就是说这个research这件事情其实是一个怎么样让大家变得越来越反脆弱的这样一个事情然后所以paper被拒了也没那么伤心了然后但后来我觉得就是像像DIT然后SIT都会变成一个相当于学术界的一个一个baseline吧然后让大家可以继续在他上面做各种各样的事情
[195:37]然后我觉得他的历史这个这个任务也达到所以这是在diffusion上面当然后来还做了很多其他的事情但是我可能想说一下我们最近比如说有一套另外的事情叫做叫做这个cambrian对吧cambrian series对啊中文字幕中文叫做韩武记对但是这个韩武记这个东西对我也我也讲了什么善武记的吧就是说这个这个leading theory说viren的演化带来了物种之间的在viral能力上面的这种群配竞赛然后导致了这种物种大爆发然后所以大家有时候会觉得韩武记是一个视觉的起点对啊然后说到这个韩武记了那那可能再插一句就是说其实如果你看整个地球的历史把尺度放得更远一点从538个million years ago一直到现在对吧其实所谓的modern behavior这种behavioral modernity就是所谓的这种行为现代化
[196:44]这件事情是在过去的3万到5万几年前发生的所以如果假设从韩武记大爆发地球上开始出现这种这种物种开始一直到现在如果我们把它缩短到一天对吧假设所有这一切都只是在24小时内发生了好那其实有语言的部分有这种behavioral modernity然后大家可以有某种abstract thinking某种symbolic reasoning这一部分的过程其实在这一天中只占了最后你猜猜大概多长时间三个小时三个小时高估了高估了三分钟还是高估了三秒钟大概大概是8秒到10秒吧所以怎么算所以在这个历史的长河里面其实我们有语言的时间其实是非常非常短暂的
[197:44]然后但是由于我们是人我们总会从从从人的角度去思考这个事情去看待这个历史所以我们会觉得这个历史是非常非常短暂的我们会觉得好像语言自然而然就是人的智能的一部分然后这也是区别于人的智能跟其他动物智能的一个主要的区别但anyway就是这个可能又扯的有点远了我们等一下可以come back to this我想说的是这个cambrian series之所以取这个题目就是因为我们当初觉得现在这个多么泰大模型这么火热但我们又像有点像当初complex的时候一样的视角我们希望能够去检验一下现在正在发生的事情然后以一个比较solid 比较scientific的方式去研究一下到底什么重要什么不重要所以这是这个cambrian model的出发点然后这件事情在之前还有另外一篇paper叫做Ice White Shot
[198:45]这边有这个导演朋友的这也是库布里克的一个电影所以那篇paper里面讲的事情是说对于这个vision encoder来说其实clip可能不是最优的它有可能会有它自己的缺陷因为它有这种太多的这种语言的short cut导致它对视觉的理解方面有可能出现一些偏差所以cambrian 1其实是这个paper的某种意义上一个延续是说我们怎么样训练一个我们自己的这样一个系统然后在每一块上都做足够充分的study然后但是我们只有一块不碰就是我们的lm的部分我们不碰我们不管它然后但我们去study比如说我们的data的构成我们去studyview representations对吧然后这种表征然后以及后续的这些比如说各种各样的架构这种视觉处理的架构等等的一系列东西对所以它是一个蛮大的一个effort
[199:46]所以很多时候有工业界的朋友问我说你我很好奇你们是怎么组织组织起来那么多学生然后做这么大的一个collaborative project的对吧然后其实我也没有答案的非要问我的话那就是学生给力对大家呃大家愿意去探探就这个问题并且能够以比较好的方式在一起合作对然后当然还这里面会有一个基础这件事情蛮好玩的可以分享一下我刚刚提到说凯明当初不是在tpo上面去build这个infrastructure然后这个从无到有我们有了自己的资源然后啊他lead to了比如说像moco mae还有还有这个dit这样的工作所以很自然而然然后到了后面在nyu的时候呃我就在考虑说我们到底能不能去也在tpo上做一些事情因为google呃其实还是对感谢googlegoogle也是一个非常呃这个这个generals的company然后他有一个program叫做叫做trc啊就是呃tpo research cloud
[200:49]他无偿的给学术界的学生还有老师们去用这部分计算机呃计算资源对呃但这部分资源极其难用因为还是面临一样的问题就是没有这个ecosystem所以你没有这个infrastructure对没有没有这个基础架构也没有这个codebase很多东西pytorch放在上面不work嗯这一面其实就我们一开始面临的这样一个抉择一方面我们从google拿到了一些资源我们可以有更多的算力绝对的算力去做我们想做的事情另一方面这件事情实在是太难用了啊所以我跟学生说你们一定要去试一试啊我也给他们讲了比如凯明的这个story嗯呃但是他们试了大概可能一个星期然后回过来说老师实在这个受不了了我们能不能买个两台h100的机器还是用gpu吧啊然后我跟他们说呃这件事情还是要沉得住气
[201:52]如果比如说你们试了大概三到四个星期然后发现这件事情确实有技术上的障碍我们确实因为我们不在google没有这一套infrastructure所以有些事情我们确实做不了或者我们解决不了那我们可以give up然后我们可以去换下一件事情去做但是如果只是因为暂时的这些阻力你只是试了一个星期然后然后发现哎这件事情有困难啊那我觉得我们一定要尝试去走出自己的舒适区去解决一些这些infrastructure的problem即使这是一些可能一开始跟research无关的问题反正学生就就被我被我被我被我劝回去了然后继续开始啊在tpu上面develop了我们我们自己的infrastructure对为什么不用gpu呢没钱呀啊ok学校很惨了这个啊这个又要吐槽学校学校北美的学术界是一个是是一个非常非常啊我觉得哎是处在一个很很很难的一个境地吧
[202:54]对为什么呃主要还是就第一资源不够然后举个简单的例子比如说我们要申请funding对吧美国的这个funding system嗯可能又要飘的有点远但是美国的这个funding system其实在过去的几十年里面都没有没有什么增长虽然有很高的通通胀嗯对吧呃所有东西都变得很贵学生的学费变得很贵但政府的资助以及各个公司有这种他们这种啊proposal这种这种program对吧有些资助的项目其实还是维持在一个很低的水平对然后大概就是说应平平均比如像sf这样的美国的美国的政府机构啊能给到每一个单独的这种pi的这种这种总共的呃资助大概就是五十万这个级别啊美元呃每年五年五年啊每年大概十万对然后大量的公司啊其实已经变得少了很多了因为again因为去gpt因为lm的时代到了
[203:54]然后大家慢慢的变得收缩啊这个这个我们之后可以再聊但是总之是也有更呃就是其实这种工业界资助的机会也变得越来越少并且一旦如果有时候有一些这样资助的机会一般会给你比如十万到十五万美元就是这么就是一次的一次性的给你这么多钱作为资助但你知道吗大概有一百个学校同时一百个老师或者更多老师去compete for这十万块钱呃十万块钱可以干什么呢可以养一个学生一年嗯作为学费嗯还可以干嘛呢可以买半个h100或者300的cluster嗯啊或者可以买个三到四张卡啊所以所以这件事情是做不了事情对吧然然后那呃当然这也不是只是我在吐槽我们所有的其实就是所谓的在美国的这个青年教师都是生活在水深火热之中的大家都要通过自己的方式去找不同的资源所以这也是为什么呃有点像创业就是你在一个非常constraint的resource的情况下
[204:55]要去从不同的地方找到不同的资源你要融资对吧嗯小军你这是商业访谈录的我说我这个一点不商业但是其实某些地方可能还是有有一些共性的啊然后包括跟google的人我们当初我有一个我的合作伙伴在google然后他也很特殊了他从来不去公司上班然后说哎他说我们可以聊一聊然后我说好啊那我去聊一聊然后我飞飞过去湾区去找他啊他说我们可以聊但我们不要在办公室里聊我们一起去呃这个google旁边的这个trail上面hiking嗯去徒步啊边徒步边聊嗯所以我大夏天啊跟着他这个徒步了一个小时然后跟他讲了讲我们在tpo上面做了一些infrastructure的这些这些contribution啊这些贡献然后包括为什么building这样一个更长期的collaboration的这样一个一个合作伙伴的这样的关系对google来说对我们来说都是一个好事对所以我觉得哎呀这不就是一个融资的过程吗啊所以到后面就花园了啊就花园花园的过程对对对啊对确实是因为因为其实这样的资助其实是不求回报
[206:01]对所以我觉得我也非常感谢google但anyway我觉得更更也感谢的还是应该是我这几个学生然后他们一点点然后突破了重重的困境啊像像我我几个学生像这个呃peter然后呃然后然后博洋然后书生然后很多人吧然后他们都在tpo上面做了自己的很大的贡献嗯对然后好这就是这个前提就是说我们现在有一些卡可以用了然后现在我们就可以做一些稍微有一点跟大大模型靠的更近的一些事情所以这是为什么我会做这个看brand的这个工作对啊然后当然了所有这些narrative这story都完全还是我过去这么多年的这些逻辑就是说啊第一表征非常重要第二不管你在解决的是一个普通的计算机视觉的任务还是我们到了一个多模态大模型的时代然后通过这种vqa的方式去解决这些问题
[207:02]我觉得这些都是都是都是都是像啊都是像对然后背后背后还是有一些实质性的东西我们要去要去要去呃要去构想嗯对嗯然后这一部分反正关于语言跟视觉我们可以可以等下聊然后我然后我们后来又有一个叫做堪培艾斯的paper这个paper可能就是更进一步我们不只做image level的vqa的task我们希望能够去还是涉及到video去涉及到视频对然后这件事情其实真正让我真的觉得想要做这件事情的原因又要说回到电影啊还跟还跟这个这个这个我喜欢的两个中国的导演还还蛮蛮蛮蛮有关系的这个贾科长啊贾章科和这个毕干对都是中国很很著名的这个导演对然后啊毕干他路边野餐里面啊大量的运用这种长镜头嗯这件事情让我觉得ok啊虽然在他来说是一种视觉的工具但这件事情对于人来说
[208:07]又是一个视觉理解的一个很重要很重要的一个媒介就因为什么是长镜头人活在这个世界上就是长镜头我们的眼睛就是我们的相机嗯我们不停歇的在这个世界上面做各种各样的事情对吧然后我们看到的东西这个介质都是video都是视频对吧但是我们又能看到这个视频的这些像素背后的一切东西我们能推理因果我们能感受到空间对吧然后贾诚科说了一句话我觉得我非常认同他说这个电影之所以很有意思啊这个还是他在纽约的时候跟我说他说他说这个很有意思是因为你如果只看这个timeline的话这是一根时间轴嗯它是一个线性的时间轴但是在这个时间轴的每一个点上你需要一个空间去扩展它的时间就像我们现在在说话虽然是一个静态静态静止画面但是假设你家有一个长镜头或者说等间在纽约街头啊然后然后在在当吧大桥下面当吧大桥下面对其实
[209:19]就是你看到的还是一个又一个的frame嗯对吧但它背后其实体体现出来的东西是这个世界的状态是整个空间的这种全局的信息啊这件事情是完全超越你的啊这个镜头所encode的这种这种单独的单一的每一帧每一帧之外的啊我觉得我觉得这件事情非常有道理所以这件事情让我觉得接下来还是得要做视频即使视频难做即是视频需要处理海量的数据但还是要做对所以看吧是我们就做这件事情然后这件事情它有点像一个possession paper position paper就是一些啊应该怎么翻译应该就是一个观点式的论文我想要提出这样一个观点所以在那里面我们讲某种super sensing的概念就是说超感知的概念然后它还是一篇关于数据的论文它是一篇关于结构架构的论文
[210:19]然后它也是一个关于special intelligence的论文所以飞飞老师也帮我们提供了很多很多宝贵的建议但核心是说我们想要定义一个范式是说接下来多么太到底应该往哪走对吧然后所以你如果一步一步看这个问题的话就是说我们可能是一个不恰当的比喻但你可以拿无人驾驶里面来类比你可能有一个L0的系统就是什么都没有的系统这个东西就是一个large range model它完全不能观测到这个世界所有的这种visual knowledge它看不到图片它也看不到视频对吧但是它能够通过语言的方式像柏拉图洞穴预言一样能够侧面的了解这个世界这件事情没问题我们叫它L0L1是现在的多么太系统稍微具备了更好的能力它能够所谓show and tell
[211:19]就是说你给它看一个东西然后它能够告诉你关于你给它看东西的一些答案对吧你问它一个问题它回答一个答案这可能是L1然后L2我觉得是我叫它streaming event cognition就是说现在这个东西不只是看一张静止图片了你会有一个连续的streamable的这样一个visual stream就是视觉流你的智能系统需要能够了解这个视觉流然后能够去process就是处理这个视觉流然后并且能够回答一些问题能够去understand what's happened对吧然后再下一个stage我叫它spatial cognition就是这件事情是我刚刚说的是你在这个时间的序列上面的每一点怎么样去能够看到超越它的当前真的背后的就是这些像素背后的空间这件事情也是一个人非常unique的本领到最后
[212:21]其实我觉得终局就是说我们需要一个predictive word model对有某种预测性的世界模型这件事情才能告诉你关于你observe的这种real world的一切对我觉得我想通过这个paper想要讲的事情是说我们在build了一个阶梯然后一步一步通向一个世界模型的未来我们虽然可能不知道应该怎么define这个世界模型知道在这个paper里面我们不会去做这样的define的工作但是我们需要一个predictive word model我们可以去知道有哪些capability是我们必须得要有的对所以这是这个paper的核心然后这个paper然后我们也拍了一小段视频这个我还发到了Twitter上也是一些学生就是我们也没有花任何的钱也不是为了宣传就是一些学生拿着摄像机然后在纽约的街头上面拍了一段我们也没能很不幸
[213:23]没能拍出来毕干式的成镜头但是边走边拍然后算是一个写给纽约的情书然后但是很多人不理解说你们拍这个东西干什么这个东西跟你paper有关系吗我说当然有关系了我们这个paper的本身就是在讲一个活在这个真实世界里面的智能体它是怎么能够去摄入这种连续的视觉流的信号并且能够去感受到这个世界在发生的事情他们可能会被一些事情触动对吧会surprise对吧会感到惊讶但更多的时候他的大脑会有一个某种自发运作的这种世界模型在指导大家做自己就指导大家活在这个世界上对我觉得这边其实还蛮有意思的因为我其实也以前也没有做过这种有点像希望想要set一个agenda就是定义问题的这样的工作所以说也是希望像飞飞老师多学习吧就是飞老师经常说北极星对吧
[214:25]我一直在问他我在问的问题也是到底什么是视觉的北极星到底这个问题到底是什么应该怎么去解决它对所以这是这个paper你有找到答案吗找不到答案找到答案我就不坐在这儿我觉得这是一个终极问题我觉得这不是一个计算机视觉的问题或者说其实我想说的是其实计算机视觉这个term也很有趣吧它叫visionvision有两重意思它是一个非常有歧义的词语vision既指你的视觉又指你对未来的预判对吧就你说你一个人很有vision有愿景visionary有愿景对吧所以我觉得computer vision其实我完全不会这个我可以说我是一个做computer vision的人对但在我定义下的computer vision它是一个perspective它不是一个具体的任务它甚至也不是一个具体的领域
[215:26]它是一个perspectiveperspective是它是一个观点对或者说它是我觉得智能就它蛮本质的它是它是智能一定要解决的一系列问题的总和它是总和对我说具体一点就是就什么是vision或者vision care哪些问题呢我不一定能说的清楚让我想一想它第一它care处理的信号是连续控制的信号连续空间的高维度的有噪音的信号对吧这是computer vision要解决的问题computer vision要解决问题不是在纸上写了大量的文字我们现在要能够演化出某种智能它不解决这个问题它address这个market它的target的这个市场就跟language完全不同对吧连续高维度有噪音的信号这是vision要解决的问题第二从做vision的第一天起从我刚刚说我的第一篇paper
[216:27]DSN或者head HED开始我就知道或者说我就有这样的一个bet吧就是vision其实最重要的事情就是要学会这种层次化的表征就是hierarchical representation这件事情是非常非常重要的如果你的表征没有层次的话你是没有办法去解决这个世界上很多很多的问题的层次化的过程就是一个抽象化的过程这个抽象化的过程就是一个所谓的泛化的过程是一个generalization的过程这件事情跟language model又很不一样因为language model是纯粹在语义的空间里面去思考这个问题的所以当然还有一些其他特点比如说我说vision as a perspective比如说我想想它又是这种大规模的并行化我们现在能看到很多很多的东西我们大脑的皮层有很多地方在fire对吧然后我们在并行的处理很多很多的东西很多很多的不同object以及它们的因果规律
[217:29]然后Intuitive physics它们的物理变化这些事情是在不同的时间然后在不同的空间都都都在同时发生的然后我们能够有一个方式能够capture所有的这些变化我觉得这件事情也是视觉的一个很重要的一个特性然后最后可能还有一个就是某种我不知道应该怎么样去define这件事情某种某种某种特征的过程对吧比如说我看到就这件事情涉及到的语义的部分或者真正的understanding部分可能会更多一点就是说我现在看到一个小孩画的一只狗和一只动画片里面的卡通狗和一只真实世界里到处跑的狗对吧然后我是怎么把所有的这些不同的view的这种entity能够connect together对吧让我们有构建这种抽象的认知说他们都是狗对吧虽然他们千差万别
[218:30]在这种data的角度上面他们差的太远每一个pixel都没有可比性所以我想说的是vision要解决可能会有更多了我这个我其实也没有仔细想过对反正它会有一些这样的共行这些特点对吧层次化结构然后这种continuousdomain的模型continuousdomain的modeling然后还有这种大规模的并行和大规模的共享我觉得这些事情都是智能体的一部分这件事情不能够简简单单把它们规约为只是一个computing vision system要解决的一小块问题对所以这是为什么我会觉得computing vision这件事情我觉得虽然现在越来越少的人去做这个方向学生也越来越少申请的学生也越来越少大家在本科的时候选择的这个方向的时候也越来越不愿意选择对吧一个东西叫computing vision
[219:31]然后faculty招人的时候也是我们可能也越来越少的招一个做纯粹的computing vision的老师但我觉得这件事情是如果你认为计算机视觉是一个perspective的话我觉得这件事情是一个智能的本质你看过去这几年TrashPT来了之后CV以前其实是人工智能占据一个非常中心的位置当然这是在你入行之后发生的这几年LLM兴起了CV被退回到一个比较边缘的位置在这个过程中你觉得你们这些人沮丧吗我觉得我不沮丧我觉得完全不沮丧我觉得像我说的我要感谢这个LLM对没有LLM的话Vision也没办法拓展到现在这种真正的多模态智能的这样一个大的scope其实在视觉的发展史在看来其实也有两根轴你可以画
[220:34]这根轴是说在古早时期在最early的stage计算机视觉所要handle的事情永远是这些最单一最具体最简单的任务比如说Amenis的数字识别1234我要把它显示出来到底是数字几然后到后面有一些小的数据集像C4这样的数据是一个32x32的像素上面的十分类的问题是猫是狗是汽车是飞机然后再到后面像有ImageNet这样的Diastatic出现它变成了一个在256x256的这种level然后做classification的问题对吧但这些时候还比较相对来说比较可控然后再到后面会有detection segmentation就是这种更结构化的这种认识认知的过程对然后这些是competition然后再到后面对吧这根轴继续往前推演就会到比如说这种multimodal launch model的星期当因为多模态的介入
[221:36]我们可以很容易的放弃很多这些具体的比较固化的这种task的design这种任务的design然后去那我现在就可以拿着一张图问各种各样的问题suppose以这件事情语言作为一个很好的interface它是可以或者语言作为一种很好的界面它是可以去帮你解决很多问题的对吧所以你可以看到这个轴这根轴是从task从简单到复杂的这样一根轴但也是一个语言开始慢慢介入到competition的一根轴对吧这里面会有两个问题第一件事情是语言介入到vision之后带给我们巨大的好处让我们可以很自由的定义问题可以问任何事情然后可以得到任何答案但第二个很重要的风险在于语言的介入导致你对语言的依赖也变多了所以导致所谓很多多么太的时候
[222:38]这些任务其实跟视觉没有什么关系纯粹是一个语言的问题然后从这个角度来讲我当然是觉得对vision好像变得边缘化对吧但我当然不会觉得沮丧我觉得这是一个巨大的机会因为等到最后就是如果你现在解决的问题比较简单的时候那无所谓你用语言能解决的问题你就用语言去解决就好对吧虽然我没有看到我没有办法做所谓的grounding我没有办法知道你描述给我的红色的苹果到底什么叫做红色到底什么叫做苹果但somehow通过这种统计信息在语言里面我还是能够去完成一些决策的任务这件事情无可厚非我觉得没有问题但这里面暗藏的巨大的机会是说等到真的有一天我们需要去deal with这种真实世界里面真实的task去build某种真实的intelligence
[223:38]现在这种不够完美的这种视觉的表征就会是一个重大的缺陷所以杨洛坤的说法是现在大家都是只是拄着拐杖这个拐杖就是语言模型本身虽然你可以走路然后你会觉得我还走的挺好但是你可能跑不起来你也没有办法去参加奥运会因为你有一根腿这部分是所谓视觉的表征的这一根腿现在还是不够好为什么你说是真实的intelligenceLLM为什么不是真实的intelligence因为我觉得LLM是虚拟的intelligence其实我们的设计商所谓的智力不也是虚拟的吗我觉得可能虚拟这个词不对我定义的真实是说是跟真实的世界要发生交互的对这个意思是什么就是说你看现在LLM能解决的很好的这些问题
[224:39]大部分还是在digital space发生的比如说他能够记忆下来所有的这些factual knowledge他可以去知道对吧我们可以把所有的wikipedia的这些article全都存在里面知道一切他可以做很好的这种法律顾问他可以去甚至可以去帮忙去总结知识然后去做education去做教育大量这些这些东西对吧然后我觉得LM当然是革命性的但是这件事情跟我刚刚说的vision as a perspective要解决的问题其实完全不是一个市场如果你现在要handle的东西是continuous spacehigh dimensional noisy的这种domain的话那这些机器人这些space不只是机器人机器人是其中一个很好的例子我当然会说这些事情很难被tokenize的
[225:39]他们已经脱离了这个virtual space脱离了digital space对吧这件事情涉及到什么样的task呢你说非常对我觉得机器人是一个也会有很多的这些industrial application对吧process的control就是说一些所有的这些涉及到sensory modeling的这些信号就是说你有一个有很多不同的这种sensor对吧这种传感器然后他会感知到这个世界里面在发生什么事情然后你现在要有一个统一的算法去去model这个environment这个system使得你再去performing action或者intervention就是说你在有一个动作或者你有介入的时候你能够去预测出来这个系统接下来会会发生怎么样的变化这件事情是LM很难做到然后这件事情你说非常对我觉得在我看起来其实是有两个极端一个极端是LM非常擅长在数字化空间里面做很多很多的事情
[226:42]并且也非常擅长通过用coding这样的interface对吧通过agent的方式去介入到我们的物理生活之中这件事情也会发生也没有问题但总归是它还是基于一个离散的token的这样的一个position最右边是robotics但这个robotics不是简单的robotics这个robotics必须得要是真正的general purpose的robotics它能够generalize到就是泛化到一定程度使得他能够做人能做到的一切他有自己的一套角色系统然后他有自己的一个自己的大脑然后我现在感觉就是说这两极对吧然后从LM怎么样一步一步推演到robotics我觉得这才是计算机视觉或者在新的时代下面视觉智能所要解决的问题
[227:43]然后我觉得这件事情也是多模态的未来因为很明显现在robotics还不work然后我经常跟学生说或者跟我身边的人也说其实我最想做到的事情是通过不做robotics的这个方式去解决robotics的问题为什么呢因为你觉得robotics的方式解决不了robotics的问题吗倒也不是因为我觉得我们每个人就我觉得robotics进展也太快了对吧现在春晚上面这些语书什么的对我觉得都令人有点瞠目结舌但另一方面我觉得还是要有人focus在预训练的部分就是所谓的这种机器人大脑到底是什么或者这个大脑包含了你的视觉系统对吧在控制的部分在硬件的部分这部分又是说兄弟爬山各自努力我觉得我不需要去过早的介入硬件
[228:47]然后去做这些事情对我觉得现在有fundamental的research的问题在软件层面面对吧在这种大脑的构建上面没有解决我们需要先专心把这一部分解决好当然这一面很多人会argue说你必须得要有一个相当于一个闭环你得要有某种合作的方式你得要在你的机器人上面去做验证不然的话你现在build的某一个算法某一个模型可能用不上这件事情我也完全认同但我觉得这件事情可以通过某种partnership的方式对我只是不想买回来我也没钱我也买不了那么多硬件了那么多机器人机器人也有自己的硬件的skilling law就你是需要买很多的机器人才能做好一个硬件的对我想focus在大脑的部分然后我觉得这件事情是计算机视觉需要解决的问题是表征学习需要解决的问题也是我觉得到最后世界模型要解决的问题你看凯明那么早就开始想就是要大大大
[229:48]为什么LLM的skilling law比CV要早呢那么多好问题对我觉得首先不能说早那么多因为CV现在没有一个skilling law对吧然后其实之前我是我们都很绝望的我说Vision怎么始终没有这样一个skilling law现在可能还行现在比如说这些video diffusion有一定的skilling behavior就所谓skilling是你能把数据吃下来对然后你能够得到更好的结果对吧或者说或者说更形式化的客话就是说你就是说你现在如果有一个transformer system我现在满足C等于6 这样一个配比就是说你的computer基本上等于你的6倍的你的token和你的number parameters的成绩然后我想借用这个形式化的定义来说这件事情是因为我现在觉得越来越觉得Vision不需要要一个skilling law
[230:52]为什么因为againVision care的事情跟language care的事情完全不同我的一个不能说暴论吧但是是一个观点长期的观点并且有很多做NLP的人其实都认同这个观点就是说language model其实不是一个自监督学习的过程它其实是一个strongly supervised learning的过程就是说它是一个强监督的过程这件事情看你怎么看什么叫做有监督或者没有监督对就是这里面的逻辑是这样的通常我们讲说你有没有外部的这种annotation外部的label这件事情决定了你是自监督还是强监督学习对吧但语言这个东西太特立了什么是语言语言是人在过去这么几千年的civilization然后经过不断的演化然后在不管是社会学的意义上还是每一个人单独的个体的意义上
[231:53]然后process了所有的关于这个世界的一切然后以一个tokenize的方式把它存储下来恰好我们有了一个东西叫互联网然后我们把这些knowledge全都upload到互联网上面去所以恰好对于所有的LM的researcher来说这件事情是for free但一个东西免费不代表它没有label一个问题就是说假设我们现在没有互联网你现在要训练语言模型你还能做得到吗打书宣纪宪是的或者说假设你没有书对吧是的exactly就是这种knowledge的upload这件事情本身是一个supervision construction的过程对吧所以这件事情跟视觉是不一样的所以有点像language想要解决问题始终停留在target的y space我们通常讲你有一个x到一个y的一个映射是所有的积极学习你可以通过某种不管这个x跟y在哪里反正你可以去这么去定义这个问题然后y通常大家讲是supervision是label
[232:56]然后x是你的数据对吧你可以认为这个language model其实只在刻画y space上面的事情但这件事情是对回到刚刚的问题就是说这件事情其实不足以代表这个世界的全部有很多东西你是没有办法去通过语言去描述文科化或者说这件事情既是language的好处也是language可能最后像我说的可能会逐渐凋零或者说lm不会作为这个整个世界模型的根基的一个原因原因是就是它的好处是这件事情你不需要做任何事情就可以跟人有某种对齐因为你写下来的每一句话每一个文字都是人写的都是人写的对吧你写下这件事情就language是什么language是一个communication的tool
[233:56]language不是一个思考的toollanguage甚至不是一个你decision making的tool它是一个communication它是一个交流的工具所以如果它是一个交流的工具的话你总要make一些trade off你总要牺牲掉一些东西对吧所以然后我觉得我想说的事情主要是对它作为交流的工具跟人对齐的很好但另一方面它也失去了很多本来它就是一个智能系统应该去model的东西对比如说我们现在说我有一个杯子掉在地上碎了其实这是一个语言我们之所以这么说是因为这就是我们对最适合我们沟通的一个东西我们只在乎这个事情的结果和状态
[234:57]我们不在乎一个杯子掉在地上它到底是怎么碎的它满足了哪些这种物理定律它背后的这种动力学规律到底是怎么样它的dynamics到底是怎么样这些事情我们都不care所以我觉得这也是它的一个局限LLM的人会抱怨说加入视觉以后有可能会影响他们的智商为啥真的吗对他希望像杨志玲就是说加入多摩泰他们希望不要是一个傻的多摩泰是我同意当然不应该用一个傻的多摩泰到后来我觉得是如果不加入视觉你一定会很傻然后但我觉得这件事情其实问题的根本在于到底怎么定义聪明和傻对就是对智能智能的定义是不一样的对智能的定义是不一样的然后或者说到底怎么去定义什么是一个简单的任务
[235:59]什么是一个难的任务在过去的几十年的时间里所有的这些人工智能的researcher会不断的去撞到所谓的Marovik paradox这个Marovik悖论上这个悖论说的事情是说你的对对于对于机器简单的事情或者说the easy problem is hardthe hard problem is easy这是一个悖论就是说对于机器简单的事情来说对人其实是难的对于机器难的事情来说对人其实是简单的你在NYU好像还有几篇工作对从Vistar开始Vistar其实只是一个工作我觉得蛮有意思可以讲一下因为我们是第一次觉得想要在一个multimodal system里面去building一个system tool所谓的这种可以去在test time做scaling的这样一个模型就是说我们看我们周围的世界的时候
[236:59]比如我想要问你一个问题比如说你周围的旁边有个垃圾桶是什么颜色的你不会直接像语言模型一样直接告诉我一个答案你一定会去先去想一想哪里有垃圾桶你可能会回家头发现那有一个冰箱也许垃圾桶在冰箱旁边然后你会localize这个物体然后找到这个物体对吧然后告诉我一个答案所以你是有这个viral的推理在这里对吧某种视觉推理在这里然后这件事情完全是一个推理过程中的一个behavior对吧然后这件事情我们当初就做了这样一个系统然后这也是比如说就是在这个Testv01之前很长一段时间至少隔了几个月吧然后我们开始做这件事了对那时候这种test time scale这种test time scaling还完全不是一个buzzword还有nobody was talking about this对吧然后我觉得这件事情可以聊是因为这件事情其实对于我来说其实是一个我觉得它既是一个
[238:00]我觉得它是一个bitter sweet的这么一个lesson吧就是说它苦涩的一点在于我先跟你讲发生了什么就是说我们有这个paper之后我们有了自己的一个benchmark然后我们找了就是我有两个朋友就是Alex Kirilov他也是Sam的作者然后还有博文他俩在OpenAI工作所以我跟他们聊了很长一长的时间我告诉他我们这个工作做了什么事情我们这个benchmark现在在这儿你可以拿去玩一玩并且我也讲了一些关于这一面背后的逻辑对吧就是说你怎么样能够去做这种viral thinking然后后来Alex跟博文就drive在OpenAI里面drive这个project这个project就叫think with image然后后来隔了大概可能一年多的时间然后这个product launch然后这个product launch之后就叫think with image然后里面其实很多example或者他们benchmark其实就是我们这个paper的benchmark所以我觉得它让我觉得很幸福的一点在于
[239:02]这是第一次我觉得我们其实可以有办法真的走一条不一样的道路这件事情可以somehow启发在OpenAI的researcher去improve他们自己的模型我觉得这件事情至少我觉得在学校里面有事情可以做但另一方面又比较bitter是因为你想在那个时候OpenAI对吧在Sour的时候我DIT之所以大家能够去接受也是因为DIT会在Sour的block post会被site或者说build的名字在上面大家能够去找到逻辑和背后的线索对吧但很不幸我觉得慢慢最近的几年时间里面其实industrial的这些research lab变得越来越close所以一开始大家发论文后来大家不能发论文了可以写一些block post你可以加一些citation也可以把每个和team member的名字写在上面再到后面
[240:03]可以发一个blog post但已经不能有署名了只能有一个open it team或者jam it team就结束了所以我觉得这件事情会导致我不知道接下来的这种本来可以很良性的学术界跟工业界的这种交流的这种渠道是不是会被打断对吧就我们做research本质上还是一个为爱发电的过程就我们为了探究这些问题我们也不是为了真的他能够deliver什么产品或者赚多少钱但另一方面某种credit assignment就是让大家知道谁做了什么事情我觉得这是在过去的几十年里支撑学术界能够往前走的一个一个机制但现在这个机制慢慢被被LM这一代的对模型以及这一代模型背后的这种组织结构我觉得慢慢打破了它变成商业竞争了
[241:03]它变成了一种商业竞争是的对然后对然后quickly conclude一下我觉得还有两篇我觉得我想迅速提一句的这个论文就是说repa这个东西叫做representation alignment你看又有一个keyword representation所以这是我为什么非常喜欢这篇论文但这篇论文也是经历了这么长时间然后所有过去的这些工作以一种奇怪的方式组合到了一起形成了某种化学反应然后开启了至少一个小的research的domain对然后做的事情很简单它本质上是一个deeply supervised nets就是说你现在一个模型不只有最上面有一个diffusion的loss就是你final objective你中间还会拉出来一些其他的这些objective你可以有其他objective我们用的objective是说我希望能够让我的一个diffusion一个diffusion model它是一个生成模型by the way让它的internal representation能够跟外面的一个自监督的一个模型
[242:05]the representation能够align到一起就这一面again讲的事情是说表征是最重要的事情它不但对像cambrian one这样的system做multimodal understanding重要它对一个生成模型生成图片生成视频也很重要对所以这件事情我觉得是一个对我来说一个蛮大的启发但这件事情还没有做到位你就是说我为什么要用这种dp supervision的方式一个非常间接的方式去做alignment呢what if对吧能不能直接用这种很强的这种representation作为你的生成模型的一个encoder或者说作为它的一个foundation对吧然后这件事情又是再往前推了一步我们也得到了很好的结果这个paper叫做re-representation autoencoder对它也涉及到表征也涉及到autoencoder但anyway这件事情里面的逻辑我觉得again我不想说太多的paper的detail
[243:06]但我觉得有一件事情马毅老师当初我去香港访问的时候我觉得他说的非常对他说有学生就会问说你这样做这件事情对吧你的autoencoder你的表征层现在会变得非常高伟因为它是一个表征了它不是原始的简单的这种pixel的representation也不是一个低维的VAE的这样一个representation它是一个高维的表征你想要在这个高维的表征上面去做去造去生成图像这件事情其实是一个很难的事情对吧然后有学生当初就提问说这个维度太高了可能不一定是一件好事然后可能会让我们的学习系统变得更复杂或者说训练更难首先我们的结果完全是相反的结论但是马毅老师就很激动了他站着说说我要告诉语重心长的告诉大家说你们一定不能害怕高维度高维度是所有机器学习里面
[244:08]非常重要的一个基石不管是之前的所谓的这种核学习的方式Kernel method还是现在为什么一个transformer里面我们得要有这种up projection layer你要有一个地位的向量进来然后把它变成一个4倍宽的这样一个fully connect layer然后所有这些事情都是在讲述这样如下的事实就是说你在一个高维的空间里面很多问题原来在低维空间里面解不了现在可以解很多信息原来在低维空间里面没有现在可以有然后你也会有更好的efficiency然后这是传统机器学习理论为什么你要做升维之后什么事情使得你的data points可以变得线性可分都是同样的逻辑但我觉得我受到很多的鼓舞是说你不要惧怕高维我觉得这件事情用词很好因为很多时候大家会觉得会害怕
[245:11]会害怕不只是高维度的representation表彰这件事情也是害怕逃逸出当前的某种local optimum就是说我们现在就我们之前做的很多事情都是为了要跳出这个local optimum所做像VAE就是当前这个时代里面的一个local optimal我们希望用一个表征学习的方式把所有事情串联起来然后这件事情其实是一个很自然的事情然后现在有很多人做相关的执行论文有很多同期的工作也都非常好但另一方面这又是一个没那么自然的事情因为你需要去跳出原有的框架去做一个新的事但当你能够跳出这个local optimum去做一个新的事情的话我觉得你你就会感觉你的世界被打开了因为RE至于我们或者对于我的research来说我觉得还是一个蛮重要的工作因为它告诉我一件事情或者说让我能够去make一个bet或者说我们能够预测一个未来
[246:11]这个未来是什么或者对还是不对我们可以过几年之后再来看所以这件事情也跟语言相关也跟Diffusion Model像最近很火的CDANCESAR都有关系所以我觉得这件事情也跟语言相关我现在的bet是说这个世界上只有一件事情是重要的就是怎么学习到这个表征这件事情是重要的当你有一个足够好的表征之后在上面处理其他的问题都是简单的你的language model会逐渐会退化到一个简单的communication interface它不像现在一样所有的这些多模态的智能都是通过大语言模型驱动的你的表征层只是提供一些简简单单一点点contacts进去大部分的这些所谓的highway lifting就是这些脏活累活都是靠大语言模型来做到的我要make的这个bet是说未来事情不会整
[247:12]未来你会有一个很好的foundation它是一个很好的表征但它也是一个很好的世界模型然后它什么叫做这个世界模型这个世界模型是一个很好的表征这件事情我们可以再聊但是这个foundation本身它可能不是一个checkpoint它有可能是一个neural modular connected together的multiple components的一个cognitive architecture说的好复杂但本质上就是你的一个大脑它有不同的区域在很多不同的事情对吧语言会慢慢LM层会慢慢退化成你的本质的表征或者说你的世界模型的foundation的一个接口它还是一个很好的表征但是很重要它永远不会消失因为人需要通过一个login model提出问题然后回答问题对吧他要去跟他沟通需要跟他沟通是一个沟通界面它是一个界面对另外就是说你还有一条线是说你的pixel generation本身
[248:15]就是你怎么样生成一个图片一个视频本身这件事情通过RE通过REPA我们之前一些的这些工作可以看到它也需要基于一个足够好的这样一个表征的基础或者说你可以认为它是一个世界模型again在我这里面在我的定义下表征就是一个世界模型最重要的一个部分它不是它的全部它是最重要的一个部分但当我们有这样的一个foundation之后你可以认为我们可以把它轻易的decode成语言对吧然后我们可以轻易把它decode成一个pixel然后生成视频我们也可以把它decode成某种action某种动作所以它可能就是某种现在的这种VLA的类似物但它是基于一种更强的表征更强的世界模型的一个架构现在表征包含哪些部分语言是其中之一我觉得是其中之一然后当然这件事情也有争议就是你像你刚刚说石林可能说他不想让视觉来污染语言
[249:16]他们还是会做多模态但是要想怎么让多模态变成一个聪明的多模态就不会让整个大脑的智能水平降低是的是的是的这件事情但我又要讲了这件事情真的取决于你怎么定义这个问题但我先把前面一句话说完就是说你说比如说语言在其中的位置我觉得我们也会有自己的担心就是说语言其实是一个毒药或者语言其实是一个鸦片你加多语言你总是会觉得更幸福的那说不定它有用啊这个拐杖它有用但它是一个说法如果你一个人如果一直什么吸鸦片你就废了然后如果它是一个拐杖拄着拐的话你也没有办法训练你的大腿的肌肉这是你跟直林的两个perspective对所以我非常担心语言对于视觉的污染这件事情对我来说非常非常担心
[250:17]而且之前这个污染已经在发生了这个污染的发生的状态是这样的这个污染的发生的状态是整个Large Range Model有一个巨大的这样一个价值链条从工业界一步一步传导到学术界这个价值链条是说我们在最上层有一个narrative这个narrative是Whatever AGIScaling LawBeta LessonLM这些叙事的逻辑现在的圣经啊对啊等一下我们给你讲一下Beta Lesson因为我完全不觉得Large Range Model是一个这个Beta Lesson的一个一个展示它Large Range Model其实是反Beta Lesson的最后哪些表征会是足够通用的表征它的终点是什么呢终点我们可以叫做就是世界模型所以也许我们可以讨论一下在我定义下或者在于这个表征的这个concept下面世界模型到底是什么意思什么是世界模型
[251:18]对这也要马上进入到你创业的话题了我们先从对从动物态到世界模型对嗯是这样就是严格定义上来讲世界模型就是说你现在给定一个系统或者一个环境的状态这个环境状态可能就是比如说你可以认为它是在当前时刻的一个状态但世界模型也不一定只是做所谓的Temporal Sound Prediction但我们先不管这些事情总之是你现在有一个系统或者一个环境你有一个状态ST对吧然后你有一个IntervalAdvention或者Action比如说我们叫它AT在当前时刻你对这个系统施加一个动作你现在希望能够学到一个Predictive Function或者Transition FunctionF使得它能够take你的Action跟你当前的State这个环境State能够去Predict下一个State对吧就是下一个时刻的State嗯
[252:19]所以这是最基础的一个General的这种世界模型的一个定义然后这个定义本身其实又无比的直接或者说甚至有点Trivial因为这件事情不是一个新的概念因为其实1943年的时候有一个生理学家叫Kenneth Craig他第一次提出了这个概念他就说人在脑子里面是有这样一个世界模型的这个世界模型能够告诉我们当我们去做某一个动作的时候接下来会发生什么样的后果嗯我们因为能够预测我们的动作我们的Action带来的后果所以这件事情能够指导我们到底应该去take什么样的Action和做什么样的决策如果我知道我把手伸到火堆里面我会疼我就不会对吧把我的手伸到火堆里面这件事情这种Prediction的这种结构
[253:21]其实也是过去包括Control 3这个在六七十年代然后大家怎么样把一个月球探测器送到月球送到什么地方对吧然后其实大家也需要基于这样的控制系统比如说一个经典的算法叫做Model Predictive Control这里面也涉及到一个Model但这个Model其实也就是某种Word Model这个算法其实也非常简单就是说你现在需要讨论我到底应该施加哪一个Control Signal给这个系统使得他能够去完成我既定的一个任务对吧然后我要做的事情是说我在当前的时刻通过我的模型去Roll Out去滚动输出接下来的Kick Stop的Action一个Action Sequence就是说我现在要输出我接下来的一个Action Sequence动作的一个序列然后我要通过这个动作的序列
[254:22]用我的这个Model去得到下一个时代或者说每一个时代每个Step上面的一个State然后最后我也会有一个某种Cost的Function一个度量函数然后告诉我我执行了这个动作序列之后我离我最后的目标距离到底有多远所以这个算法就非常简单就是说你不断的去Sample你的Action Sequence然后跳回到第一步就是说然后找到Cost的最低的Action Sequence执行它的第一步然后重复迭代的去做这个动作对吧再Roll Out到下一步的Action Sequence对所以在每一次你都要做一个决策然后这个决策的来源都基于你对未来的这个预测对这是所谓在这个Model Predict Control里面大家怎么去用这个Word Model然后再到后面比如说在Model Based I/O里面Renforced Learning里面其实大家也意识到说一个Word Model其实是非常重要的然后所以这边有一个经典的论文是Dyna
[255:23]Dyna这个paper其实是RichSutton的paper对所以Rich Sutton自己写了这样一个paper然后他讲了一个很有趣的观点或者一个Framework他讲其实人的智能体系可能可以分两种一种叫做Reactive Policy一种可能叫做某种更智能化的Model Based Policy对吧这件事情其实这个类比是所谓的System 1System 2这种AnalogyHuman Cognition也有所谓的ThinkingFast,Thinking Slow对于很难的问题我们可能要需要更多的Mental Cycle然后去去Study这些问题但对于一些问题来说我平时或者说我们开车我刚学开车的时候紧张的不得了我左看右看然后需要做很多的决策当你真正会了开车之后你就会把这些决策内化成为你自己肌肉记忆的一部分它就变成一个Reactive Policy所以Rich Sutton在Dyna的paper里面说了一个很有趣的事情他说What is Reinforced Learning?
[256:25]Reinforced Learning是一个非常Primitive是一个非常基础的没有模型的没有世界模型的一个Learning Algorithm所以Rich Sutton自己其实也是有点反Pure Reinforced Learning至少在当初的时间在他的paper里面他讲一个更好的系统当然是说如果你有一个足够强的世界模型你可以基于当前State去预测下一个State这件事情你就有这种所谓的Planning的Capital在里面了Planning就是所谓做计划的能力然后Planning其实跟Reasoning在某种意义上也是同样的概念Reasoning现在在Logic Management Model很火但事实上我们需要的这种Planning然后以及Planning对于Decision Making的这种意义其实是在当初很早很早在Control Theory在Reinforced Learning其实大家都在讨论的所以我觉得这是一个World Model的历史所以如果从这个角度出发World Model的实质
[257:26]是怎么样去刻画一个系统和一个环境使得你能够在这个系统里面去做预测并且这个预测能够指导你的Action的Sequence以及你的自己的决策代言模型是Predict Next World这个是Predict Next Action是基于这个Action Predict Next State怎么理解StateState是最少的信息可以描述一个系统的所有状态的这么样一个信息的来源可以这么认为一个State是说比如说这件事情也涉及到一个很有趣的事情很有趣的另外一个事情我们得要讨论就是这件事情跟表征的关系到底是啥我为什么说是一个最小信息的一个刻画单元是因为假设我们现在就是说我们现在这个物理世界对吧我就说我地球吧
[258:27]或者我先不说那么远我们先说我们这个屋子对吧这也是一个环境了对吧那刻画这个环境的State是什么对吧这个State如果你不追求这种所谓的最小信息或者Minimal Description Length那它就是可以是比如说我们现在把整个的这个Space全都重建起来对吧然后我们精细的去刻画这个系统里面的所有的参数包括这个桌子上的纹理包括我们声波对吧包括我们这个桌子的质量这个话筒的这种各种各样的Physical的这种Parameters但我们不会这样去刻画这个系统的对吧因为很多这些信息对于我们的角色来说不重要对吧因为其实如果假设我们现在一个智能体活在这里的目的是我们现在要聊天嗯那我只需要知道一些东西是什么样的啊那我只需要一些基本的这些事实就够了
[259:28]比如说我的这个话筒可以在这个桌子上可以放住然后我不会去关心每一点的这个光照也不会关心这个桌子上每一个细节的纹理对吧这些事情都不重要所以这个State其实可以包含很多很多的信息也可以包含Enough信息就是足够多的信息这件事情也是取决于你要解决什么样的任务的这件事情是什么就是怎么样去去构建这样的一个State呢这件事情其实也跟表征学习是直接相连的嗯表征学习像像我刚刚说的对吧我们要有一个层次化的这种表征啊这种层次化Hierarchical Representation其实目的就是说我们怎么样能够去慢慢Develop出来这种一层又一层迭代上去然后越来越抽象越来越对我的Decision Making越有意义越有价值的这样的Representation嗯它不会惊喜到每一点它不会惊喜到每一点
[260:28]那现在怎么抽象呢而且我们也不能惊喜到每一点就做不到对因为因为这件事情很显然对吧就比如说我们现在要造一个飞机然后这个飞机比如说我每比如我们想要model这个飞机的一个动力学系统对吧我要知道这个怎么样它能够比较省力省油对吧我们当然可以去从一个最low level的角度出发我们可以说哎这个呃每平方每立方厘米可能有十的十十几个四方的这种分子然后我们去model每一个分子的碰撞对吧然后然后我们我们通过这种方式来去刻画我们这个系统嗯这件事情当然不会work这是totally stupid way对吧我们做的事情是说我们怎么样去能够在统计的意义上去study这个问题所以这才有所谓的流体力学然后才会有所谓的这个navier stock方程然后一系列这样的setting对吧大家变得越来越抽象然后然后但是我们能够去这个刻画的世界也越来越广阔
[261:34]嗯其实语言就是以某种意义上的抽象语言是某种影响的抽象但是它是一种就是已经被证实过的抽象它是高度理念的就是它它是一个已经存在的抽象它是一个存在的抽象对那你你们现在想构建的是一个新的抽象在语言之外它是一个对它它是它是一个有点啊它一定是一个latent的representation嗯对然后这件事情人可以通过侧面的方式了解到你到底学了什么样的一个representation或者说哪些representation的呃哪哪些representation是有意义的这件事情都没有问题它不是一个完全的黑盒子但它不是一个受限于语言的句法跟逻辑的这样一个东西这是我为什么说LM完全不够bitter lesson嗯嗯就bitter lesson是说你应该尽可能的减少human knowledge对吧把你的这种所谓的人类的人类的傲慢和和他和他所谓的这种自大呃这种这种傲慢和他的所谓的这种聪明才智啊
[262:40]呃以及这些所谓的比较clever的这种structure尽可能减少然后尽可能的多用search跟learning的方式去找寻答案对吧但你可以想象如果现在我们讨论的是怎么样去去去刻画这个世界的话啊语言就是这样一种structure语言是一个人类极其聪明的一个产物嗯他有精巧的设计我觉得他本身就是他都不是多和少的问题他全都是他都是对嗯所以嗯所以所以我觉得这件事情代表着这个语言他有他自己很强的力量而且他一定会在未来的智能所有的这种智能体系里面占据一个很重要很重要的地位而且他可以cot嗯但cot是另外一回事了cot也是另外一个呃我觉得怎么讲呢是一个阶段性的产物吧对哦cot也是阶段性的产物
[263:41]对all in的所有的一切都是一个满阶段性的产物哦这也是为什么all in就这件事情我也蛮同一样的就是all in这件事情其实他也不controllable他也不safe因为他没有这样一个真正的世界模型甚至我们把all in当做一个世界模型在用但他是一个fundamentally flawed就是一个有缺陷的世界模型对然后呃这件事情是说其实就是说嗯现在的所有的这些controllability或者safety对吧你一个all in怎么去做这些完全是通过翻tuning的方式来来设计的来实现的你需要喂给他大量的数据让他知道什么事情该做什么事情不该做或者他也不能做事情什么话能说什么话不能说对吧什么什么样的话可能会带来危险什么样的话啊可能是是比较友好所以这叫做alignment但所有这一切都是基于某种post training或者某种post training或者funtuning的alignment带来的嗯对但真正的世界模型其实你不需要这样做
[264:44]因为你可以预测你的action会lead to what consequence你可以你可以你你的你的这个行为会带来什么样的结果那你就可以在influence的time的过程中去尽量避免这样的行为你可以加一些external constraints就告诉我说哎这件事情你真的不能做比如说我有一个机器人拿着一把刀在切菜对吧然后我现在怎么样保证我这个机器人拿着刀不会这个向后一转把你砍的呢这件事情怎么保证对于一个language model思路来说你你你能做到这件事情的方式就是通过喂给他大量的数据嗯对吧他得要能看到这件事情世界模型不是吗世界模型不不一定需要对世界模型他因为你能够去预知这个结果就是我能够去呃有一个动作我可以去understand我现在这个刀如果转过来产生了一定危险会造成的结果你怎么让他知道呢呃这就是你的训练的一部分
[265:45]嗯关于世界模型现在好像他的定义是没有收敛的比如说你们定义的世界模型和李飞飞他们团队定义的世界模型的区别是什么样呃对所以我刚才阐述的其实都是在我们定义下的世界模型嗯啊但我觉得现在遇到很多的问题是说这个世界模型不好定义原因他其实是因为他不是一个技术路线啊他不是一个算法他是一个目的嗯就我们所有人不管你在做lm还是做什么video diffuser model还是做这个高深spotting我们所有人都在通往世界模型的道路所以所以我说我说我说有时候这些竞争或者说这些这些arguments听起来我觉得在过不了多久可能过一到两年时间都会显得异常可笑因为因为我们其实都在往这条路线发展然后每个人也都知道这件事情是应该啊应该是应该是正确的道路但只是大家从不同的方向在思考这个问题
[266:47]那比如说在我们定义下或者说我先说其他人定义吧对吧比如说对于一个video diffuser model的company比如像像像扫瓦像这个by dance的模型像genie对吧然后所有这些模型他们包括runway什么这些luma每一个做这种生存模型的公司都在做这件事情都在position themselves as a world model company但他们其实还是主要聚焦在构建一个世界模模型的模拟器上一个世界的模拟器上所谓的world simulator他们的目标还是能够渲染出来足够好看的视频使得它能够有某种一致性能够有足够长的这种内容等等并且你可以在上面施加控制你可以选择像genie一样对吧向前走两步向后走两步你要保证你有一定的memory或者whatever这件事情是他们的这种world simulator或者说这种生成派的world simulator想要解决的事情
[267:49]对然后飞飞老师那边在world labs里面我觉得它更像是一个front end的一个asset的interface这件事情也很重要因为它是一个强3D的representation所以这是by the way也要恭喜他们最近不也刚刚融资成功如果你可以看到他们融资的这些lead investor对吧他们在讨论的人比如说我看到新闻autodesk给他们投了2亿美元那autodesk是一个什么样的对吧autodesk是一个做3D这种cad或者whateverdesign这样一个公司所以在这个场景里面你需要有一个非常具象化的3D的一个你可以叫它表征它也是某种表征但它是说你这个东西不是一个抽象的概念对吧它不是藏在你的参数里面它得要有explicit的3D的这种形式在那这样的话你才能够在这个空间里面去掌握某种空间智能
[268:50]你才能够在这个空间里面去探索并且你能够100%的确定你不会出错对于一个word simulatorgenerated word simulator来说这件事情是不一定的对吧虽然你可以通过更长的context有更好的memory但它是不能保证的然后我们想要做的事情其实更像是要去打造这样一个predictive brain对我们看到这个问题的时候这个问题的核心还是说怎么样去提升智能本身对那这意味着你觉得LM是不智能的我觉得again就是LM是这个智能体中的一个至关重要的一部分它是一个模块但它不是全部它不是全部对我再举个例子比如说为什么LM做世界模型来说它是fundamentally有问题的比如说我们还是回到视觉这个问题上对吧我们现在坐在这里我们稍微头稍微扭比如说5度10度
[269:50]就会生成几百帧其实frequency是非常高的人的FPS其实是可以感知到比如说100赫兹这种频率的变动的非常非常厉害对吧如果按一个Lm的方式去处理这个问题会发生什么呢会说至少按现在的这个方式去处理会发生的事情是我要tokenize每一个frame我们把它拉平串成一个非常非常长的序列每一帧我可以做一些当sample或者没关系whatever然后我们把它串起来对吧比如说我有256个tokenfor one frame我现在可以有32个frame或者128个frame把它串到一块那你就有256乘128这么多个tokens然后你把它塞到washington model里面拿它跟语言做对齐然后最后回答一个问题但这件事情make sense吗完全不make sense对吗因为其实你把一个这种世界的这种representation
[270:53]在它的背后其实是有某种global state的对吧你把它序列化成了一个非常非常冗余的token然后transformer其实大家说它没有什么in-depth bias它其实还是有一些in-depth bias它in-depth bias就是说它得要pay equal attentionto every single token这件事情本身就不合理对吧这件事情代表的事情是说语言模型的modeling的technique不能够解决对这种连续空间信号的这种认知的问题这件事情是不成立的对吧所以这是为什么对于我们要build的这个世界模型来说我觉得需要具备如下几个特征对吧它需要能够去understand the physical world就这里面的定义是说得要是physical world虽然word model application也会延伸到比如说这种digital agents去
[271:53]比如你打游戏的agent当然也会benefit from word model但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题但我觉得它首要的任务是要解决这个世界模型的问题然后它得要有足够大的associate memorymemory也是一个很重要很重要的对于这个word model为基础的这样一个系统的中间的一环对于这个word model为基础的这样一个系统的中间的一环对于这个word model为基础的这样一个系统的中间的一环然后它能够reason能够plan对我觉得所有这些事情again这也是我朝样的这个说法了但我觉得这几点其实还是非常精辟的对不多不少它和大圆模型不是延伸关系是替代关系我觉得也不叫做替代关系我为什么刚刚说其实我们现在领域每个人都在往世界模型发展
[272:54]往前走呢对吧原因是大圆模型也想往世界模型发展对吧原因是其实不是这个意思是说之前没有大圆模型的时候我们压根谈不了什么世界模型你有一个纯粹的IL的system的话你纯粹是在做overfitting当前enrollment的事情large and large model让你具备了一定对这个真实世界的认知的能力它构成了一个元素它构成了一个元素然后但这件事情像我说是fundamentally flawed因为它的这个认知太间接了语言能带给你的东西实在是太少了而且语言还会有其他的问题它是一个本质上是一个communication tool所以我们在使用语言的时候除非你说一些做梦了说一些梦话大部分时候你用语言是带着一个intention的你是要传达一个目的的所以说LM更像是一个在我看来更像是一个search engine的延伸对吧或者拆爆更像是一个search engine的延伸
[273:54]我们总要带着我们心里面的目的去问一个问题然后expect一个答案对吗然后但是这件事情不是这个word modelword model的实质就像我刚刚说的word model我们大脑里的word model是在我们的这个background做了很多很多的工作的它甚至就有很多心理学一些反直觉的认知就是说甚至你大脑已经替你做好了这个决定在你决定要比如说我桌子上有三个按钮在我知道我到底是怎么做的到底想要按哪个按钮之前我已经能够监测出来我的大脑已经做好这个决定给你这件事情这个实验好像叫什么贝利特实验还是什么是一个有争议的实验但它体现出来的事情是有很多东西是在你的background在你大脑里面已经在发生的这件事情是你的word model一部分language model不是这样language只是一个communication tool你永远带着目的你永远抛出一个问题想得到一个答案它也是一个推理的tool
[274:55]对它也是一个推理的toolof course但只是symbolic level的推理的tool所以你们想构建一个像人类的大脑一样的世界模型我觉得要越来越看看人其实不只是人吧各种各样的动物它的智能到底是怎么样发生的对我先conclude一下我刚刚说的那段话就是说我觉得为什么大家一步一步都在通向通向这个word model呢原因是语言模型已经侧面有一点这个word model的behavior虽然它没有action它没有一个对真实世界的understanding它其实也不能够真正的reason and plan因为它通过COT的这个planning还是COT的这个reasoning还是很不一样跟我刚刚描述的比如说这种MPC level的这种planning它也会带来它自己的一些问题但这些都ok但再下一步你会看到比如说大家做这些不管DIT也好或者whatever模型也好但大家还是做生成模型
[275:55]这件事情已经是成功的了已经让事情变得有些不同了对吧这也是为什么很多人大家做video generation会说自己是世界模型我觉得也无可厚非虽然我不同意他们做的这个video generation model就是一个最后的end game的世界模型但它确实比language model要往前推了一步对它是怎么做到的呢它在language model的基础上我觉得现在所有这些系统其实也是要依赖于language model的它还是要通过language model帮你去做prompt rewriting然后去帮你去当做一个conditioning丢给你的视频生成的模型其实language model也会变成了一个你看这个历史的进程就很有趣原来language model是主体现在language model变成了一个video generation model的前期的一个准备工作的一个脚手下原来language model里面你model的是py对吧
[276:56]你这个y就是还是在这种semantic space的某种label space的信息到现在你video generation model的时候你model的是px given y的概率这个意思是说你现在model的东西已经是x了x是你的数据本身你的y变成了你的一个条件这件事情已经很不一样了为什么很不一样呢是因为当你有一个low dimensional的y space的时候你在去model这样一个分布的时候你的probability density只会在你的y的分布下面竞争就是说你assigned likelihood我这个说的有点过于technical但是总之是或者说我们先不说语言模型我们先说比如说一个1000类分类的这样一个模型你认为这些label也是一个语言的前身对吧它也是一个low dimensional的一个vocabulary对吧然后如果你要做这样一个分类问题的话那你的所有你需要去做的决策是我这个东西如果是一只猫它不能是一只狗
[277:57]对吧我这个东西是受限于我的这个label set但是你当你开始model的是px given y你做一个生成模型的时候这件事情你assigned likelihood是说这个世界上到底有哪些现象哪些东西是更可能存在的这个事情就很不一样了对吧因为你现在要学到的东西你的智能的信息量是远远大于你的py的modeling的你需要知道为什么在这个世界上一只四条腿的猫要比一只三条腿的猫更常见对吧为什么我要生成一个视频比如说我现在有一个I don't know一个跑步的视频为什么我有这样一个smooth的奔跑的状态要比突然产生出来一些幻觉有三条腿四条腿这样状态更可信更可能对吧在概率空间里面更可能这件事情已经是有巨大的信息量你已经要model的东西要远超于你在language space或者label space里面需要刻画的东西了
[279:00]对吧你需要对这个世界有一定的认知了所以这已经是更加在我看来有一点bitter lesson了就是就是说你抛弃了更多的语言空间中的这种这种这种认知跟他的逻辑跟他的句法结构啊开始去model pixel开始模型这个这个像素本身啊但再推演一步像素本身可能也是错的像素本身也不够bitter lesson嗯像素是什么像素是人为定义的一个一个一个一个regulargrade对吧就是一个一个框框然后上面每一个框里面可能有二百二百五十有有back bits information对吧然后你可能有这种这种lattice就是你有一格一格一格这是一个像素这是我们看到的每一帧的图像对吧这件事情也是一个借口嗯这件事情也是给人看的对吗就是world simulator为什么大家觉得genie哎这个好酷啊
[280:03]因为我们造出来一个视频我们造出来一个游戏这个是给人看的嗯但再往前推演一步真正的比特达森是说我不需要给人看我为什么需要给人看对吗他给谁看呢他给你的这个系统看他给你的这个世界看嗯他取决于你到底想要什么他可以给人但是给人看这件事情不是word model的核心而是word model的借口word model本身他在自发的去学到更好的表征去做更好的更好的预测对吧但这件事情本身跟你是不是要生成一个很酷的视频其实是无关的跟你能不能回答关于你的input space的一些信息其实也是无关的嗯所以again就是我重复我刚刚刚刚刚想说的事情我们每个人都在这个世界模型的道路上前走
[281:05]嗯世界模型是一个目的不是一个具体的不是一个具体的算法或者说是一个技术路线然后总有一天我们会有一个更好的世界模型嗯语言模型会在此之上然后他也会变得更强我们会有更好的多么泰的模型他能够更好的理解这个世界我们也会有更好的video生成模型嗯然后我觉得RE就是这个这个这个过程中的一个雏形嗯所以现在还有很火的一个说法是所谓的unified model或者omni model大家试图把所有的数据全都堆叠到一起使得我们能够让一个系统既能做understanding又能做生成大家讨论的问题是说我到底是理解能够帮助生成还是生成的帮助理解嗯我觉得都不重要理解和生成是一体的它都需要一个真正的world model作为它的基础对
[282:05]一旦有了这个好的world model它能够做某种prediction能够做某种planning reasoning上层的解码这件事情其实是非常非常简单的所以你觉得他们都是你们的上层世界模型是这个底座对你可以认为我们我们我想我们想做的事情或者表征派想做的事情是是蛋糕最底下的底座表征派表征怎么统一成一样的表征统一成是指跟language还是最终统一成某一种表征某几种抽象的表征所以还是要有skilling对吧还是要有现在可以看到的除了语言还有什么有skilling呢对语言的skilling对我们刚刚说到这件事情语言的skilling本身我觉得又是一个有点说不太清楚的事情因为我们我们也知道有个理论是所谓的这个compressions intelligence对吧就是压缩极致能是的但这一面讲的事情是说
[283:06]你的语言模型其实是一个lossless compression的过程或者说语言模型模型变大能让结果变好不是因为他死尽被背出了所有的所有的这些内容而是他就是一个更强的模型了所以他能有一个更好的压缩率去压缩你所有的input的这些信息他带来的某种泛化能力但我想我同意这个观点但我想后撤一步我想说其实因为语言模型在意的问题本身导致其实他的skilling law里面其实是有水分的就是这个水分是说他并不需要真正用最小的模型去通过真正理解这个世界的方式去回答问题而且我们所有的这些benchmark以及human在使用这些benchmark在达到的目标上或者这些任务上也需要他能够retrieve出来
[284:08]就是能够能够能够检索出来这些factual knowledge如果一个模型对吧他没办法告诉我比如说wikipedia上面有一个具体的人名他过去做了什么事情这是一个很差的一个luxury model所以我想说的事情是说语言模型skilling law是基于一个对knowledge的这种representation所得来的这样一个skilling law所以这是为什么他可能会有一个相对balance的配比就是说你的number token你的数据和你的parameter需要大概1:1的方式Chinchilla里面是这样的一个方式对吧然后去skill up世界模型尤其是基于这种visual intelligence世界模型我觉得他会有一个非常非常不一样的skilling law他会有个skilling law但他这个skilling law的写率可能完全不同或者他的配比完全不同我现在的直觉是这样他的模型不会很大他模型不需要trillion parameters
[285:09]因为你不需要记住如果你要做video generation是另说的吧但他不需要记住你能看到这个世界里面的所有这些细微的细节他不需要通过解一个什么薛定谔方程在一个巨高位的空间里面的方式去判断一颗苹果是不是落下来他不需要做这些事情他不需要人类的智商他不需要人类最高级的智商我们讨论一下到底什么是人的智商但是总之他不需要这些事情他不需要把这些knowledge全都记下来他需要通过很好的understanding能力去filter information就是把信息过滤掉处理掉然后因为最后真正重要的东西还是决策本身所以这件事情跟人会越来越像我觉得因为人就是这样的人有很多很重要的事实比如说人的视觉系统或者说人所有的这些sensor统一包括听觉视觉嗅觉然后触觉
[286:09]这个东西其实是非常高带宽的这个带宽可能要达到比如说11个bits per second1亿到11这个级别但我们现在说话的时候其实这个带宽极低这个带宽只有10到100个bits per second所以到底发生了什么我们大脑是怎么样一个模型能够在20瓦的功率下面把10亿bits per second的信息通过我们眼睛还有各种各样感官输入进来转化成我们10个bits per second的一个行为模式这件事情是word model本身它过滤大量的无用信息噪音对它有很多的冗余性然后它知道什么东西是重要什么东西是不重要所以过滤系统很重要对当然这个东西也是一个层级的过滤的系统确实是这样那这个世界模型怎么训呀原模型好训是因为互联网信息就在那里
[287:12]所以它可以训呀那世界模型看起来我都不知道怎么下手对我觉得这是一个biggest bet因为事情越通向我觉得智能的本质事情也会难走很多对我觉得像你说的我们经历了去dump整个互联网然后去训练模型的这样的一个时期我觉得接下来我其实也不知道这条路能不能成功我有足够多的信心但你要让我说一定百分之百成功也不一定原因还是数据层面我们到底能不能把这件事情做到极致需要多少数据啊需要什么数据我觉得过去的时代是dump或者download吧internet的时代现在的时代是download human的时代我们要把人类下载下来就是我们现在每一个again对吧大家process这些knowledge我们有一个东西叫internet我们把它upload上去我们可以train一个transformereverything is good
[288:13]但对于真正的我们对一个世界的理解一个4岁的小孩他看过的视频样也经常举这个例子就比现在所有的用来训练世界呃这个元代元模型的所有的这些这些token还要多对吧啊4个月的小孩对他看过的视频的量要比30个trillion的这些train最最最好的这些代元模型的数据的量还要大对吧所以这个量量级实在是太大所以我刚刚说要download human是说那我人眼看到这些东西这些数据到底我们怎么能采集过来呢对吧我觉得我觉得视频还是这是为什么之前比如在cameras里面我还是非常希望去多做一眼可能视频啊相关的研究我觉得这是现在这个全村的希望的啊这件事情可能有很高的门槛但我觉得不一定成功不了我觉得可以分几个阶段走第一可以先从互联网数据开始先从youtube开始像我刚说不管是什么全部的这些训练的token
[289:16]几十个trillion的token还是4个月小孩看到了这么多的信息所有这个数据量等于30分钟的youtube uploadyoutube上面有海量的数据在那这个有版权问题吗所有人都知道有版权问题所有问题所有人都在继续继续这么做我觉得at some point一定会有很大的版权问题或者说这个东西不是一个版权的问题因为可能youtube own这些视频的版权但是一个terms of service的问题youtube是禁止你去爬取这些数据的所以导致这些数据现在非常非常难爬基本上爬不下来你爬几个视频youtube就把你的IP办了然后你就得换一个IP的所以有点现在我觉得这些数据公司跟这些这些平台有一种道高一尺魔高一丈的感觉一方要严防死守禁止你爬数据
[290:17]另一方要想尽办法爬更多的数据我不知道最后会终局是怎么样字节好有优势字节好有优势并且字节也不care但是他们也收到了很多律师函所以我不知道我觉得之后可能会有更多的并涉及到人类社会里面更多的这种政治的优化吧第一步是视频然后接下来其实parallel的运作就是说我觉得这样的世界模型或者这种很variant centric的世界模型会有一些非常好的这种应用的前景因为我觉得只有research也是不够的LM之所以成功也是因为拆爆的这样的一个interface实在太成功太自然了对吧它依赖于互联网依赖于这种这种移动设备但它是一个很好很好的接口一个非常非常好的product所以OpenAI自己的人也没有意识到对吧
[291:18]但当我们讨论世界模型的时候尤其是我们刚定下这个世界模型的时候这个最终的这个product到底是什么我觉得这件事情可能需要我觉得这可能才是一个真正的难点嗯可能是一个比数据还要更难的问题所以现在如果拍脑来想again拍脑来想的想的idea可能最终都是错的但是至少有两个出口一个是比如说这种AI glasses这种真的personal assistant这件事情需要一个word model这件事情只有语言模型不够只有语言模型的话它还是一个带着屏幕可以有语音交互的这么一个差GPT对吧嗯它没办法走出这个产品的形态比如我现在经常跟大家举一个例子我现在带了一些这种这种variable devices它们不是真的AI的variable devices对吧但somehow它们具备了一些
[292:19]我觉得世界模型的特点原因是它们是一个always on的这种device就是它一直开着一直在监控你的身体体征嗯对吧也有大量的信息因为每秒对吧我不知道有多少多少频率它是以什么样的频率采集这些信息但我一直在心跳所以它一直能track这些信息嗯然后这些信息放到哪里去对吧我这些信息本身对我来说是没有意义的我知道我某个时刻心跳频率BPM是怎么样的对我来说没有任何意义所以它需要有一个智能决策告诉我说哎你好像under too much stress对吧你现在压力太大了你只要缓一缓然后说哎你过去几天时间睡眠都不舒服了不是很好你可能要需要考虑一下对一些补救的措施或者说你今天应该take a day off对吧我觉得这件事情其实是满世界模型的只不过这是一个最basic的世界模型因为它能get的信息实在太少嗯它是一个很垂直的信息
[293:20]对非常垂直嗯对吧但我觉得这件事情是一个未来的世界模型在AI variable上面一个缩影嗯因为如果假设真的有眼镜或者说对我知道你不喜欢戴眼镜但是假设有某种variable devices它能够真的是always on我们不知道这个功耗问题怎么解决先不管硬件问题我先不管但它能够实时的看到我们所能看到的一切对吧有这种完全always on然后infinite的这种tokens进入到这个系统里面我觉得这件事情其实是会有很大很大的潜力的然后第一我会很想要这个东西因为我想知道我几点喝了一杯咖啡然后是不是这杯咖啡喝的早了一小时晚了一小时导致我晚上可能睡眠没那么好了或者说我是一个运动员他想要指导我的每一个动作或者说我在医院工作我希望给养老院里面的每一个老人都配备这样一个variable使得我知道他每天的这个行为模式是怎么样的
[294:22]他吃了什么药做了什么事然后他的心情怎么样对吧他的状态怎么样嗯然后跟我背后的这些医疗记录挂钩然后提供更好的智能决策我觉得有很多很多类似这样的例子对但这件事情也是基于现在的LM现有的多摩泰的智能其实是我觉得是做不到嗯然后另外一个出口我们刚也聊过那我觉得就是robotics我觉得robotics面临的问题是其实还是大脑不够嗯然后即使他可以武术他可以表演啊那当然也不能否认这也是一个很好的vertical domain了对吧文娱市场啊可能也挺大那机器人就去表演节目吧我觉得也行嗯但这件事情离general purpose的robot能够走进千家暗户能够背着年迈的老人上下楼照顾他的饮食起居这件事情距离实在是太大了嗯能干活的机器人都是荒漠
[295:22]哈哈哈哈是的是的啊然后我觉得这一部分你可以看对吧机器人其实是一个很好很好的一个downstream的application因为不管有任何上游的这些新的我们讲fan世界模型的这种眼镜机器人都能够benefit from it比如LM出来了那我就有VLA对吧然后活了一段时间现在这个video diffusion做的很好action condition video diffusion做的很好对吧这种生成派的这种word simulator做的很好那我们也在讨论机器人怎么样去用这些模型去做一个更好的这种action的planning对有大量这样的工作所以像我说的我觉得这里面还有很长的路要走然后我跟但我觉得在网上看机器人在春晚上看机器人和私下里跟从事机器人行业的这些research聊我觉得感受是很不一样的
[296:23]怎么说后者是后者会愿意跟我说真话我不代表他们平时在说假话只是说后者会更愿意告诉我现在的系统的缺陷到底在哪里为什么这件事情听起来好像是现有的这些模型实在是解决不了的刚才其实讲了你长达十多年的研究历程你是怎么跳跃到世界模型来的我觉得其实没有跳跃就像我一直刚刚说的我觉得所谓的representation learning表征学习世界模型以及整个AI的发展其实还是一个满smooth的一个transition然后我其实不是很喜欢世界模型这个word我觉得听起来有点hype并且现在它变成了一个口袋一样的称呼然后所有人都在claim自己做世界模型我觉得这件事情一方面我觉得对我觉得肯定不是一个比较
[297:23]一个researcher会享受enjoy这样一个过程但另一方面我觉得可能一个领域往前走可能还是需要一些这样的buzzword对然后我觉得非要说的话我可能会喜欢世界模型的一点就所谓word model的一点这个是Jatendra Malik伯克的一个教授讲的他说他唯一喜欢word model这一点是因为他能告诉大家我做的是word model而不是word modelword是word就是单词我做的是世界模型而不是单词模型单词模型就是LM所以我还蛮同意的所以我觉得像我一直重复的我觉得世界模型是所有人会抵达的一个终点它是一个目标其实随着你要开始做世界模型你也做了一个非常重大的决定就是你要创业了
[298:24]这是一个非常大的跟你之前的research的生涯非常大的不同的一个选择你为什么做这个选择以及这个选择是怎么发生的这个选择也是一个玄学选择玄学大家可能觉得我这个太玄学了但是确实是因为之前有很多弯曲认识的朋友一些也是对我帮助很大的一些mentor然后大家可能有投资人的身份有这种其他创业者之类的其他创业者的身份他们就说三宁你应该也尝试去创业因为在学校里面像我刚刚说的其实有很大的困境资源紧缺对但并不是学校一无是处我觉得学校其实是一个很好很好的平台它让我有足够的空间去真的找到我想做的事情但我突然觉得好像现在是一个时间点似乎我想要探索的东西探索到了一定的地步再往后有可能会陷入我叫它一个中等paper陷阱
[299:26]中等收入陷阱就是说你会发一些不错的论文但是由于这个resource的限制导致你没办法真的把你的这些idea推广成一个某种意义上一个新的breakthrough对所以我觉得这可能是一个好的时间点所以我有一个mantel就问我那时候还蛮有趣的可能大概是去年的可能年中吧或者说可能是秋天的时候年年中对25年年中然后他就说你去问一问Young LeCun他好像最近在Meta待的不是很顺心但那个时候其实还没有这么动荡还没有X1然后比如说Fair的layoff然后这么多动荡的事情然后我的第一的直觉是说这个怎么可能呢对Young对吧我们等一下可以再我想再聊一下Young是怎么样的一个人
[300:26]但至少在那个时候我会觉得他还是一个Godfather of AI然后他是一个纯粹的researcher怎么可能会拉他一起创业呢然后结果我们有了这个对话之后的第二周的周一我们刚好有一个1-1的meeting就是一对一的一个meeting跟Young然后还没等我说什么然后Young就跟我说说三年你先不要告诉别人但我已经决定了这个我现在想要做的事情我觉得应该在外面做我想要去创业开一个公司然后我就问他说你想做什么事情这个背后的business model是什么然后后来发现这件事情跟我想象的事情完全一致非常有趣然后这件事情是什么呢我觉得你可以教他世界模型或者说这部分的出发的逻辑在于
[301:29]在我想做的这件事情上在现在的不管是世界上任何一个国家我觉得都做不了包括在湾区在谷谷也做不了这个事情是什么就是说你还是有一定的research的程度对吧他不是完全的说我们现在要logic model我们要deploy这个system然后我们要push the product然后去get some revenue其实not like that然后我觉得我现在是一个人这个事情有很强的这种research的这种倾向性对吧但是它又不是在纯粹的学术的setting下面它不是过去的fair也不是nyu它不是学校也不是过去的传统的fair但另一方面它也不是湾区的这些大厂和现在的很多这些new lab处在一个完全封闭的情况下封闭这是什么意思
[302:30]封闭意思是说你当然不开源不能发表论文然后像我说的这个blog上面也不能署名也不能署名然后像我其实我在google在GDM的时候我在GNRI整个GNRI只有我一个人是有这种相当于小财两只船有一个double affiliation还在学校在做事情大家其实对学术界对这种纯粹的探索性的research其实是有点抵触的这是一个湾区现在的一个状态对然后抵触怎么理解是谁抵触抵触意思就是说第一我觉得大家瞧不上这个学术界在做的工作不觉得学术界在做的东西能够真的能够产生怎么样的影响第二他们因为也不publish导致很多东西所以你也不知道他们在干嘛
[303:31]对吧即使在这些大厂里面其实有些大的公司有这种research的部门然后也有这种偏product的部门但即使是这两个部门同一公司两个部门之间也有一个很大的隔阂因为again就是做这边比如说核心模型训练的这些公司的这些部门必须要在这个highly competitive这个赛道上面走到最前面是他们唯一的目标对是军备竞赛是一个军备竞赛然后这件事情就会压榨你的research的空间你会抽走这个环境里面能够给你充分的freedom去做research的这样的氧气所以你没有想过加入任何的lab你没有办法忍受这种没有氧气的感受是我觉得这也是一个很有意思的现象这个现象是说当初确实有一些机会我也在有一些其他的考虑
[304:32]然后但我想了想之后我觉得可能这件事情如果你真的想做这种完全前沿的探索你想要去定义问题的话可能还是得在一个自己的startup做才会成立这件事情别人的startup就是他定义的问题然后你来做执行其他startup当然首先我不认为在其他startup里面有任何一个startup或者一个大公司focus在我们在做的这个事情上所谓的building the predictive brain这件事情对吧在你可以认为是最foundation layer或者说最upstream layer做一些事情这件事情其实是不存在的更有意思的是其实很多我的朋友在我和他交流的时候大家都会意识到这件事情其实是必须的就我刚说这件事情一方面有点所谓的这种反共识对吧就是有点contrarian view但另一方面其实又在过去的一年里面
[305:34]我觉得又逐渐变成了一个共识所以我说的东西没有什么新鲜的没有什么新鲜的但是我刚才简单提到了我觉得现在在整个AI行业里面有这样一个巨大的AI的这样的一个value chain这样一个价值链条在最上层这个价值链条就像我刚刚说的有BitLesson有AGI有LM这样的一个叙事逻辑这件事情定义了一系列的benchmark就是说你要打榜你就打的这个榜可能是LMRena或者说其他的这些榜单有一系列这个benchmark这个benchmark定义了resource allocation就是说你怎么样分配资源因为我的目标如果是在榜单上得到第一名那我只能投入最多的资源使得我能够处在这个位置上去竞争然后resource allocation决定了其实这件事情已经跟researcher觉得什么是对
[306:37]什么是错已经有一点脱离了虽然有些很强很强的researcher知道我们可能需要做一些research但是在这个价值链条下面resource allocation决定了他们不能做这一部分的research所以比如说我会觉得视频理解这件事情其实蛮重要的但现在好像不管学术界也好工业界也好做的不多或者说大家做这件事情但没有fundamental从world model角度去approach this problem去解决这个问题对吧但为什么会这样但你这个很有意思的现象你就会看到不是没有人不愿意做这件事不是没有人没有这个能力做这个事是他们全都无一例外不管在哪一个公司里面无一例外被发配给了一个做这个事情的人或是一个做视频生成模型的这个video captioning的team因为这是在这个价值链条下面的唯一一个可以可以间接对吧
[307:39]参与到这个价值链条里面的一个position对吧虽然他们都知道我们这件事情没有解决我们需要一个更好的像我刚刚说的一个world model based video understanding model并且这件事情可能是一个真正训练出这个world model的一个很重要的一个一个前提条件但大家不会有空间去做这样的exploration所以当初我在Google的时候也会有这样的困扰包括我们做REE这样的论文这篇论文其实前前后后这个学生跟他一起跟伯扬一起我们可能做了快一年的时间因为这个学生中间可能也有一些身体的原因然后反正anyway吧就是可能有一些gap在里面对吧然后所以反正完成这个工作的话我们花了一年的时间当我们发表这个工作之后我其实还有点担心我会说这个会不会有Google的researcher然后过来找我说为什么你会发一篇paper我们面前做一样的事情你怎么把我们的机密暴露出去了
[308:42]结果是有有好几个researcher找我然后他们给我的反馈是我觉得这件事情是对的我做了这件事情做了两个星期但是我的manager说你不能做这个事情了我们接下来有product cycle1product cycle2product cycle3对吧这些产品的发布的这种timeline我需要完成对他们现在的驱动力是不一样的驱动力是不一样的对所以这个又说回来我觉得还是要回到一开始我们讨论这些事情就是在这样的有限游戏下在这样的抢竞争的环境下每一个公司都会发生这种事情每一个公司都似乎失去了他们定义问题的能力比如说其实你看之前像openAI对吧然后它其实是具备这样的能力的很多这些问题都是他们定义的对吧包括GBT
[309:43]包括像Clip这样的模型或者说他们一开始从成立的第一天起作为一个research unit他们也有他们自己探索的过程我觉得还是很research的但是现在research已经变成了一个产品问题变成了一个商业问题你必须竞争不竞争怎么办呢那当然是逃出来然后我们来一起创造一个更好的更friendly researcher friendly的这样一个organization吧这样一个团队吧所以你们要逃离硅谷的叙事对我觉得双向选择吧我觉得可能对互相那个什么对互相diss一下乐困见你那次他跟你说了什么他也没说什么他只是讲了对他说的这件事情就是说我刚刚说我觉得我跟他的想法非常一致的这件事情就是世界模型是什么我们可以有一个定义在这部分上我跟他的定义其实非常非常吻合然后包括他做Japa我在NYU也经历了一些过程
[310:44]这个过程是我从质疑Japa到理解Japa到成为Japa经历了人生的三个stage我等一下可以再展开聊一下这件事但他具体跟我说的事情是说这个公司它不是一个non profit它不是一个纯粹的research lab所以我们是要有一个business model的again这件事情可能不是他的原话或者可能更像是我理解他说的事情的话是说我觉得世界模型是世界需要一个世界模型嗯在硅谷之外在LM的叙事之外有一个隐形的世界这个世界里面有很多人大家想要解决这个物理世界里面的很多很多的问题他们可能是一个农场可能是一家医院但他们拿着LM不直接能够解决这些问题他们解决一部分问题但有很多涉及到真实世界的physical understanding的问题
[311:45]他们是解决不了的嗯因为大家其实都很焦虑大家都害怕说这个AI的浪潮要来了我是不是连上这个牌桌的机会都没有对吧然后所以我觉得这一部分隐形的世界是在这个硅谷的叙事逻辑下面不可见的嗯但我觉得这是一个很大的市场嗯这是我跟很多人聊天的体会然后我觉得其实我现在最enjoy的时光是跟一些researcher聊天是跟完全不在AI research这个field里面的人聊天嗯我觉得我每次都会得到很大的启发比如说嗯就是怎么讲这个也是其实有两个人跟我说同样的话嗯第一个还是侯小迪第二个是这个张涛是Manas的张涛嗯他们都跟我说你如果想要做一个好的产品
[312:46]你首先得要热爱生活你得知道这个生活里面的人他们在做什么事情他到底需不需要这个东西你不能把某种AI某种智能强加于人的头上对吧你需要理解他们的需求然后你需要通过这件事情不管是做你的research还是打造你最后的产品嗯所以我觉得这里面很重要的一点是说这个世界上有大量的人他们生活在这个世界里面他们是这个问题的定义人好这些问题不是researcher坐在实验室里面想出来的嗯我觉得如果真的我们要做一个能够汇集所有人类的这样一个AI系统这件事情不应该是一个一个某种独裁的状态不应该是头部的几个公司强加的一种能力我们得要去知道这个世界上
[313:47]到底在发生什么然后大家有哪些需求嗯对所以这是对这是我觉得为什么这是第一点这是或者说前一半其实我想说的是其实世界是需要这样的world model的对吧LOM不能解决所有的问题第二点是说world model也需要这个世界嗯这个世界有两部分第一部分是定义问题的能力对就是问题的定义对吧我希望这件事情是从生活来的从人的真实的需求来的或者说是从工业生产中的需求来的对然后这些事情对于硅谷的或者LOM的叙事来讲都是也是隐形了然后其次涉及到你刚说的数据的问题嗯嗯就是虽然我们第一步可以从互联网上去拿到这些数据去训练这些模型但最终还是得要去在真实的世界里面去淘金的
[314:48]啊这些数据也是不可见的大家不会把这些数据传到YouTube上面嗯YouTube上面的数据还是一个跟人类非常非常align跟人类的价值观或者跟人类的这种for entertainment的需求非常align这样一个数据的分布对吧然后我们还只是在讨论这个viral的数据但这个世界里面有大量的非viral的对吧非视觉的还是在连续domain的high dimensional高维度的和possibly noisy有可能是有噪音的这样的信号这样的数据的对吧这些数据我觉得现在again对于训练一个世界模型来说至关重要嗯我们的世界模型也不只是一个vigilant model对吧因为这个世界也不只有视觉啊但另一方面这这些数据现在是不可见的我们需要从一些地方获得这个数据对吧所以所以这是我跟样聊的这些一些一些一些这个high level的这样的一些一些感受嗯啊
[315:48]然后到后面其实这件事情跟business有什么关系呢就等会儿你说不只是数据视觉模型不只是视觉对还有什么呢还有那些比如说我现在可以有一个飞机引擎一个飞机引擎里面可能有1000个sensor嗯这1000个sensor在不断的记录这个飞机引擎的数据对吧我怎么样能够训练一个飞机引擎世界模型能够知道我这个飞机引擎可能哪里有设计缺陷哪里可能现在有有有有有这个有这个啊错误对吧等等一系列这些非常long tail的问题对那这个是一个就是飞机引擎的世界模型这是一个飞机引擎的世界模型但它会基于一个universal的世界模型的预训练对所以你们会训一个通用的世界模型这是我们的目标这个是预训练然后上面可能会有很多的锤类很多的锤类嗯嗯像我说的你看language model也是上面的一个锤类video diffusion也上面一个锤类啊
[316:48]action对吧然后planning然后robotics也是一个锤类但这个东西可以非常非常多元嗯这个预训练的数据量会有多大呀这些事情就是说这是research的部分对我们现在其实有有一个很很好的road map然后我们也招了很多很多的人大家其实都很在意怎么把一件事情落地不只是简单做做research虽然research非常非常重要然后现在如果能要达到我们最后想要达到的那个目标的话我就要做很多很多research但另一方面我们要找到一个balance对吧我刚刚说它既不是一个纯粹research lab但它也不是一个像XCI GDM或者whatevermeta tbd一样的一个相对来说比较封闭在现有的paradigm这个现有的范式下面去竞争的这样一个lab对吧我觉得我对它的定位可能是somewhere in between可能甚至超过50%一定超过50%可能有60% 70%更像一个现在的new lab然后但是它会有20% 30%的这种完全自由的
[317:52]然后这种非常前沿的research component其实我理解现在的这些frontier lab竞争这么激烈是因为现在的LLM的范式是相对已经是确定性的了是的现在真一个商业的输和赢的问题相当于说你们不想在这个范式下卷了你们去提前想去找下一个范式给我感受是这样的是这样的对所以对对商业访谈录但是我先要说我真的不懂商业然后我也没有做过startup我没有成功过我也没有失败过对吧然后所以这件事情既让我感到焦虑又让我觉得有种无知者无畏的这种冲劲好我会有一个疑惑就Lukun他本身就是一个research based的人他为什么创业他是第一个找到你吗为什么他又找一个researcher呢其实有很多researcher因为again我觉得research是这个公司的focus这个公司最后最重要的product是一个research breakthrough
[318:52]所有的这些各种各样的我们刚说涉及到数据涉及到问题定义涉及到这些跟各种各样的industry有partner对吧这些所有事情的逻辑都建议在我们能够support我们的research能够make another breakthrough就是下一个下一个这样的新的AI的革命然后你可以叫它世界模型的革命或者whatever you want to call it但是它跟LM fundamental不一样但它至少是一个transformer或者tragedy level的事情对这是我们的梦想落到实处要一步一步走但回答你的问题就是说其实不只找了researcher比如说我们的CEO对我是这个公司的co-founder and chief science officer我非常喜欢这个title因为我觉得我希望我自己的定位还是在science上面我不是一个好的CEO至少现在不是我也不是一个能够去管理一个大的team然后去launch这些product
[319:52]对吧这种公司的一个角色你不想当CEO跟pick一样对对有点像然后当然我们两个公司跟minus可能还是会有很大的不同当然是的我觉得我们这边主要我还是期待的事情看到的事情还是怎么把research这件事情做好然后这件事情也是我现在看起来我们能够吸引人才能够让大家一起来工作的一个真正的这种精神源头算是硅谷的避难所吗不能叫它避难所但是确实是一个不一样的地方这个不一样的地方我觉得很多人过来对吧我们有从openAI有从这个GDM有从各个地方过来的小伙伴大家不是为了要赚多少钱然后说IPO要上市怎么样大家心里面也非常非常的纯净
[320:53]就是想要做research并且大家觉得我们有机会能够去成为一个某种意义上的影响这个AI进程的人这件事情我觉得其实大家很多时候其实都因为现在这个行业的行业的变化我觉得心态也会发生一些很微妙的变化吧对什么意思意思是说现在大家会有点过于走到一个极端是说我们要lower everybody's egoeverybody is part of the team对吧就是都是这个团队的一员但事实上在发生的事情是他们确实变成了这个团队一员但他同时也变成了这个巨大的machine这个机器中的一个可以轻易被替换的一个螺丝钉我完全同意research如果太强的ego这件事情不利于团队的协作
[321:54]但是我还是希望给予年轻人有足够的visibility因为我觉得这件事情能让他们有他们自己的人物呼光然后能够让他们真的成长起来变成一个现在对吧在外面有很大声望的这些这些leading researcher对吧但我觉得现在这样的这样的pipeline收的越来越紧了或者说这样的上升的通道越来越少所以这件事情是至少是我们的一个招人的strategy是说我们会真的真的非常希望这种mission driven的年轻人加入到这个公司来大家一起来做成一件事情我们其实不想把一些很established这些已经是superhero一样超能英雄一样的这些researcher聚拢到一起然后希望大家有某种化学反应我不相信这件事情为什么嗯就不能
[322:54]这个团队里有多个你是吗完全不是这个跟我自己的一个没有任何关系啊我我的感觉是一个人很难被不不首先我这样的人我们可以找很多我不觉得我是一个完全不是啊这个这个千万不要误会我啊但是我说的是可能那那些我们刚说的25篇改变了AI历史的这些paper的这些作者然后然后我觉得相比于他们我会更倾向于招一些有很好的reputation很强的能力但somehow还大家不知道的这些人对然后我觉得要问我为什么的话我会我会觉得一个人很难被闪电击中两次如果你已经发了这20几篇paper中的一篇你再发下一次类似这样的paper的概率我觉得会低很多就是为什么你一直要说我在这20篇之外对我在不是这个目的
[323:55]但是但是但是确实确实确实我在这个之外但这个这件事情真的不关乎于我我觉得我希望然后我觉得这件事情也是by the way这个公司是我唯一的一个机会能够keep我的nyu的affiliation能够建立一定的academic engagement我还会我还是会全全职的投入到这件事情上但至少我不用很抱歉的跟我的学生说对不起我刚把你招过来招了一年现在我要走了你们自求多福我当初其实有一点这样的计划很筹备但后来我发现我做不到为什么不知道我觉得我的学生我都很爱他们我觉得他们都是特别优秀的人他们比如说有几个学生吧然后他们通过他们project然后做完这一套下来我也在各个公司也有一些经验对吧
[324:56]我也跟不同的人打过交道但我觉得我有几个学生比我见到了所有的这些leading research lab的这些研究员都更强从成熟度从工程能力从research taste来讲他们都更强但somehow他们在学校里面没有一个渠道能够真正的做一个在充足的资源的情况下去做一个不一样的事情倒不是说这些学生都会加入这个公司我觉得肯定不会我们还是会有一个清晰的boundary但只是说in general我希望我们的这个公司我们叫Amy Labs它能够承担起一定的这种定位它能够联系起学术界里面想做事情的年轻人让他们能够参与到历史的进程来我觉得这一部分的这个渠道在现在的很多lab里面是不存在的如果LeCun不从Meta离职你会创业吗我觉得我可能也会
[325:56]但可能会纠结一段时间你会自己做CEO我觉得我不知道我觉得对如果这么决定的话也是另外一个玄学决定但至少我现在不知道你会做这个方向吗如果是那样的话我会再想或者说我现在在公司里面我们讨论的问题就是exactly我我一直在想要做的事情然后这件事情所以有一点不谋而合而且其实这件事情again我不懂商业所有的这些逻辑但是有一些点我觉得很有趣就是我们想要Build这样一个反向的OpenAI反向的OpenAI什么叫做反向OpenAI就是正向的OpenAI是说我现在有互联网作为我的数据的发源地然后把数据download下来train一个transformertrain一个GPT model好我们现在有一个智能对吧然后这个东西你们可以叫它AGI但by the way我也非常反对我也非常反对这个词我觉得AGI是一个完完全全的伪名题但anyway你有这个逻辑之后然后我们现在有了这样一个模型有了这样一个intelligence
[326:57]我想要把这个东西push到我的market对吧然后不管是2C然后或者一些2B的application都没问题然后什么是反向的OpenAI呢是说要做这个model本身这件事情没办法直接从互联网上download下来我们没有这个shortcut可以走我们需要走一条更加艰辛并且我们不能自己走这条路所以这是我刚刚说的world model needs the world所以我们希望反向会还是说会有很多的这些有点草根联盟的感觉你知道吗就这些不愿意就是在AI的浪潮面前有点formal然后有具体的问题要解决有很多的数据类似于这样的公司大家可以一起携手通过某种合作伙伴的方式一起去共建这样一个模型对吧然后你可以形成这样一个闭环我们可以有初始的世界模型我们可以deliver这样的世界模型
[327:58]去创造价值大家拿到这样的模型可以得到一些回报然后可以产生更多的数据来重新去反哺我们自己的这个foundation的数据这个世界模型所以你需要从这些生态里收集多少数据你需要哪些类别的数据这个就是这个公司接下来我们要讨论的事情我觉得现在能够看到的事情是说因为Young其实有她的名望在这然后而且她作为一个真真正正的世界人吧她有一个非常neutral的face一个中立的角色她不是一个她是一个美国人但她也是一个法国人然后她对我们又不在硅谷的吧所以其实能吸引很多很多这样的potential的这种partner对然后遍布全球我们这个公司第一天就会有四个office总部设在巴黎但是也会有纽约
[328:58]Montreal蒙特利尔然后还有新加坡四个office然后目的也是说怎么样把这样的一个联盟能够打造起来大家一起在这个research道路上面往前走然后这件事情其实我还有一个很有趣很有趣的故事或者一个比喻就是你知道这个mastercard是怎么来的吗美国大家用信用卡有visa还有mastercard对吧是不是反visa对是反visa exactly但这个story还蛮有趣的这也是我一个很好的朋友和我的一个mentor告诉我的他说visa一开始是这个boa这个银行创立起来的对吧在此之前没有人有这种信用卡的模式的然后boa build了moneyboa build了visa credit card然后push to market然后赚的盆满钵满然后他还藏着掖着他还不告诉别人别人问了就说我们这个是赔钱的生意然后这个东西一点都不赚钱直到过了一两年这件事情藏不住了因为财务上你已经能看出来了
[329:58]然后其他人就慌一跳你知道吗加上就说这个怎么办这个你现在已经把这个market已经dominant了然后我们每一个小的银行我的体量又打不过你这个Bank of America然后我们现在单独发一张信用卡我又抢占不过市场怎么办呢然后他们就说不如我们把所有的这些local bank组织起来变成一个联盟我们一起推出一张信用卡叫Masked Card对这是怎么样反Visa然后或者说没有真的反Visa但至少能够跟Visa分庭抗礼的一个方式我并不是说我们的这个公司真的要走这样的模式但我觉得在某种意义上会有这样的相似之处对但我觉得这也是为什么World Model是一个挺不一样的这样一个叙事的逻辑它更加decentralized
[330:58]更加分布化然后然后也天然的怎么讲呢resist某种垄断吧对我觉得还是挺有意思的然后这也是我们开放性的来源这也是为什么我们会能够更open-minded去讨论这些合作不管是跟学术界还是跟这些industry partner因为这件事情是research exploration的一部分当然我们也不是说我们所有的research都会开源或者怎么样这还是一个正经而严肃的一个创业公司但是我觉得我们可能可以做的不一样对但我觉得想要做成这样的不一样的事情还是蛮难的因为像我说的对吧我一直在强调其实我们在寻找一种平衡这个平衡是说对吧它既不是一个纯粹的research lab也不是一个现在的封闭式的这种大模型公司然后这种平衡也在于比如说
[331:59]像我个人也是一种平衡我既不是一个非常senior然后已经所谓功成名就的这种大教授但我也不是一个18 9岁的年轻人可以卷着铺盖跑到深圳的工厂里面然后扎下来然后去做这些数据采集或者whatever我都不是好有一部分数据来自于深圳的工厂是的有人在做我刚刚说的这个例子是一个具体的公司他们有一个公司叫build.ai我还挺佩服这个小孩的叫Eddie对他就是带了几个人从疙瘩quit了然后去了深圳工厂里面住下然后来build这样一个startup我觉得好厉害对我觉得这件事情既是找平衡但我觉得对我来说有难度但也是一个新的机遇我觉得说不定对吧说不定这个时代可能既不属于老灯也不属于小灯是一个属于中灯创业的时代
[333:00]你对伊莉亚两次say了no然后你对了昆say了yes这是为什么呢就是在你眼里他是一个什么样的人对样在网上是一个斗士对对吧就是坚决的反对LM派不只是反对LM其实他不反对LM从来没有说他反对LM他非常他还说自己用詹姆兰对他完全不反对LM他只是反对大家觉得LM可以通往一个human level intelligence人类级别的智能的叙事这是他要反对的对他完全不反对LM但anyway他在网上是一个斗士然后四处开战但我觉得他私下里是一个很好很好的人是我一个打心眼里崇拜或者敬佩的一个人你们之前熟吗我们合作会写paper但是肯定不熟悉了肯定不熟悉了肯定不熟悉了肯定不熟悉了肯定不像在一个一个startup里面
[334:00]作为co-founder的这种形式这么work closely之前没有你跟凯明熟肯定没有对是的但我觉得我觉得我觉得Young是一个人真的是对他也能够去扭曲这个reality field我觉得他非常非常厉害就每次我开始对一些事情有所怀疑然后我都会愿意找他聊一聊他很容易就让他身边的人至少我是这么个人感受到某种宁静感受到觉得这些challenge不是challenge前方的路一片光明他是有这样的能力的然后而且当然他的research的vision我觉得我也非常非常敬佩就我刚刚说了很多比如说什么是word model为什么要fuelter这个信息这个本质也是JAPA他提出的JAPA思想的一个内核就是说你不能做generate model你不能把所有东西都记住都重建出来你需要在一个abstract repetition space
[335:00]一个抽象的表征空间里面去做预测这是JAPA的内核但我想说这件事情是Young我觉得还是蛮知情合一的他这个人本身蛮JAPA的就是他一贯之地在坚持他的很多这个逻辑和他认为正确的事情这件事情是不受到外界的任何事情的干扰但这件事情不代表他完全能够完全是一个固执的听不进去任何话的人其实也不是这样他有些时候他错了有些时候他对了他大部分时候是对的但他其实是能听进去大家说的话的并且他也说过就有一个之前有一个新闻稿是说Young can't be moved就是Young LeCun永远不能被移动谁也不能移动他就是他固执什么对就是说他在固执让说我完全可以被move
[336:00]我完全可以被移动但我需要基于事实来被move而不是一些人告诉我应该怎么做我去怎么做我才会move所以当初在Meta的时候其实也有很多人告诉他说我们现在Meta要去做WatchMesh Model我们要做很多这些事情你不能在外面再说这些话了对吧你不能说天天地死这个Logic Model of WorkYoung完全不能接受Young说我作为一个科学家的正职My integrity as a scientist cannot accept this所以我觉得这件事情我也很敬佩我觉得他真的他说的话不是因为现在什么东西成为了一个热点他还是这么说的都可以追问溯源对吧包括他在讲Word Model这件事情也不是最近Word Model火了才说的
[337:01]也是很多很多年前他就已经在提这件事了然后他还有一个很好的论文我真的推荐给我身边的每一个人去看就是叫做The Path to Autonomous Intelligence对就是他一个Position Paper也是一个观点性的一个论文然后这时候你就会发现他思想里面还是有很多的Layer的这个Layer其实又是以一种非常工程化可实现的或者说数学化的表达把它罗列在这儿的所以你看他别人问他说这个样这个Word Model到底是什么的时候他从来不会说一些比较high level的这种这种相对来说比较虚无的这种概念他永远要给你写公式的他永远会现在也会现在也会而且他现在每个人都会说每个星期也会有一天在NYU然后还是要带自己的Group还是会开组会的开组会的时候
[338:03]就是要走到白板面前来然后给大家那个写个推公式一点点推Highly technicalVery very very technical对你们两个的分工是什么Young是Executive Chairman所以他其实更像是我们这艘大船的船长我跟他这件事情我也跟他聊过谁是船长他是船长我不是聊谁是船长我不想当船长对但他一方面讲说他很不希望管理这些operation level的事情他不是一个好CEO但一方面我觉得你也不是对我可能也不是但我又觉得他是一个很有智慧的一个管理者他给我举这样一个例子他说他的管理的思路就像在划帆船一样这件事情 by the way是他的一个hobby之一我等一下可以聊聊他的这些其他的有趣的事情但他有一个hobby他马上三月又要去加勒比海上面去划帆船他的管理模式是说
[339:04]给予每个人足够多的信任让他们做自己该做的事情但是一旦出现了一些波折对吧一旦我们需要校正一些东西的时候他会及时的as early as possible尽可能早的去做这样的调整对吧但在此之前trust everyonedo their work就是相信每个人去做他们在擅长做的事情对我觉得这就是一样的定位他是这个公司的一个一方面是某种精神领袖但另一方面也是这个大海航行靠剁手对吧他也是他也有这种船长的身份在这对然后但我觉得我对他的对我觉得我真正让我觉得我很喜欢跟这个人共事还是更多personal的原因因为我们看也聊了很多这些decision其实不是纯逻辑性的决定有时候还是要看气场是否相投
[340:06]都是人的原因都是人的原因对像一样我觉得他虽然真的是大佬对吧你会但你会经常看到他在会场上面拿着一个手机跟所有人拍一张自拍拍张合影然后私下里面他也是一个蛮纯净然后温暖的人对然后跟他在一起主要主要是我不会有这种畏惧感吧虽然他可能对吧高高在上功成名就然后但我不会担心我说了一句错话惹得他不高兴这件事情我觉得其实还是蛮难得的尤其在他的这种身份跟地位白看然后我可以或者说包括这个公司里面所有的人都可以很直白的告诉他说这件事情我是怎么思考的我觉得你说的对你说的不对但我们一起来讨论应该以什么样的方式进行下去可以对这个公司最有利我觉得这件事情
[341:06]其实也非常非常难得对能不能介绍一下你们到目前为止在资本上在团队上的进展当然我们这个时候发的时候就已经是你们announce之后了是的对我觉得资本上对这个没办法我的世界模型不足以支持我我给这样的预测但是我们target可能会是差不多一个billion对如果不对的话我们只能剪掉了然后人员的配比上面然后我们会有很多小伙伴志同道合的伙伴一起加入这个公司所以我们一开始会有25人左右的一个初始的团队然后我们希望逐渐去grow这个团队我们不想太快但也不希望太慢对然后这一面其实就有很多人讨论的这个团队然后这一面其实就有很多人讨论的这个团队然后这一面其实就有很多人讨论的这个团队然后这一面其实就有很多人讨论的这个团队我觉得这也是一个我觉得创业的魔力吧因为我之前比如在大城里面也会refer一些我的这些过去的朋友
[342:06]对吧我的学生然后一起到这个公司里面但完全不是一个事情对吧大家去个不同team做自己的事情但来创业之后我会发现真的可以把大家聚拢到一起然后找到这样一个mission然后这件事情我觉得太有意思了然后这件事情其实我自己也很感动因为我们有好几个朋友然后他们其实比如说都有好几千万的这个opinion的invested stock他们从配来然后会有在比如说在Google也有好几这种不是在Google在Meta也有这种15个million的20million的这样的offer对然后大家好像想都不想了然后就放弃了然后加入我们为什么我觉得还是说我们脑子可能都缺根结尾吧
[343:07]觉得好像对你总之是你要考虑的是一边是research一边是某些financial的outcome对吧当然我觉得一个创业公司最后做成的话他的upside也是很大的financially至少先三个月之后才做成的话然后现在开始我觉得大部分人还是很迷信追问的对然后大家还是相信这是唯一一个地方我们可以做这件事情你们现在已经开始考虑商业模式了吗我觉得之所以要融这些钱可能也是希望能够减少一点这些压力但是当然了这是一个serious的company所以我们的CEO都在每天花很大的精力去考虑商业模式的事情对我能不能回过去再讲一讲一样好啊对之后看怎么调整一下但我觉得我刚刚说其实这个气质相投这件事情其实完全不是一个商业decision对然后我觉得符合你的玄学一贯选择方式
[344:10]当然考虑就是比如说同时比起来我也会有一些其他的机会这些机会可能也会有much better这种short term的financial这种return对吧就又会有更高的工资更高的回报但我一直考虑的这个方式是说有些人劝我说你先去赚两年前对吧赚够钱了之后回来再创业不好吗partly I agree但是我又会担心说对吧我现在作为现在人生的stage还有没有两年的时间可以让我在一个足够好的精神状态去做这些完全exploitive的research我觉得不好说有可能在你有钱了之后你的lifestyle你的生活方式会变化然后这件事情也可能导致你失去了最开始的一些勇气
[345:10]然后我觉得这只是对我个人而言我觉得现在我有很多很多的朋友他们在Meta尤其在Meta对吧大家其实都赚很多很多钱他们也很卷他们每天工作我觉得也是加班加点然后大家基本上都搬到公司旁边然后每天加班一个星期工作七八十个小时这种我觉得我也相信他们一定能够做出一个很fantastic的model但我也想对他们说当你把这个model做完之后可以来我们这看看我觉得hopefully it's not too late但我觉得其实我认识的所有这些人大家都是有这个mission的对对那么你觉得Meta TPD的招人策略跟你的招人策略是一致的吗我觉得肯定不一致我们哪有钱像Meta TPD一样招人肯定不一样然后或者说像Thinking Machine包括像XCI我觉得我觉得都很不一样对我觉得虽然我们可能融资规模上面其实还是蛮不错的
[346:12]对至少也能排进历史前几名的前几估值多少不知道估值估值我们一直没变还是三个billion的prime money的euro对然后但是钱其实还是不是很多对吧这个capital money其实还是非常宝贵的它不像像在Meta在Google你真的有一个印钞机在那然后你不乱print moneyIt's okayYou can do whatever you want我觉得在创业公司里面我们还是要非常谨慎的去布局我觉得你们是刻意不选去硅谷创业是吗对我觉得SinginvalidAgain, it's very unpeeled大家经常说就是说已经深陷于已经被Login.jp催眠了然后我觉得但这件事情我觉得不会持续很久被催眠的人总有醒来的一刻然后我觉得那时候我们完全不排除去硅谷设立公司
[347:15]我觉得到最后或者说可能很快我们的公司location一定是哪里有人才我们公司就在哪里有一个office这也是一个很正常的事情对再能让我说回杨一下吗好我想说的事情是我觉得杨其实还有很吸引我的一点是他真的是一个斜杠青年或者说挺文艺的这么一个人或者按凯明的说法杨是一个16岁青春期一直延续到65岁的这样一个人那很幸福我觉得他应该挺幸福的但他经常就很骄傲的说他有四大爱好第一个爱好是造模型飞机第二个爱好是拍天文摄影所以他你看他zoom经常讲套背后他那有一个星云有一个nabla的这样一个桌布桌面其实就是他自己拍的在后院拍的然后第三个兴趣是搞电子乐
[348:16]然后搞一些jazz什么这些事情嗯然后然后你看他的网页上面这也是宝藏我经常时不时回去看一看就他会讲说在纽约有哪些这些jazz club对啊这些爵士乐比较好哪些乐手比较好然后他又讲说哎这个通常来讲法国人是瞧不起美国的流行文化jazz除外所以他讲什么查理帕克等等一系列人吧然后这些伟大的乐手怎么怎么样我觉得我觉得好有意思然后他还有一个爱好是就我刚才已经说了呃这个翻船所以我觉得这样对这样的人对我来说其实是是很有很有吸引力的啊因为我觉得他的世界其实是很大他的世界不止局限在research一小块啊然后我们都要做世界模型了我希望有这个这个这个这个大船的舵手是一个有格局热爱生活的人
[349:17]然后对还有一个很有趣的例子我们接下来三月也许这个呃节目播出的时候我们还有另外一篇paper要放出来啊这个paper叫叫solaris叫索拉里斯星这个东西其实是一个科幻小说呃莱姆的一个小说然后后来被塔古斯基改编成一个电影啊然后我们之所以取这个名字是因为我们在做一个所谓这种videovideo生成的模型然后这个电影讲的事情也是说啊有一片海洋这个海洋可以读取人的潜意识里的记忆最后把一些东西具象化生成出来啊然后然后这件事情我觉得非常好玩然后当然当然他自己在他那部电影里面讲的事情是说其实我们最大的敌人不是什么外星文明或者这些不不可知的这些海洋其实是人自己是人自己的苦难和自己的记忆啊呃所以这片海洋只是人对自己的投射而已我想提这件事情是说我觉得这个这个这个电影跟lm发生的事情也太像
[350:18]我觉得lm其实可能没有没有在理解人他只是人的一个投射只是一个反射而已哦但但我想说跟样的关系是在于我有一天跟他讲说哎我们这个paper你觉得叫这个名字怎么样然后我想看他知不知道这个电影然后他说哎你知道这是一个电影的名字吗我说对啊我我就是因为这个取的这个名字啊他问我说那你用的你你看的是哪一部啊是一九七七五年的一部还是二零零几年的一部对是我找对人了对是塔克福斯基法人啊塔克福斯基拍的还是这个索伦伯格派的对吧然后我说OK我觉得嗯我不光VS服你我在我在电影上好像你也比我懂得多啊我觉得我觉得对我觉得这是这是一点啊蛮有趣的啊可能对很多人都不重要但对我个人来说蛮重要的一个一个一个人格魅力的体现吧有一个中国的投资人曾经跟我说过所有含着金汤石出身的创业都没有成功的
[351:20]几乎没有吧你怎么看呃不懂什么叫金汤石融资金额巨大非常的有名作为方的就是已经功成名就而且是非常高的功成名就嗯呃我们没有含着金汤石就像我说我们是完全一个草不说草台班子吧是一个草根联盟的一个创业模式啊那困怎么可能会是草根呢样的草样的不是草根但他现在在整个AI的行业或者在互联网上包括在投资人面前呃很多时候是一半支持一半反对的一半支持一半反对我不知道这个比例是多少但总归是他不是众星捧月的那种英雄他是一个呃坚守自己然后呃在永远尝试做下一件事情但这件事情还没有做成功的这么一个人嗯对吧然后我觉得这件事情嗯嗯嗯嗯导致我们不是汉之金汤师
[352:21]我们没有金汤师我们完全没有这种感觉我觉得我们是一个underdogunderdog就是就是我们其实是在是在某种这种行业的压迫下生存的这样一个公司对吧你们所有人都在没有凡尔赛真的那那我们可能会有很多的融资但比起LM现在撬动的资源来看这简直对吧我不知道是百分之几差太远你们融资难吗呃呃有样在这确实不难对啊但是对吧我觉得我觉得呃sit wrong也只是sit wrong我觉得要看后面对吧然后我觉得要看后面呢还是说我们到底能不能deliver我们这个mission我们能不能把这个research的breakthrough做出来我觉得这才是对我们来说最关键的事情啊但反正我会觉得我非常enjoy这种underdog的这种身份尤其作为一个创业者啊因为我觉得啊我觉得做research也是一样你们越不相信我我越happy你有感受到谁对你的不相信在开始创业之后
[353:23]呃我觉得很多人啊很多投资人的feedback不相信更多还是相信更多呃我不知道比例是怎么样我们有很多很多人相信我们我们有很多人不相信我们我们很多的人或者在硅谷里面大部分人不相信我们在世界的其他地方大部分人相信我们所以综合起来我不知道啊呃但没关系对我觉得我最期望看到的事情就是说对吧嗯可以不相信我们啊我也不相信我们但那我们就let's see对吧这个啊这条路我现在已经all in了啊你跟不跟嗯你觉得创业跟你做research有什么不一样我觉得有很多相似的地方然后但也有很多不同的地方嗯我觉得创业的话还是小心滑雪嘛我不会不会是吗我不喜欢运动我我以前也不会滑动最近滑雪我觉得我还受到蛮多的这个这个感受的
[354:23]我觉得第一是滑雪是一个讲求平衡的运动你掌握了平衡你才能滑的起来嗯第二是你要无所畏惧的把自己的肩膀朝向山下啊我觉得这件事情太这个反直觉了就人总是害怕的人你面对山下的这个坡度的时候你总是想要往回靠嗯反本能对然后你反本能然后你一旦跟从你的本能做事情你向后倒那你就完全失控然后完全摔倒嗯对吧你只有完全不具备这个这个你你只有足够的勇气然后不害怕任何事情然后把自己的肩膀向朝向山下的时候你反而变得更稳定对吧然后你反而你更能控制你的速度所以这个我有一句话我很喜欢的这个这个可能是这个哪里的周周里面的动漫里面的周周比萨尔的玩具啊他讲人类的赞格就是勇气的赞格我觉得这也是我的一个对于创业的认知
[355:23]我觉得我觉得需要勇气但你刚刚问这件事情在学校是不是也是一样我觉得他需要更多的勇气但我在学校做的很多这些决定嗯我觉得我觉得也是一个蛮有勇气的决定对吧然后并且还有一句话是这个我又觉得你你永远不会独行吧嗯我觉得我觉得会有很多的人帮你一起好也正是因为你有身边的人所以你才变得更加勇敢嗯你刚才说了你对research的taste你觉得你对人的taste怎么样首先我不觉得应该对人有什么taste我觉得对人的taste这件事情好像还是一个居高临下的说法嗯我觉得是, 但我觉得这也是一个相互的过程嗯我觉得again 我觉得是有某种吸引力把能够一起共事的人聚拢到一起
[356:30]然后我们只需要遵循着这样的吸引力去找到这些人跟他们在一起就好对我好像不会当然也会有一些具体的这些这些这些这些metric的吧我们我们当然有一些比如我们现在要面试我也不能说那个你不用面试了嗯我有一套玄学逻辑可以用来用来招人我觉得也不现实嗯但确实我会比较在乎嗯一些事情吧我觉得我会在乎你到底是不是真的有这种想要解决一个问题想要去理解一件事情的这样的勇气和这样的执着我觉得这件事情对research对创业来说都是很重要啊然后我招学生其实就是也会也会需要有这样的对能能够看到这样的比就是这样这样的这样的性格的人嗯然后对就这个到底是什么意思呢就是在最路做做research的角度来讲
[357:31]就是说你现在如果有一个问题摆在你面前啊这件事情也是凯明跟我说的应该是他讲说你一天起床要想这个问题吃饭的时候要想这个问题洗澡的时候要想这个问题睡觉的时候可能可以不用想那可能带着这个问题睡觉就你到底有没有这样的这样这样的这样的passion对吧这样的热情去一直思考这个问题还是你只是把这件事情当做一个工作来看待我觉得这件事情嗯我觉得我觉得是一个可以区分人与人的的一个一个标识你现在有这个问题吗嗯什么样的问题嗯就是每天带着他的问题有啊有啊那当然有了但我现在问题是这也是为什么我觉得呃在在呃在学校我觉得待时间久了嗯有点难因为在学校里面其实做一个发挥的
[358:32]你需要做各种各样的我们叫contact switching就是你需要切换这种上下文对吧因为你有好好多这种partial要要要管理然后要一起合作嗯我觉得在创业公司还是蛮好的我现在可以focus on一件事我可以想啊我们到底应该组建什么样的团队这个团队需要什么样的人我们应该在接下来一个月三个月六个月一年解决什么样的问题嗯这件事情我可能想的不对但没关系啊只要整个这个team齐心协力对吧大家可以fail togetherpivot together啊那我觉得这个公司不会不会失败对我不能保证我现在每一个设想都是对的我觉得样可能也没法保证嗯但我我还是相信人啊像你说的我还是相信吧这些人啊有理想有热情然后想要想要闯闯一番新的天地的人聚合到一起一定能做出来一个一个了不起的事
[359:34]你是当场就答应他了吗了困啊没有没有没有这个中间的隔了很长一长的时间也也不是样第一个找的我反正后来呃样来负责这个团队那他也要思考说每一个人到底应该有什么样的角色嗯对我觉得后来我们一起在讨论一起在协商而且呃我觉得是一个蛮长期的一个过程吧然后我觉得大家最后都找到了合适自己的位置你纠结了多久就是从他就接了可能一个星期吧在纠结什么就是说到底应不应该去创业去做这件事到底应不应该跟Yang做这件事然后或者说是不是去寻求一些新的机会对吧然后后来但我没有纠结很久但我觉得Yang用他的魔力我跟大家说其实跟Yang说话有点像他有点像给你就是casting spells就是哈利波特一样给你施一些咒语说一说一些话
[360:35]然后你就不会想其他的了他对你施了什么咒语没有他只是讲了他的愿景然后他只是讲了为什么这是一个更好的选择对于我是一个更好的选择对这个公司也是一个更好的选择为什么在这里我可以有足够多的agency跟autonomy就是所谓的自主决断的这种能力然后去打造一个team然后去帮我们去设计这一套一整套的这种执行的这种road map我也非常非常grateful非常感激Yang能够给我这样的信任但我们公司有好几个其他的co-founder大家人都非常非常好一共有六个co-founder这么多是的还有一个CEO还有一个CEO还有一个CEO有一个CEO然后还有一个VP of world model然后还有一个现在暂时的他就叫做CRIO对他也是一个中国人他叫他叫Pascal这是什么职位
[361:35]更多的是某种介于research纯粹research跟product中间的这种alignment层的这样一个角色是负责我们的innovation的对他也之前有很多的创业的经历对然后我们的VP of world model就是JAPA team当初的这个这个director Mike然后CEO是当初Meta的整个南欧区的VP对大概是这样一个组合所以完全不是一个纯researcher背景的组合你们会去探索2C的产品吗会的而且最后的目的一定还是会有一个2C的产品但我们希望我们不会受到任何的压力因为我们还是希望先要把这个world model不管你怎么定义它先要做出来你们现在这个road map能规划到几个地方吗几年几年当然都很不现实了对吧我觉得如果能规划到一年已经很不错了对然后我觉得我们不需要更长期的规划
[362:36]维大不能被计划吗对啊就跟做research一样我觉得你要有一个探索的过程开始先探索先动手做事情然后逐渐的找到属于你的idea我觉得这件事情对于startup也是成立的现在你们的idea进展到哪一步了我觉得进展到了我觉得我们现在有事情可以做并且我们还觉得会有一些很快会有一些很promising的结果的这样一个地步对吧但这件事情具体是什么我们可以过几个月之后可以再聊但是对话又说回来就是这件事情其实外面的人对这个公司对于样还有一个错误的认知就大家其实不知道什么是JAPA对然后其实我个人也经历了好几个阶段我从质疑JAPA到理解JAPA再到成为JAPA这样人生的三个stage然后然后这件事情我觉得也蛮好玩的因为一开始质疑JAPA是因为我们刚开始做soft surprise learning
[363:36]做Moco做MAE然后我觉得JAPA好像是yet another soft surprise learning algorithmThat's it然后后来慢慢理解JAPA是因为觉得JAPA其实比我们想象的走得要更深它里面会有很多背后的逻辑有很多的数学的原理并且也会有很多背后的逻辑有很多的数学的原理并且我们也需要有人在这条路线上继续坚守下去因为我们当初发现东西skill up不起来然后就不做然后但后来JAPA比如说包括我举个简单例子比如最近有一篇paper叫了JAPA然后他们就以一个非常严格的证明说如果你要有一个很好的representation如果你要想要让这个representationagnostic to你的downstream task那它一定是一个asotropic Gaussian distribution这有点technical他们这样就是说他是对这种比较重要的事情表征了某种性质的一个刻画然后我发现这件事情其实还是有它的道理然后真正成为JAPA是因为我觉得JAPA不是一个模型
[364:36]JAPA不是一个具体的算法JAPA是一个整个一套的cognitive architecture就是一套认知体系这件事情是Young在他的2022年的paper里面写到的事情所以这个认知体系在我看来是通往一个智能universal的智能整体的一个在我现在看起来一个很合理的道路对吧所以JAPA不是只是self-supply-learning它需要有这种world understanding的能力它需要理解世界的能力然后它需要能够有做prediction的能力然后它需要有能做planning的能力对吧预测跟计划对我觉得这件事情让我对JAPA有了新的认知然后我发现JAPA其实不是一个具体的像大家外面说的一样好像说Young有这样一个方法然后他一定要基于这样的方法然后把它做成一个什么样的事情不是这样的JAPA是一个非常非常广阔的海洋
[365:39]在这个海洋里面可以有好多好多的船在上面开然后最后整个一套系统会有很多的写作并且LM也是其中的一部分对所以这件事情让我觉得这个公司可以做并且有很大的机会可以做成功原因它不是把事情做小了现在很多LM的setting下面大家是把事情往小里做但Young的公司是刻意的把事情做大它有足够的空间让我们去做探索让我们去做skill up然后直到最后我们可以有一个某种新的breakthrough这件事情到底什么时候来会不会发生我们没办法判断但我觉得这是一条我愿意投入我的生命去走的路创业以后感觉怎么样真实的感受有变忙变累有变忙变累当然是有了我觉得会有很多ups and downs
[366:41]就是会有很多繁琐的事情但是也会因为看着这个公司一点点成长起来看着一些因为我们有四个office有这么多的legal problemwhatever对吧对吧这么多的这种internal friction慢慢就是这种本来的这种内部的摩擦慢慢变得润滑对吧这个过程其实也是蛮开心的然后在这个过程中我们也得到了很多很多人的帮助所以暂时看下来我觉得我做了一个正确的选择跟你预期也许还是会有一点不一样的可能更润滑对我觉得可能跳下来那一刻就是恐惧消失了对我觉得只要有勇气一切都好说然后我觉得在这个公司里面对我是能找到这样的勇气的你刚才说AGI是个伪命题
[367:42]你这个能展开一下吗AGI是伪命题这件事情也是样经常说的它之间不是跟Diamis有一个辩论吗对吧他就说到底什么是general intelligencegeneral intelligence到底存不存在这件事情我可能也就不赘述但其实他的这个逻辑也很数学也很也很也很也很也很一样的他说的事情就是基本上说的事情就是说这个人比如说有200万个这种视觉的神经纤维这件事情可以去model的所有的可能的这种视觉的函数其实是非常非常大的它是2的200次方这么多的这种函数但人能够真正去process能够看出来我们看到的东西其实基本上趋近于0对吧就是我们受到我们的意识的限制我们受到我们自己的神经的这种这种班位的限制我们看不到这世界上发生了一切的事情所以人的智能是一个非常specialized的智能
[368:45]对他只能人只能认知到自己能看到的东西然后后来我又补充了一个推特就是说我看了一本书叫做Are we smart enough to know how smartanimals are就是我们到底是不是够聪明让我们知道动物有多聪明然后我是觉得看了这本书之后我会放弃更多这种人类的style我觉得这种智能演进是一个连续的过程它不是一个说人就真的是独一无二对吧很多时候我们说人很有智慧是因为人会使用工具但动物一样会使用工具然后有些人说嗯人其实有这种某种某种对自我的认知跟意识一个实验是说人能够看镜子然后能意识到这个镜子里面的人是自己而不是另外一个实体狗狗是不是也可以啊对很多动物都可以因为我感觉狗还蛮喜欢在镜子里看自己
[369:46]反正有很多动物动物动物动物确实不行但有很多动物可以然后然后也有很多很有趣的事情比如说像黑猩猩黑猩猩的吧然后这个作者嗯这个这个这个的我他还写过另外一本书叫黑猩猩的政治吧叫做然后就讲这个有四只黑猩猩怎么样去做这种权力的博弈啊就很像这种纸牌屋或者怎么样这种有很多斗争然后你怎么样拉帮解火然后有一些权谋然后上位啊然后然后然后等等一些故事吧啊我觉得这件事情也很也很有趣然后还有一个我觉得我印象比较深的事情是说嗯比如说他们其实这些动物包括包括黑猩猩也有某种废物就他也能有自己的窝里的毛病他们无人冒的还挺强的比如有一个例子是说啊这个实验人员在一个房间里面然后他有两个box然后这个box里面比如一个放了香蕉一个放了苹果然后我们把这个给黑猩猩看一眼然后把盒子扣上对吧
[370:46]然后呃然后这个实验人员就把黑猩猩拉出去了然后过了很长很长时间再把它带回到这个任务里面啊然后这时候黑猩猩呢黑猩猩看到第一件事情是一个实验人员在吃香蕉啊然后黑猩猩直接静止就去打开那个装有苹果的盒子把苹果吃了看都不看这个香蕉眼啊所以所以黑猩猩也有某种这种这种推理的能力对吧然后虽然确实语言是独一无二的语言是只有只有人类有啊但不代表其他动物不会交流如果我们说他们有他们的语言他们有他们的语言包括你像鲸鱼也有也有自己的语言啊反正这件事情还是蛮有趣的我很推荐那本书然后然后包括还有我看到那个叫叫什么某一种鸟啊我忘了叫什么了然后他就说他们很会就如果他在买一个食物他把一个食食物要买到地底下啊如果他发现有他的同伴看到了这件事情
[371:47]他会先买在底下等到这个同伴走了之后把它挖出来换一个地方重新买下去对所以所以我觉得还蛮有意思的然后当然我们也知道对吧那狗的嗅觉很灵敏然后蝙蝠会基于听觉我觉得智能的界限是很很广泛的哦大家现在说jack的intelligence对那你们的world model会先朝着哪一种生物的智能去做呀目标当然是人类的智能人类智能肯定还是对还是还是在至少在一个底盘身上肯定还是最强的或者说他也是能够最能benefit这个世界的所以我们还是希望build a world model通向human like intelligence嗯但我只是想放弃人类的这样的自大然后这件事情其实我最近很受启发是因为看了这个rich sudden的一个呃他在这个嗯这个podcast上面的一个一个一个一个理论因为其实我之前我也不知道我该怎么address这件事情好因为大家说哎LM不是很厉害吗
[372:47]LM现在可以写code可以拿到IMOIOI的金牌可以帮我们去月球去火星这件事情太伟大了然后我觉得我没法否认这件事情这件事情确实很厉害对吧然后但rich sudden这个他的他的回答我觉得就很好他回答是说你觉得这件事情很伟大很厉害吗很难吗那你就这么觉得吧因为我不这么觉得我觉得能够打造出来一只松鼠的智能这件事情才是难的问题一旦你有了一只松鼠的智能一旦你能够去build一个松鼠的智能能够让他在这个真实的世界活下去他有自己的goal他有自己的目标他有自己的像你说的这种intrinsic reward他知道饥饿他有自己的emotion然后他能够有一定的社群的活动后面的写code写code上火星上月球这件事情都是再容易不过的事情好我现在慢慢觉得我非常认同这个观点
[373:48]对吧如果抛下人类的自大我觉得打造松鼠的智能其实是一个更难的问题但对人来说不是这样对于我们的认知来看好像不是这样但这件事情完全是因为人类的自大你们也要做人类的智能是啊但就是说人类的智能有很多很多点人类的智能不只是语言模型人类的智能有很多智能不能通过语言模型或者语言本身所决定对我觉得这是一个核心的观点你的智能定义是什么样的所以说刚刚说Rich Sutton讲这件事情他觉得松鼠的智能才是真正的智能我觉得它的定位有点不同它定位不是站在人类的视角以人类中心的视角看待这件事情它是站在宇宙跟造物主的视角看待这件事情在这个角度那当然能够重新去造出一只松鼠
[374:48]这件事情要比你的人类文明在这530个million years最后的8秒创造的东西要伟大的多在这个意义上我觉得又升华了我觉得上价值有道理但怎么样定义智能这件事情我觉得我不会想要去给它一个定义我觉得就是不同的动物有不同的智能然后人也有human level intelligence然后我希望鼓励大家的事情是说不要只关注那些我们每一个个体做不到的事情关注一下我们现在做的很好的事情关注一下一个4岁小孩或者说几岁小孩就能做的很好的事情这些事情其实是我们接下来世界模型需要着重去解决的问题所以这件事情也是为什么robotics是一个最后非常合适的出口因为在你谈论什么AGI super intelligence之前能不能先有一个足够reliable足够channel的robot
[375:49]能够在我们家庭的环境里面帮我去解决一些家务因为一个几岁的孩子其实能做很多很多的家务这个有一个列表你可以去网上搜一搜一个12岁的孩子基本上可以做所有的家务但现在到底有没有一个机器人能够像一个12岁的孩童一样去承担这些家务当然没有谭杰DeepMind谭杰他也说机器人发展是极不平均的极不平衡的他跟一个小孩的成长的轨迹是不一样的比如说现在机器人的四肢的发达能力已经比他强了已经比人强了但是很多其他能力都还不如一个小孩因为大脑没有人做大脑这件事没有人构建机器人大脑所有的机器人创业公司包括在大厂的机器人公司都没有去解决这件事情DeepMind不算吗DeepMind现在完全也是基于Gemline所以他也是在VLA的空价钱去做
[376:50]所有东西收敛到Gemline但这件事情需要一个预训练的下半场按姚顺宇的这种经典说法我觉得需要下半场但我觉得这是一个预训练的下半场Jim Fan其实最近也发表同样的观点这个预训练就是world model预训练这件事由谁来做这件事情对我来说是不清晰的如果我知道另外一个地方也可以做这件事的话我可能真的还可以考虑一下我也不一定非要在现在这个startup自己做这个事Robotic startup没有任何的精力去做这件事他们需要把自己的资源投入到所谓的硬件skilling out你需要买更多的机器人去deploy这些机器人或者在simulator里面去做这些imitation learning的方式能够让你有一个足够好的能够在短期内解决一些这种具体问题创造价值的这样的机器人的团队
[377:51]Pi呢Pi VLA对吧Pi也是一样Pi我觉得已经是一个非常非常researchy然后做的已经非常非常不错而且有启发性的一个公司了但again他们不会做预训练他们不会做pre-training他们会拿这个language model作为他们的foundation你们的预训练下半场怎么理解就是他输入什么输出什么不知道至少第一步就是长期来看就是输入的是所有的像我刚刚说的连续空间高维度的可能有噪声的信号那一开始可能可以还是video但我们也可能会有一些多模态的encoder去handle不同的这种除了视觉之外的信号然后输出的东西这是research的问题这是self-support的问题我不一定不知道但是对可能之后会更清楚然后但是这件事情我觉得肯定没有那么容易了
[378:54]但我觉得这也是exciting的地方之所在我还觉得挺有意思的因为我们第一次见面你就说You are not the chosen oneYou are just the normal oneYou are just the normal one你为什么这么喜欢说这句话没有你看我这个一路我们也讨论了我这些对吧这个成长历史我其实没有预料到我们会聊这些但是对我觉得肯定不是那种天选之子然后这句话其实也是我喜欢的一个球队的吧就是利物浦然后我是一个cop已经20多年了然后然后我觉得也有点气质相投然后我最喜欢的一个教练是这个克鲁普然后他其实是有点半开玩笑的跟大家说就当初另外一个教练穆里尼奥然后说I am the special one我是特殊的一个然后然后克鲁普说I am not the special oneI am the normal one然后我觉得这件事情
[379:54]一方面他自己又非常朋克他就是那种摇滚气质然后然后然后然后然后他又又又经常跟大家说他觉得他在团队的定位就是一个电池的作用他希望能够通过自己的passion自己的能量去让其他的人给其他人的发电empower其他人对我也想成为这样的人我也想成为一个团队不管这个团队是在学校还是在创业公司的一块电池我觉得这件事情其实不容易因为有时候每个人都会有沮丧的时间我也想这个这个多吐吐槽然后抒发一下情绪但我现在慢慢觉得在学校比如在在学生面前然后在创业公司的团队面前需要能够有人有这种电池的作用或者说我觉得样是一个巨大的电池他赶着我但我希望把这个电力通过也输送下去
[380:57]你最近一次感到沮丧是为什么呀我天天都感到沮丧我觉得这个已经变成了一个这也是research的一个宿命吧我觉得大家这个对底色都挺悲凉的原因是research的求索的过程就是在一个暗无天日的这样一个一个地方去摸索的过程你看不见光亮的时候你总是会感到感到迷茫跟沮丧然后大家真正感受到这种快乐的时候无非就是你真正把东西做出来的时候但这一部分的时光又是非常非常短暂的可能也许只有5%10%凯明好像有说过类似的话所以长此以往大家心理状态也很堪忧但我觉得还好我觉得现在这个时代我觉得还是跟原来不那么一样了吧我觉得现在会有更多的
[381:58]更多的讨论我觉得这也是这个AI这一波带来的好处就是至少大家不会觉得自己是在一个幽闭的空间里面独自的探索对吧至少大家可以刷刷小红书刷刷微博知乎看看大家是怎么讨论这件事的我觉得这件事情有时候还是挺解压的但有时候也挺增加压力的被人骂的时候你就不这么想你们公司有创业者人格的人吗有创业者人格一般还蛮乐观的我觉得样本身就很乐观非常乐观他为什么不是这种悲凉的底色我不知道因为他经历过悲凉然后成功了吧他经历过AI的寒冬然后告诉所有人他是对的你们是错的如果我经历一下这件事情我可能也没那么悲凉他还是蛮乐观的我觉得这件事情或者说他过去的这些经历也让他更有信心然后他经常说的一句话是
[382:59]这件事情跟过去deep learningneural network发生的事情一模一样哪件事情就是现在word model或者你不管怎么叫它现在系统现在智能系统搭建他说总有一小群人大家能够清晰的看见这个世界发展的脉络这个科技的进程但是他们只是一小撮人大部分人看不见因为大部分人都在忙着做其他的事情可能deep learning之前可能就是做一些whatever其他东西现在对吧这个东西就是你可以不说了想一想然后我觉得他其实还是蛮乐观的或者说他有足够的confidence然后说我能看到的事情是重要的事情我能看到的这条路线是一个清晰的路线然后在这件事情上我还蛮相信他的
[383:59]你有怀疑过他吗我说了嘛我质疑扎帕我理解扎帕成为扎帕所以当然有个怀疑但我觉得对人的信任和对一条research主线的信任这件事情是需要时间的我前两天还在跟学生说Young每次出去给talk会给一模一样的一个talk就是他的那个slides也是说实话挺难看的然后但是又有他个人化的风格风格跟design这件事情也很有意思有些东西本来很丑但你用的多了等到时间发生了变化他又变成了新的时尚但他每次给这样一个同样的talk但我最近体会就特别的深我就说我这个talk已经翻来覆去看了至少十次二十次了但每次都有新的收获每次我都会觉得好像我更加understand他到底是什么意思然后这件事情的更多的understanding
[385:01]不是因为我看了十次二十次同样的内容得到了新的understanding而是因为我自己在做我自己想做的事情然后我能找到我在看他talk的时候每次都会去做这种翻译工作跟联想工作我会发现原来他说的这件事情在我现在的认知体系下是可以这样解释的他跟甚至现在的large model的范式多模态的范式一点都不冲突所有东西一样说的话都可以被很清晰的map到我们现在在做的具体的事情上并且指导我们可以走出也许某种local optimal然后也许可以通向一个不一样的未来所以他变成了一个insight一个inspiration它不只是knowledge它是一个inspiration所以这件事情我觉得也很奇妙我们刚才聊了很多世界模型
[386:03]你对这个真实世界的世界模型有什么新的思考吗在过去一两年我觉得就是说这件事情一定要超出这种research的局限researcher的局限一定要走到真实的生活里面去然后要了解到这个真实世界发生的事情但是我觉得纽约很不一样我就每天我上班首先不用开车所以已经开始进入到从一个铠甲脱离出来进入到真实生活开始步行这件事情我觉得也有很多很奇妙的这种反应比如说每天有时候其实还是压力蛮大的有时候遇到一些事情还是蛮沮丧但每当我穿过从我家到我学校办公室会有一个公园叫Washington Square Park华盛顿公园然后里面形形色色的人什么人都有大家都在过自己的生活有弹钢琴的艺人
[387:05]有跳舞的有推着婴儿车的妈妈们有下象棋的老大爷然后有坐在台阶上什么也不做发呆的年轻人也有拿着电脑学习的M.I.O的学生然后我觉得我每天最解压的时光就是这大概五到十分钟的路我会发现这个世界比我们想象的大得多不是所有人都关心什么叫做AI他们可能不care这件事情然后他们有自己的生活这个世界很大但另外一方面也许AI在未来某一天确实会影响到他们的生活那我们到底应该做什么我们作为一个researcher有没有某种社会责任当然这个可能说的有点远了但我只是觉得多跟人接触多跟生活在这个世界里面的人接触
[388:05]让我对什么是AI应该怎么样去做下一代的AI会有一些新的认识于是这件事情正是伊莉亚当初给我打电话的时候她想要跟我聊的东西但我那时候还没有这些感悟有了什么新的爱好新的爱好在纽约吗对没有什么新的爱好我觉得我觉得滑雪算一个吧现在大部分时候可能还真的是没有时间但是在纽约的好处是你知道你出门之后就能够去找到一个新的爱好这件事情本身对我来说已经足够开心不管我也没有时间真的走出门去然后做这件事情然后有这样一个机会在这我觉得还是蛮不一样的跟完全也很不一样能不能分享一下
[389:06]除了工作以外你有什么喜欢的音乐喜欢的书电影喜欢的游戏现在啊嗯嗯这件事情还蛮难想的一时半会儿我觉得还是通过AI来讲吧我觉得最近看了什么东西我想想啊我还挺爱看电视剧的所以可以推荐一些电视剧给大家看一看有个电视剧叫POI也是一个很老的剧Personal Interest这个很多年前看在那个里面大家讨论了什么是一个super intelligence你有一个好的super intelligence和一个坏的super intelligence它们之间的竞争跟对这个人类社会的威胁嗯然后我觉得这件事情我就不剧透了但是还是挺多么态的而且这件事情我觉得有一定的预言性我觉得还挺神奇的本质上它就是怎么样
[390:06]从一个在一个盒子里面的语言模型或者说一个可以写代码的这样一个agent一步一步跳脱出来变成一个多模态模型的一个过程我觉得大家可以看一看然后到后面当然还有我很喜欢的比如说像万神殿这也是一个我觉得是一个某种AI的预言它是一个动画它的作者是刘宇坤他也是我的老乡然后但他也是一个当过什么律师当过马农然后最后变成了一个小说家的这么一个人非常非常厉害我非常非常敬佩他然后他的书我也很爱看对然后但这部剧之前也被Sam Altman推荐过所以很多人也都看了然后还有最近当然就是很火的《同乐者》我觉得这件事情也是一个AI的预言所以现在有一点麻烦的事情在于这些流行文化被AI渗透的太多导致所有事情好像都跟AI有关系
[391:08]有一点受不了但是作为一个那可能只是因为我是一个AI从业者所以有时候会有不一样的感觉但我觉得其实这些事情还是蛮有启发性的包括我之前说的这些科幻小说包括这些老的电影我觉得他们可能都是某种现实的预演但通常来讲这些这些这些影视作品都没有去指向到一个很光明的未来通常来讲结局都是挺惨淡的你最近还看一个电影叫好像叫No Other Choice可能翻译就过来叫叫《别无选择》朴瓒玉的一个电影然后他讲的也是AI对人的异化他全篇这个电影没有讲任何关于AI的任何事情直到最后但通篇都在讲因为AI的到来人到底发生了什么样的变化人的心态人与人之间的关系到底发生了什么样的变化
[392:09]我觉得这些事情也很有很有借鉴意义对然后说到电影最后说一句就是欢迎大家来纽约在纽约我现在以前我会参加一个电影节就是纽约电影节会有很多这些电影可以看现在我会参加两个第二个是这个Runway每年举办的AI电影节然后我觉得也很酷也很有趣然后要推荐的话跟我们刚刚说的这些事情都很相关的一个今年的得到他们大奖的这个AI电影叫做Total Pixel Space中文可能叫做全像素空间Total Pixel Space然后对我也不剧透反正这是一个很有趣的一个AI的短片然后他其实讲了很多我们刚刚讲到的关于视频的东西关于世界模型或者说为什么人的intelligence不是只是简简单单的或者不是purely general的这种intelligence的一些argument
[393:09]我觉得很好玩我们的每一位嘉宾都会给我们的观众推荐一个人生之书就是希望它是真的影响过你改变过你你的会是什么呢书吗浩南你得让我想一想一本书我猜大家可能都经常推荐然后但这本书之所以所以对我的人生改变很大我觉得不能说对人生改变很大但是是我在本科的时候一个群体性的记忆就大家会看这本书叫做记忆币你有听说吗就是戈德尔巴赫埃舍尔中文名叫集义币之大成里面讲了很多关于哲学关于数理逻辑然后以及这三个人对吧戈德尔巴赫埃舍尔对吧一个一个数理学家一个音乐家然后有作曲家然后以及一个画家
[394:12]他们之间是怎么样能够他们到底有哪些哲学的共同点可以这么说然后这件事情很有趣是因为我们本科的时候这本书有这么厚我们组团的组织是这么厚的我们在学习这本书这也是我们老师推荐的所以大家组团学习这本书然后其实当初大家也看不懂但是到后面可能越来越觉得这件事情有点道理我觉得这本书我觉得如果没有时间去仔细看每一页的话也可以稍微读一个精简版或者某种summary它里面有些观点我觉得非常有意思然后还有一本书这个也是可能是本科的时候看的叫做《禅与摩托车悲修》还是叫《摩托车修理》Zen and Motorcycle Repair好像叫这个名字然后这本书也是一个内心求索的过程
[395:16]他讲的就是一个人骑着摩托车然后有一个这样可能又剧透了有一个想象中的这样一个责任但其实这个责任就是他自己的投射我觉得我看这本书的感觉是我也其实并没有完全看懂他到底在说什么但是有些书有些电影会把你装满有些书或者有些电影会把你掏空我看完这本书的感觉是它有点把我掏空了的状态然后让我感觉到了一些对这个说起来又虚了然后反正让我觉到了让我感受到这个世界里面到底什么重要什么不重要对于你来说什么重要什么不重要我不知道
[396:17]我觉得永远在找这个平衡我觉得我觉得人与人之间的真诚的交流是重要的我觉得人与人之间的真诚的交流是重要的我觉得人与人之间的真诚的交流是重要的我觉得人与人之间的真诚的交流是重要的我觉得人与人之间的真诚的交流是重要的也许其他都不重要但我在某一个时间点上你要问我这个问题那可能我觉得我会说创业很重要我会说research很重要但归根结底我还是相信人与人之间的交流这件事情很重要听起来你想做research也是为了交流对啊我觉得是啊而且我觉得research本身也是一个deeper connection吧这件事情其实我们在融资的过程中还帮到了我们为什么呀就有一个投资人很愿意投我们然后他的原因是原因是他认识的一个很强的一个创业者也是一个研究员然后他说你们一定要投赛林然后我们不管以什么样的方式都要帮到他但我跟这个人只在开会的时候见过一次
[397:18]然后后来后来这个谁呀谁呀这个RobinRobin Ramaha就是他是这个stability fusion的一组是现在black forest的CEO哦的flux对吧然后然后然后这个我觉得投资人跟我说说其实他之所以会这样就是就是这种信任关系是建立在你的学术工作之上的这种信任关系甚至有时候会远超于你真正的personal的这种connection哦大家通过你的一篇作品了解你然后这件事情会会会传承下去甚至可以走的很远你怎么看现在这个CdanceCdance非常厉害啊Cdance这个真的让让我们这个今天的摄制组的朋友也可以来讲一下我觉得非常非常强然后我听说他们也是一个很大很大的模型
[398:19]而且是一个MOE的模型不知道这个小道消息是否属实啊因为在此之前我呃我知道呃大家没有人呢在这种diffusion的模型里面呢在这种模型里面把MOE做work如果他们真的能够做到两百两百个BDM的parameter并且是一个MOE的架构并且他们能够把这些数据吃进去啊我觉得我觉得我觉得非常非常了不起然后但是所有这些生成模型90%还是一个data问题架构不重要90%或者我再说95%吧都是一个data的问题嗯他有data本身就多这个data本身多但多不够嗯他们应该做了大量的工作去清理这个数据去做captioning去校对这些数据的分布啊他们diversity quality以及他们和语言的这个prompt alignment的程度呃我相信这里面应该有大量的人参与这个工作
[399:21]然后做了大量的事情对但是一旦你把这些事情做好之后后续的事情啊啊就变得简单很多嗯但我觉得我觉得cdance很厉害啊我觉得我觉得啊包括sara包括view想要超越啊我觉得我觉得不一定那么简单我们的工作室叫语言级世界工作室当你听到这个名字的时候你在想什么啊我看到你给我写了一句话叫放呃叫那个放开威特根斯坦对放开威特根斯坦哎呀你这个结尾是不太好呀我又开始吐槽了没事你吐槽了我放开威特根斯坦是说你不要大家不要拿着威特根斯坦然后哎使劲好然后把它作为一个语言的边界就是我世界的边界的吧这句话拿拿来当做一个lm或者语言决定论的背书这件事情完全是很离谱的啊然后同样的话也也有其他的话比如说大家说这个费曼讲what i cannot create i do not understand这件事情拿来当做一个unified model的背书
[400:22]我觉得这件事情这两件事情都让我实在是接受不了嗯啊第一件事情是什么呢第一件事情是威特根斯坦对吧他当初讲的这个语言的边界就是我世界的边界是有强烈的前提的他在这个tracktardis什么logical philosophicus里面讲这件事情是说是说是说你你的你的他指的语言针对的是可以被命题刻画的这个世界的边界对然后这件事情不代表general的整个我们所说的这个世界对然后然后所以所以这件事情第一就是他说的这个这个语言和他说的世界本来就跟我们现在LM里面说的语言跟世界有区别第二威特根斯坦在后期的时候已经完全推翻了自己之前的这个这个一整套的这种这种啊哲学体系他后来不再说这句话然后他讲的事情是语言其实是一个游戏所谓这种语言游戏这样的一个概念就说语言本身没有意义
[401:25]这些symbol本身没有任何意义他之所以发生意义是因为他跟真实世界的实践发生了关系然后这件事情就很世界模型啊就是就我们并不是说语言就能够去完完美美的去represent整个这个世界我们说的事情是说这个世界的实践这个世界的action决定了语言这个游戏它的内涵跟外言again我不懂哲学我也不懂维特根斯坎但我只是不喜欢看到大家paper里面开篇先拉一句话放在这然后我觉得这件事情不符合我的审美然后包括费曼的句话也是一样他说I cannot createI do not understand这句话本身没错但他说的create跟understand是说比如说我们有一个世界我们要认识这个世界
[402:25]我们要改造这个世界我们要通过改造世界的方式去认识这个世界whatever他说的这些事情还是在一个真实的具体的世界里面要有某种action的即使是你是上课你去做一个PPT你还是一个创造的过程但现在很多人会把这句话拿来去做这种某种简单的unified system的一个背书这件事情逻辑上也是不成立的我们不能简单把create这件事情归结于一个diffusion model它反向传播的这么一个loss这件事情完全是离谱的对吧所以我不知道我觉得就跟我可能也是我小时候写作文名人名言用多了现在看到这些事情有点PTSD然后我觉得像凯明讲的大家可以多读哲学我觉得这件事情还是蛮有意思的你一开始就说你相信命运
[403:28]而且越来越相信你现在感觉命运在把你往哪里推我觉得我不知道命运在推我吗好像也没有我觉得好像没有被命运推着走的感觉只是在下一次需要做选择的时候希望上天能够推我上天保佑吧这个世界是一个巨大的世界模型吗这个世界当然是一个巨大世界模型那你能预测命运吗我觉得不能为什么呀因为我们资源不够你需要用地球这么大的一个计算机或者说你要有一个有整个宇宙作为你的计算机才能告诉你一个关于生命关于宇宙关于任何事情的关系关于任何事情的答案这个答案最后可能是四十二嗯
[404:30]好了今天的节目就是这样这里是商业访谈录是一档由语言及世界工作室出品的深度访谈节目你可以到公众号关注我们的工作室获取更多的信息我们的公众号是语言及世界language is world我们希望和你一起从这里探索新的世界在最后很开心的想告诉大家我们的工作室正在招募内容实习生如果你对我们的内容感兴趣并且你认为你自己具有一定的专业知识专业素养欢迎联络我你可以在show notes中找到我的邮箱给我发邮件我们下期见吧