百度入局后“形势不对劲”,拍卖当场叫停,Hinton与Jeff Dean首曝:64岁实习生,为“开心”与200万美元算力押定谷歌
日期:2025-12-24 20:26:16 / 人气:5

谷歌和OpenAI的“互狙”,最近愈加疯狂。上周几乎同一时间,两家公司抛出围绕智能体技术、基础模型能力边界的重磅更新,OpenAI发了备受期待的GPT-5.2,谷歌则上了全新“重新构想”的Gemini Deep Research版本。前日,谷歌又祭出最新模型Gemini 3 Flash。
现代AI的成就,是在哪个时刻开始丝滑迭代,频频爆发?Transformer之后,未来何种架构能再度支撑起下一代AI的阶跃式进步?
这些问题的答案,在刚结束不久的一场重量级人物对谈里或许能窥到几分方向。本周,被称为“AI教父”的诺贝尔奖得主、图灵奖得主Jeffrey Hinton和谷歌首席科学家、Gemini团队的联合负责人Jeff Dean一同出现在NeurIPS大会现场,共同参与了Radical Ventures联合创始人Jordan Jacobs主持的圆桌对话。
从谷歌的早期突破到塑造当今AI系统的种种选择,他们就过去数十年的AI发展,畅谈了那些将决定AI未来走向的领导决策、模型架构、芯片硬件与未来趋势。
“要么全员幸福,要么一起完蛋!”对于20年后AI技术产生的影响,Hinton给出这样一句犀利的判断。
值得一提的是,这场深度对话还包含许多首次对外曝出的幕后故事:那些大胆的构想是如何实现并面世、又与规模化所需的基础设施相遇的。
对话很长,我们整理了部分精华信息(快速消化版):
还有太多信息量值得细读,其中不乏有趣的技术细节和AI大佬们的科研经历。
以下是为经InfoQ整理与翻译后、不改变原意的完整对话内容,以飨读者:
1共同反思:没早意识到Scaling Law
Jordan Jacobs:我人生的大部分时间其实是一名AI创业者,2010年我创办了一家深度学习公司,那时候我们甚至还得跟客户解释“AI”这两个字母该怎么拼。不过我很幸运能有机会和Jeff Dean相识,保持密切联系,还和他合作参与了Vector Institute(加拿大多伦多的一家独立非营利AI研究机构)的创立等多个项目。感谢NeurIPS,能让他和Jeffrey Hinton两位同时出现在这里,这对我来说是一个难得的机会。首先,为在座还不了解Jeffrey Hinton的朋友介绍一下,他是诺贝尔奖得主、图灵奖得主,还斩获了无数其他奖项,被公认为“AI教父”。我一直没问过你,你喜欢这个称号吗?
Jeffrey Hinton:我不应该喜欢它,但实际上我很受用。
Jordan Jacobs:好的,知道了。那以后见到你,我就直接叫你“教父”了。
Jeffrey Hinton:没问题。
Jordan Jacobs:Jeff Dean是谷歌的首席科学家,也是一位传奇工程师。他主导了众多具有突破性的项目,正是这些突破,推动了如今AI领域的飞速发展。他目前还是Gemini团队的联合负责人,在座的各位肯定都有关注,Gemini已经在各大榜单上一骑绝尘,成为当前性能最强的模型,还引发了另一家公司的代码研读潮,这件事挺有意思的。非常荣幸能邀请两位同台。我注意到,你们两人的职业生涯早在很多年前就有相似的轨迹,是从1986年开始的。
Jeffrey Hinton:不,应该是1982年。不过我们直到1985年才意识到当时的研究有多重要。
Jordan Jacobs:好的,是我记错了几年。说实话,那时候我还在看动画片呢。
Jeffrey Hinton:我们的研究成果直到1986年才正式发表。
Jordan Jacobs:原来如此。说来也巧,不知道是偶然还是必然。我想问问Dean,1990年是什么促使你确定了本科毕业论文方向?可以简单讲讲吗?
Jeff Dean:当然可以。当时我修了两门关于并行算法的课程,其中有一门课花了大概一周时间讲解神经网络,我立刻就被这个领域吸引住了。于是我决定,跟着明尼苏达大学的Vipenkumar教授共事会很有意思。我去问他,“我能跟着你做荣誉毕业论文吗?”我想研究用于训练神经网络的并行算法。之后我就投入了这项研究。当时我们系里有一台32处理器的超立方体计算机,我那时候觉得,只要我们能获得32倍的算力,就能打造出令人惊叹的神经网络。
Jordan Jacobs:你一定是第一个意识到扩展计算能力需要付出巨大努力的人。
Jeff Dean:其实我自己当时都没完全意识到这一点。我确实做了一些加速曲线的实验,但结果不算理想,因为我犯了一个大错。我在增加处理器数量的时候,并没有同步扩大模型的规模。当我试图把只有10个神经元的网络层分配到32个处理器上运行时,效果糟糕得离谱。不过这个过程还是挺有趣的,我当时设计了两种算法变体,其实就是现在所说的数据并行和模型并行训练模式,只不过那时候我给它们起了些奇怪的名字,比如“模式划分”和“模型流水线”之类的。
Jordan Jacobs:Hinton,你是从什么时候开始意识到算力的重要性的?
Jeffrey Hinton:我应该在80年代末就意识到这一点。当时有两个研究团队,一个是伯克利国际计算机科学研究所的Herb Borlard和Nelson Morgan团队,另一个是剑桥大学的Tony Robinson团队,他们都投入了大量精力,用并行计算技术研发更优的语音声学模型。最终他们研发的模型性能达到了当时的顶尖水平,远超用普通处理器训练的神经网络模型。那时候我们就该意识到,只要把模型规模做大,性能就会更好。但问题在于,扩大模型规模需要复杂的编程技术和硬件支持,所以我们当时并没有真正吸取这个教训。现在回想起来,没意识到这一点真的很愚蠢,但事实就是如此。
Jordan Jacobs:那你是到什么时候才真正明白这个道理的?
Jeffrey Hinton:我直到2014年听了一场讲座之后,才彻底想通这件事,确实是有点晚了。我之前没意识到它会一直扩大规模。
2AlexNet传奇:两块GPU改写AI史
Jordan Jacobs:好的,接下来我们聊聊推动现代AI发展的几个关键节点。我发现两位的一个共同点,就是你们都很擅长挑选优秀的合作伙伴一起共事。或许这个话题有点偏题,但我还是想问问,之后会回到主线。你在挑选本科生加入自己实验室的时候,最看重他们身上的哪些特质?
Jeffrey Hinton:我最看重的是这个人是否有原创能力,是否有自己的想法。我有时候会问面试者一个问题:“你有过的最好的想法是什么?”有些学生成绩全优,但他们会说自己还没产生过什么想法,因为还没读研究生,只是很期待未来能有好的想法。这类学生我是不会选的。
Jordan Jacobs:明白了。我们继续往后聊。你挑选的很多研究生和博士后后来都成了行业大牛,比如Yann LeCun,还有很多人,昨天晚宴上我们还见到了Max Welling(阿姆斯特丹大学机器学习研究主席、微软阿姆斯特丹新实验室负责人)和Alex Graves(机器学习领域知名研究者、神经图灵机(NTM)提出者和可微神经计算机的创造者之一)。另外,多伦多大学的实验室里还有Ilya Sutskever(OpenAI前首席科学家)和Alex Krizhevsky(AlexNet网络一作)。说起来,可能有人去过那栋楼,它看起来一点都不像一个能改变世界的地方。
Jeffrey Hinton:没错,我们当时的实验室很小,连窗户都没有。不过这或许是件好事,至少他们没法分心往外看,只能专心做研究。
Jordan Jacobs:你们和这些学生一起合作,最终研发出了AlexNet,用李飞飞在斯坦福大学构建的ImageNet数据集做训练,还参加了相关比赛。你能讲讲当时为什么决定做这件事吗?再回到算力的话题,当时训练AlexNet用了多少算力?
Jeffrey Hinton:其实事情的经过是这样的。几年前,Vlad曾用英伟达的GPU尝试识别航拍图像里的道路。这其实是个很有难度的任务,因为城市道路上会有树木、车辆,还有各种阴影遮挡,他当时做得非常出色。这个研究项目是基于一项政府战略拨款开展的,该拨款旨在支持那些可能产生产业影响力的研究。在Vlad证明多层神经网络的性能远优于单层神经网络之后,我申请了续期资助。这在当时是一个关键突破,毕竟大家都在争论,增加网络层数到底有没有用,而他的实验给出了明确答案:每多增加一层,模型性能就会提升一截。结果有一位评审专家说,这笔钱不该批给我们,因为这个研究项目根本不可能产生任何产业价值。
Jordan Jacobs:你知道这位评审专家具体是谁吗?
Jeffrey Hinton:我倒是希望知道他是谁。可惜我没保留那份评审报告,不然我真想告诉他,去年美国股市80%的涨幅都和AI脱不开关系。言归正传,Vlad的研究让我们意识到GPU的强大性能,其实我们从语音识别的研究中也早就发现了这一点。有一天,Alex Krizhevsky来找我,他当时在研究小尺寸图像识别,用的是类似MNIST数据集的图像,因为我一直很看好MNIST数据集。他的想法是,如果能在小尺寸图像上实现识别,再拓展到真实场景的视觉识别应该会可行。我至今还记得,Krizhevsky第一次尝试小尺寸图像识别时,跑来跟我说实验失败了。我去看了他的实验设置,发现他把权重衰减参数设成了1。我问他:“为什么要把权重衰减参数设成1?这个参数应该设成0.001才对。”他回答:“我不知道,我只是觉得1这个数值听起来不错。”
其实你会发现,学生们在接触一个全新领域的时候,可能会犯一些看起来很“傻”的错误,但这不是因为他们笨,只是因为他们还不了解相关知识。Krizhevsky后来进步得非常快。之后伊利亚提议:“我们为什么不把这个模型用到ImageNet数据集上?肯定能成功。我们必须抢在Yann LeCun之前完成这个实验。”当时Yann LeCun也一直在让自己实验室的博士后和学生尝试用卷积神经网络处理ImageNet数据集,但他的团队都觉得有更重要的事情要做,没把这件事放在心上。幸运的是,Ilya当时态度很坚决,他还主动说:“这样吧,我来做数据预处理,把工作简化。”于是他把所有图像都处理成了固定尺寸,应该是256×256像素,也可能是224×224像素。准确来说,我们是从原始图像中截取了224×224像素的图像块。实验结果非常理想。
后来我做了一个这辈子最明智的管理决策。当时Krizhevsky需要完成一篇深度文献综述,也就是要梳理相关领域的研究成果,证明自己具备开展研究的能力,才能正式开始博士论文研究。但Krizhevsky根本不想做这件事。于是我跟他说:“这样吧,只要你每周能把AlexNet在ImageNet数据集上的性能提升1%,你就可以把文献综述的任务往后推迟一周。”结果就这样,一周又一周地拖了下去。
Jordan Jacobs:那当时训练AlexNet的算力是从哪里来的?
Jeffrey Hinton:是在Krizhevsky父母家的卧室里,用两块GPU显卡完成的。GPU是我们买的,但电费是他父母付的。当然了,我这么安排也是为了帮多伦多大学省点钱,这是肯定的。
3Google Brain诞生记:64岁实习生接替了吴恩达
Jordan Jacobs:差不多在同一时期,Google Brain团队也应运而生。你能给我们讲讲这个团队的起源、创立的初衷,还有“Google Brain”这个名字的由来吗?
Jeff Dean:当然可以。我想,Google Brain团队这个研究小组的起源,要从我偶遇吴恩达(Andrew Ng)说起。当时他刚开始每周抽一天时间来谷歌工作,他本身还是斯坦福大学的教员。我之前去斯坦福大学访问过一两次,所以认识他。我在茶水间碰到他,就问:“你怎么会在这里?”他回答:“我也不太确定具体要做什么,我刚来没多久。不过在斯坦福,我的学生们用神经网络做研究,已经开始取得不错的成果了。”其实本科毕业论文之后,我就没太关注神经网络领域了,只是一直觉得它是个很有用的研究方向,是个值得深耕的领域。于是我跟他说:“这听起来很有意思。我们谷歌有这么多计算机,为什么不在这里训练超大规模的神经网络呢?”
当时我们的数据中心里还没有配置GPU,只有大量的CPU服务器,每台服务器大概有16到24个核心。所以我着手开发了一个软件抽象库,通过这个库,人们可以自定义神经网络结构,同时它能支持模型并行和数据并行两种模式,把计算任务分配到成千上万台机器上进行处理。我们最终把这个系统的规模做大,成功训练出了一个神经网络,它的规模是当时其他人训练过的模型的50倍。我们做过一个非常有名的实验,后来也被广泛报道。我们用无监督学习的方法,在1000万张随机抽取的YouTube视频帧上训练模型,目标很简单,就是让模型学习到一种有效的数据表征,能够实现对每一帧图像像素的重构。
不过这个实验里我们犯了一个大错:我们想在计算机视觉任务中引入局部连接的结构,却刻意没有使用卷积操作。因为我们当时执着于让模型更符合生物学合理性,觉得人类大脑的视觉系统里,不同区域的神经元应该不会共享权重参数。所以我们最终采用的是局部连接的图像块结构,但每个连接对应的参数都是独立的。这么一来,整个模型的参数规模达到了20亿。之后我们用这个模型在ImageNet 22K数据集上做了测试,这个数据集的标注类别数量相对更多,样本分布则更稀疏。测试结果显示,模型的错误率比当时的最优水平降低了约70%。而完成这次训练,我们用了1.6万个CPU核心。
也是从那个时候开始,我们明确观察到一个规律:模型规模越大,性能表现就越好。我们还把这个软件抽象库应用到了其他多个领域,比如语音识别、各类计算机视觉任务等。虽然当时我们还没有把这个规律总结成正式的“缩放定律”(Scaling Law),但我们已经形成了一个共识,这个共识其实就近似于后来的Scaling Law,简单来说就是:模型更大、数据更多、算力更强,效果就会更好。
Jordan Jacobs:所以当AlexNet横空出世的时候,谷歌可能是唯一一个对此并不感到意外的机构。毕竟你们早就验证过这个逻辑。哪怕AlexNet是在Krizhevsky的卧室里完成训练,没有动用大规模算力,但只要给一个优秀的算法配上海量数据,再辅以充足算力,就足以彻底改变局面。
Jeff Dean:没错。其实早在Krizhevsky在ImageNet数据集上取得成果之前,我们在前一年就已经在ImageNet 22K数据集上实现了70%的相对误差降低。
Jordan Jacobs:应该就是同一年吧?你们两位就是在2012年的夏天第一次见面的吧?能不能分别讲讲你们对彼此的第一印象?
Jeffrey Hinton:好的。当时吴恩达决定全身心投入到Coursera的事业中,他认为这才是是未来的趋势,不过我觉得他当时的判断稍微有点偏差。他需要找一个人来接替他,担任Google Brain团队的技术顾问,这个人还得懂神经网络,于是他推荐了我。我答应去谷歌待一个夏天,原本的身份设定是访问科学家。但谷歌的规定是,访问科学家的任期至少要六个月,而我只想待一个夏天。他们要给我发薪水、办工牌,就必须给我定一个身份类别。最后没办法,我就成了一名实习生。
Jeff Dean:你曾是我的实习生?
Jeffrey Hinton:是啊,我当时是一个64岁的实习生。
Jeff Dean:我记得你当时还挂着绿色的工牌,和其他实习生一样。
Jeffrey Hinton:我想一个人能以64岁的高龄当上实习生,可能是因为谷歌的工牌系统里,年龄字段只分配了6个比特的存储空间,存不下太大的数字吧。
Jeff Dean:你就比普通实习生大那么一点点而已。
Jeffrey Hinton:我刚到谷歌的时候,还得跟着其他实习生一起参加入职培训。培训教室里坐满了年轻人,有印度理工学院的学生,有清华大学的学生,全都是绝顶聪明的年轻人。他们还都戴着统一的小绒线帽。我们当时每个人都发了一顶,我现在还留着,早知道今天就带来了。培训课上,老师站在讲台前说:“请大家用LDAP和一次性密码登录系统。”我当时直接举手问:“什么是LDAP?什么是一次性密码?”教室里有四个助教来回走动,帮大家解决问题。
大概十分钟后,他们专门指派了一个助教,全程围着我一个人转。其他学生都转过头来看我,看着这个年纪比他们大三倍还什么都不懂的老家伙,场面有点尴尬。中午我们去食堂吃饭,幸运的是,我之前教过的一个本科生刚好也在谷歌实习,她在排队的时候认出了我,喊了一声“Hinton教授”。这下所有人都恍然大悟:“哦,原来他是这么个来头。”现在想起来,那一天的经历还真是挺奇妙的。
4Hinton首次揭秘往事:为何没选百度去了谷歌?
Jordan Jacobs:那你们两位第一次见面是什么时候?
Jeffrey Hinton:应该是我入职第一天的傍晚,或者第二天一早。
Jeff Dean:我记得应该是入职第一天之前,大概是某个周日。
Jeffrey Hinton:对,是周日。我们在帕洛阿尔托一家很不错的餐厅见的面,叫塔马林餐厅。
Jeff Dean:塔马林餐厅,没错,那家的越南菜很地道。
Jeffrey Hinton:我们俩一见如故,从那时候起一直到现在,相处得都非常融洽。后来AlexNet的成果发布之后,很多公司都找上门来,想要收购我们的团队。我们当时琢磨出一个门道,如果我们假装成一家正式的公司,能拿到的收购报价会更高。因为我们发现,企业给员工发工资的预算,和做收购的预算完全不是一个量级,后者差不多是前者的十倍。所以我们决定,以公司的名义参与收购谈判,最后还搞了一场竞价拍卖。不过其实我早就打定主意,一定要让谷歌胜出。因为那个夏天在谷歌的实习经历实在太愉快了,在Google Brain团队工作的每一天都让人觉得很有成就感。
Jordan Jacobs:你们当时是有计划地操控了整场拍卖?
Jeffrey Hinton:只是到了拍卖最后阶段,我们发现形势有点不对劲,可能会让不合适的公司中标,于是我们干脆直接叫停了拍卖。
Jordan Jacobs:明白了。那这场拍卖是在哪里举办的?
Jeffrey Hinton:是在NIPS大会期间,地点选在了一家赌场里。
Jeff Dean:对,就是南太浩湖赌场。
Jeffrey Hinton:赌场一楼的大厅里,全是玩老虎机、玩21点的人。每次有人赢了一万美元,赌场里的铃铛就会叮叮当当地响个不停。而我们在楼上,正进行着一场百万美元级别的竞价。每次加价,起步就是一百万。
Jeff Dean:现在回想起来,那个场面真的很荒诞。毕竟搞AI研究的人,大多都懂概率统计,根本不会去赌场赌博。赌场估计也烦死我们这群人了,因为我们全程都没碰过任何赌具。
Jeffrey Hinton:这场拍卖是Terry Sejnowski组织的,他还给了我一张特殊的VIP卡,凭这张卡可以进入赌场的贵宾休息室。这种卡一般只发给那些出手阔绰的“大玩家”,也就是那些赌得大、输得也多的人。我拿着这张卡去贵宾餐厅吃饭,跟服务员说:“我其实不赌博。”他们都一脸不信的样子,敷衍着说:“是啊,当然了。”
Jordan Jacobs:最后谷歌赢得了拍卖。你和Ilya、Krizhevsky一起,正式成立了DNN Research公司,然后把这家公司卖给了谷歌。你当初为什么想要加入谷歌?
Jeffrey Hinton:很简单,谷歌大脑团队的工作氛围太棒了。当时我还有另一个选择,是百度。我想我永远不会知道中国人在想些什么,我那时候没法出国旅行,根本去不了北京。我只知道,在谷歌工作肯定会很开心。
Jeff Dean:没错,那段日子确实特别有意思。
Jeffrey Hinton:我觉得早期在Google Brain团队的所有人,现在回想起来都会觉得那段时光特别美好。一切都是全新的,我们不知道未来会走向何方,但我们坚信一个道理:模型规模越大、数据越多,效果就一定会越好。我还记得自己刚从大学进入谷歌的时候,发生过一件事。有一次我们的算力用完了,我听到Dean在打电话,隐约能听到他说“嗯,两百万美元应该够了”。我当时心想,换作是在大学,想要拿到两百万美元的算力经费,得写好几年的项目申请才行。
Jordan Jacobs:当时Google Brain团队的规模有多大?
Jeffrey Hinton:大概20个人,我们所有人挤在一间大办公室里,比现在这个房间还要小。
Jordan Jacobs:看来团队里多伦多大学的成员占比很高啊。
Jeffrey Hinton:是啊。我们每个人都在那间办公室里有一张办公桌,氛围特别好。后来团队规模也一直在扩大。
5知识蒸馏和Transformer,都被看走眼过?
Jordan Jacobs:接下来我们聊聊,稍后会谈到Transformer模型,不过先说说在那之后的几年里,Google Brain团队还产出了哪些成果?
Jeffrey Hinton:我当时在研究一种叫“胶囊网络”(Capsule Network)的技术。这个项目其实很能说明一个道理:做事光有毅力是不够的。我这个人毅力很足,但如果选错了研究方向,再强的毅力也没用,只会白白浪费好几年时间,最后一事无成。胶囊网络就是这样的例子。不过在研究初期,我听取了两位我非常敬重的人的建议,就是Dean和Ilya。他们都劝我别再执着于胶囊网络了,可他们越这么说,我反而越坚定要做下去。
当然,我也为谷歌做了一些有用的工作。比如知识蒸馏技术,我记得是2014年提出来的。当时这个研究成果被NIPS拒稿了。我至今还记得评审意见,有一位评审说:“用学生模型去蒸馏教师模型的知识,性能根本没比教师模型好,那这个技术有什么意义?”显然,这位评审完全没理解知识蒸馏的核心价值。但事实证明,知识蒸馏是一项非常实用的技术。
Jordan Jacobs:你还记得当时是哪位评审写的拒稿意见吗?
Jeffrey Hinton:不记得了,评审都是匿名的。
Jordan Jacobs:还好是匿名的。我知道你会保留这些评审意见,有时候我们还能扒出这些评审是谁。
Jeffrey Hinton:我不知道是谁在加拿大写了一份评审报告,说深度学习的研究永远不会产生任何产业价值,我真希望我那样做了。
Jordan Jacobs:说到加拿大,还有一件很有意思的往事。曾经有一家叫Research in Motion的企业,黑莓手机就是他们的产品。在你加入谷歌、AlexNet问世之前,你还把实验室里的一些技术带给了他们。能给我们讲讲这件事吗?这绝对算得上是一个前车之鉴。
Jeffrey Hinton:好的。当时George Dahl和Abdel-rahman Mohamed研发了一个语音声学模型,性能比当时最好的模型略胜一筹。只是略好一点,不像AlexNet在计算机视觉领域那样实现了碾压式突破。第二年夏天,Nav Deep想去Research in Motion实习。于是我联系了这家公司,跟他们说:“我们找到了一种更好的语音识别方法,想把这项技术交给你们。他可以来这里实习,负责教你们怎么用。”结果Research in Motion说,他们对语音识别技术不感兴趣。
Jeff Dean:也是,毕竟他们的手机有实体键盘,确实用不上语音识别。
Jeffrey Hinton:没错。后来Research in Motion的一位创始人还总抱怨,说加拿大的科研成果从来没有在本土得到应用。可明明是他们自己放弃了这个机会。这也算是一段很有意思的历史了。后来Nav Deep就去了谷歌。不过他当时正在申请美国绿卡,没法去美国本土工作,只能在谷歌蒙特利尔实验室任职。谷歌给他配备了一些GPU,他还有一位非常优秀的经理,叫Vincent Vanhoucke。他当时跟经理说,他想彻底改变谷歌的语音识别技术架构。Vincent一开始觉得这个想法太离谱了,让他先做一个更务实的项目。但他态度很坚决,Vincent最后只好说:“那你就试试吧。”结果他真的成功了。事实证明,这项技术的应用价值远比想象中要大。
Jordan Jacobs:好的,我们把时间线再往后推。现在来聊聊Transformer模型,这项技术同样诞生于Google Brain团队。你能讲讲当时的研发团队是怎么开展工作的吗?他们在做这项研究的时候,内部有没有意识到这是一项新颖、有趣,甚至可能具有突破性的成果?还是说,大家只是把它当成又一项普通的研究,最终目标只是发表一篇论文?
Jeff Dean:Transformer模型的研发灵感,其实来源于之前的sequence-to-sequence研究。没错,就是Ilya、Oriol和Quoc等人基于长短期记忆网络(LSTM)做的那个项目。他们当时用的是深度且规模较大的LSTM网络,最初在机器翻译任务上取得了非常出色的效果,后来这个模型也被应用到了各种各样的序列相关问题上。在那之后,我们一直在尝试扩大LSTM网络的规模。但后来有人意识到,传统的序列模型存在一个问题:模型会把所有信息都压缩到一个向量里,而且这个向量每个时间步只更新一次。这会带来两个弊端:一是存在序列依赖性,必须完成当前步的计算,才能进行下一步;二是要把大量复杂的信息都塞进一个向量里,效率很低。如果能保存所有的中间状态并进行处理,应该会是一种更好的方法。其实在谷歌之外,当时已经有一些关于注意力机制的早期研究了。
Jeffrey Hinton:是的,那是用到机器翻译领域。对于机器翻译来说,这样做是完全合理的。在写法语句子之前,先把英语句子写出来,这种场景下保留上下文信息是很合理的,而且当时需要处理的上下文规模也不大。我记得是Bahdanau等人发现,引入一种简单的注意力机制,就能让模型性能实现大幅提升。
Jeff Dean:后来研究人员将其运用到Transformer,就有了Transformer模型的雏形。它的核心思想就是保存所有的中间状态,并让模型去关注这些状态。这个设计的优势非常明显:首先,所有状态的计算都可以并行进行,摆脱了之前的序列依赖;其次,模型在解码时,可以回顾所有的中间状态,获取更全面的信息,对于编码器类模型来说,也能利用更多的上下文信息。
Jeffrey Hinton:Transformer模型刚问世的时候,我其实没太在意。因为我一直关注的是大脑的工作机制,而Transformer需要保存所有神经活动的向量,这显然和大脑的运作方式不一样。所以我当时觉得,既然大脑不是这么工作的,那这个模型也没什么研究价值。不过后来我发现,其实可以用“快速权重”来近似实现类似的功能,比如通过联想记忆就能完成一些近似计算。但直到现在,我还是不太清楚,模型是如何通过时序反向传播,根据后续的信息来学习前面的内容的。
Jeff Dean:但我认为,早期Transformer的第一篇论文就表明:在算力减少10到100倍的情况下,模型能达到和之前相当的性能;如果算力不变,性能则会有大幅提升。这显然是一项重大突破。除此之外,我们在稀疏激活模型的规模化方面也取得了类似的成果。我们看到,在达到同等性能的前提下,算力效率提升了10倍左右。而且这两项技术是互补的,把Transformer和混合专家模型结合起来,10到100倍的算力效率提升,再加上10到20倍的提升,效果会呈乘法效应叠加。
过去十年里,算法层面实际上取得了巨大的进步,这些进步叠加在一起,产生了巨大的协同效应。再加上硬件层面的投入,比如研发更快的芯片、训练时使用更多芯片、延长训练时长等,这些因素共同作用,让算力的使用效率实现了指数级增长。现在的模型训练,所用的算力大概是十年前的数十亿倍;而十年前的算力,又已经是1990年的数百万甚至数千万倍了。
Jeffrey Hinton:我记得大概是2012年的时候,我们买了一块新的Titan显卡。当时负责系统维护的同事正在给Vlad的电脑装这块显卡,动作有点慢。我当时还算了一笔账,估算他装显卡的这段时间浪费了多少算力,毕竟这块显卡本来可以用来做计算的。我算出来的结果很惊人:如果在1986年用当时的计算机训练一个神经网络,那么用这块新显卡只要一分钟就能完成同样的计算量。
Jordan Jacobs:你是在Transformer论文发表之前,也就是外界还没对这项技术做出反响的时候实时意识到的吗?毕竟论文发表后,外界的反馈也需要一段时间才能传来。在Google Brain团队内部,看到这项研究成果时,你们有没有觉得这是一项重大突破,是一次跨越式的进步?
Jeff Dean:我觉得是这样的。当时在这个领域,其实只有少数人在做积极的研究。我们团队规模不大,但在很短的时间内,就探索了很多未被涉足的领域,取得了不少突破,比如知识蒸馏、Transformer序列到序列模型、基于词向量的模型等等。Transformer模型就是其中一项重大突破,它的重要性和之前的序列到序列模型、混合专家模型等成果是相当的。当时我们并没有觉得它比其他成果重要得多,直到现在我也不认为它的重要性远超其他技术。它确实非常实用,但我们现在正在使用的所有技术,都是因为有用才会被保留下来的。
Jordan Jacobs:没错。当时谷歌手握搜索引擎这一堪称史上最佳的商业模式,同时还有一支顶尖团队在不断产出各种突破性成果,所以Transformer模型的出现,在众多成果里并没有显得一枝独秀。谷歌本身拥有充足算力,也早已洞悉算力和数据的价值。
6谷歌痛悔:早有压箱底成果,GPT后火速拍板Gemini
Jordan Jacobs:我很好奇,在ChatGPT问世之前,谷歌内部有没有过相关讨论,比如要不要将这些AI技术投入应用,哪怕可能会对现有业务造成冲击?还是说,谷歌只倾向于落地那些真正有助于业务发展的产品?
Jeffrey Hinton:这里还有个小历史插曲,我记得在ChatGPT之前,微软曾推出过一款聊天机器人,结果它却发表了仇恨言论,这件事当时让所有人都心有余悸。
Jeff Dean:对,是那个叫Tay的机器人。微软当时采用了在线训练的方式,这恐怕不是个明智的选择。
Jeffrey Hinton:甚至可以说相当糟糕。不过这话可别跟Rich Sutton说。
Jeff Dean:我不会去附和这个说法的。
Jeffrey Hinton:所以我觉得谷歌在技术落地这件事上一直非常谨慎。很多人可能不知道,其实在ChatGPT推出之前,谷歌就已经有了性能不错的大语言模型聊天机器人,比如PaLM。谷歌当时欠缺的,其实只是人类反馈强化学习技术,而且他们没意识到,只需要少量样本,就能有效阻止模型输出不良内容。
Jeff Dean:没错。谷歌内部其实有一款聊天机器人,当时在公司内部的使用频率很高。它是在新冠疫情期间研发的,当时所有人都居家办公,这款机器人在谷歌内部吸引了约8万名用户,这已经占到了公司员工总数的相当大一部分。大家都觉得它非常实用,但我们当时的视野多少有些狭隘。和那个时代所有的神经网络模型一样,它存在事实性错误和幻觉问题,直到现在这类问题也没有完全解决。如果从搜索引擎的视角来看,这些问题是致命的,毕竟搜索业务的核心原则之一就是追求信息的准确性和真实性。
但我们当时没能充分意识到,聊天机器人还有很多非搜索类的潜在应用场景。比如“帮我写一封给兽医的信,说明我的狗狗生病了”“帮我总结这篇论文的内容”,甚至是“帮我写一篇论文”“帮我写一份论文评审意见”。当然,我可不是说真的有人会这么做。所以从纯粹的搜索业务角度出发,我们并不想把这款机器人作为产品对外推出;但从用户实用性的角度来看,8万名谷歌员工给出的反馈都是极其正面的。因此,我们希望先解决事实性错误和幻觉问题,再将它推向外部用户。
Jordan Jacobs:好的。然后时间来到三年零一周前,ChatGPT正式发布。当时谷歌内部的反应是什么样的?是不是立刻拉响了最高警报?
Jeff Dean:倒也不能这么说。我当时写了一份一页纸的备忘录,大意是:“我们这样下去有点不明智。我们早就知道,算力规模和训练数据量决定了模型的性能,投入的算力和数据越多,模型效果就越好。谷歌内部其实有多个相关团队在开展研究,比如资深的DeepMind团队、Google Brain团队,还有Google Research的几个不同项目组,他们不仅在研究文本模型,还在探索各类多模态模型。DeepMind当时也有几个项目在推进,比如Flamingo,还有另一个我一时想不起名字的模型。但问题在于,我们的研究思路和算力资源都太过分散了,这在我看来完全没有必要。”所以我在备忘录里提议:“我们应该整合所有力量,组建一支专门的团队,目标就是打造全球最好的多模态模型,集中所有算力资源,看看我们到底能做到什么程度。”这就是Gemini项目的由来。
Jordan Jacobs:这件事是在ChatGPT发布后多久发生的?
Jeff Dean:大概是在ChatGPT发布一两周之后。因为我们意识到,谷歌内部其实早就有了类似的聊天机器人,原本我们完全可以抢先发布的。说不遗憾是假的,但没关系,我们可以迎头赶上。
Jordan Jacobs:我还有个问题。谷歌有没有后悔发表Transformer的相关论文?
Jeff Dean:当然不后悔。因为这篇论文对整个世界都产生了非常积极的影响。
Jordan Jacobs:从那之后,谷歌的论文发表量是不是减少了?还是说,这只是外界对谷歌政策的误解?
Jeff Dean:其实谷歌现在依然发表了大量论文。你可以去看看NeurIPS的议程,谷歌入选的论文可能有上百篇,甚至更多。不过对于那些商业价值极高的超大模型,我们确实会更加谨慎。毕竟这个领域的竞争非常激烈,所以像Gemini模型训练方案的具体细节,我们不会全部公开。但对于那些处于前沿探索阶段、暂时无法确定其重要性的研究,我们还是会积极发表论文。一方面是为了分享想法,获取学术界的反馈;另一方面也是为了让整个科研社区都能从中受益。
Jordan Jacobs:发表论文也是谷歌吸引人才的一大竞争优势,对吧?很多其他实验室可能没有这样的意愿,或者没有这样的能力去大量发表论文。
Jeffrey Hinton:没错。谷歌作为一家大型研究机构,除了核心的Gemini模型研发之外,还有很多其他的研究方向,比如大量的基础机器学习研究,以及很多和机器学习无关的其他领域研究。这些研究成果的发表数量其实相当可观。
7靠自研芯片""结构性碾压""?谷歌:打不过就加入吧
Jordan Jacobs:好的,我们把话题快进到最近。就在过去几周,谷歌发布了Gemini 3。这个产品一推出,人们就再次意识到,谷歌确实是一家顶尖的AI公司。我觉得大家其实并没有忘记这一点,只是再一次深刻地感受到了。谷歌这些年其实有很多影响深远的长期投入,比如TPU就是典型的例子。我之前也跟你聊过,我现在才突然反应过来,谷歌其实有着其他公司无法比拟的结构性优势,因为你们拥有自研芯片。你能给我们讲讲TPU的起源吗?推动这个项目的初衷是什么?你认为这项技术到底为谷歌带来了多大的优势?
Jeff Dean:当然可以。TPU的起源,其实源于我当时做的一个简单测算。那时候我们发现,无论是语音识别模型还是各类计算机视觉模型,性能都在飞速提升,但这些模型如果用CPU来运行,算力消耗会非常惊人。而当时谷歌的计算平台主要就是基于CPU搭建的。我当时就在想,如果我们的语音识别技术变得足够好,用户可能会更愿意使用语音功能。假设每天有1亿用户,每人用语音功能3分钟,那么如果用CPU来支撑这个规模的运算,需要多少算力?计算结果让我吓了一跳:仅仅是为了支撑这一项语音识别服务,谷歌就需要把现有的计算机数量翻倍。
这显然是不现实的。就算成本上可以承受,时间上也来不及。而且我们当时已经意识到,更大、更强的神经网络将会在更多领域发挥作用。于是我把这个粗略的计算做成了一张幻灯片,这也成为了谷歌启动自研定制芯片项目的契机。我当时的直觉是,神经网络其实有很多独特的特性,适合针对性地设计硬件:首先,神经网络的运算类型并不多;其次,它对低精度计算的容忍度很高,因为低精度带来的误差相当于给模型加入了噪声,而神经网络本身就对噪声有一定的鲁棒性。
Jeffrey Hinton:另外,你也不需要纠错。就算内存里的一些比特出现错误,对最终结果也不会有太大影响。
Jeff Dean:是的没错,这就好比模型训练中的随机失活技术,或者对抗性内存技术。所以我当时认为,我们应该启动一个硬件研发项目,初期先聚焦于模型推理环节。因为如果要将AI技术大规模推向用户,推理阶段的算力压力会是最大的。当时谷歌威斯康星州的硬件团队,其实已经有人在研究用现场可编程门阵列(FPGA)来加速神经网络运算。但经过讨论,我们认为直接研发专用集成电路(ASIC)会是更好的选择。因为现场可编程门阵列存在固有的性能损耗,这种损耗会抵消掉很多潜在的性能提升。最终我们推出了第一代TPU,它是一款用于推理的PCIe插卡式芯片。
当时我在走廊里拦住了谷歌的首席财务官Patrick Pichette,说服他批准了5000万美元的预算,用于在谷歌数据中心部署这款芯片,尽管当时我们还不完全确定这些芯片具体能用来做什么。后来的事实证明,这个决定非常正确。这些TPU被广泛应用于语音识别、计算机视觉等多个领域,还助力谷歌推出了质量更高的翻译服务。之后,谷歌的硬件团队开始将研发重点转向模型训练。因为训练环节的算力需求规模更大,需要大量芯片协同工作,还需要超高速度的互联技术。这其实已经相当于打造一台机器学习超级计算机了。而现在,谷歌已经推出了多个世代的TPU,一直在沿着这个方向不断迭代。
Jordan Jacobs:不过回到最开始的那个决定,你当时找到Patrick,跟他说需要5000万美元预算的时候,具体是哪一年?
Jeff Dean:2013年。
Jordan Jacobs:这么说,谷歌当时远远走在了行业的前面。
Jeff Dean:没错。因为我们当时就预见到,要把这些模型推向市场、支撑推理任务,算力需求会是天文数字,而自研芯片是解决这个问题的必经之路。后来我们在国际计算机体系结构研讨会(ISCA)上发表了一篇相关论文,这也是计算机体系结构领域的顶级会议。现在这篇论文已经成为ISCA历史上被引用次数最多的论文。论文里公布的性能数据显示,第一代TPU的性能,比同期的CPU和GPU高出15到30倍,延迟更低;而能效比(每瓦性能)更是提升了30到80倍。
Jordan Jacobs:这可是巨大的飞跃,足足有一两个数量级的差距。那么到了今天,谷歌拥有性能最强的模型,手握一支遍布全球、但主要集中在西海岸、伦敦、纽约等地的庞大团队,也就是Gemini团队。你们还有来自十几亿用户产品的海量数据,背后更有每年超过1000亿美元自由现金流的商业模式支撑。这样的谷歌,其他公司要怎么跟你们竞争?
Jeff Dean:加入我们就好。开个玩笑,其实我并不想空谈这个问题。但我确实认为,将硬件研发和模型研发整合在同一个组织架构下,对我们来说是极大的优势,因为这两者可以深度协同、共同演进。硬件研发的周期很长,作为硬件设计师,你必须预判这个飞速发展的领域在未来2到6年的走向,毕竟现在研发的硬件,要等到2.5到6年后才能真正投入使用。这是一项极具挑战性的工作。如果机器学习研究员能和硬件工程师紧密合作,一起发掘那些尚未成为主流、但前景可期的技术方向,提前在硬件层面为这些技术提供支持,就能让我们对未来有更清晰的把握。反之,如果没有研究员分享他们的机器学习理念,以及这些理念如何落地到硬件设计中,预判未来会困难得多。
Jeffrey Hinton:另外,用机器学习技术来辅助硬件设计,也带来了很大帮助吧。
Jeff Dean:没错。我牵头开展过一个项目,就是用强化学习技术来优化芯片设计中的布局布线环节。这项技术目前已经被用于三代公开披露的TPU,还有几款其他类型的芯片。每一代芯片的优化效果都在不断提升,相比人类工程师使用传统计算机辅助设计工具的方案,表现更为出色。
Jordan Jacobs:这项技术是提升了芯片的性能,还是加快了芯片的研发速度?
Jeff Dean:两者兼具。
8Transformer的下一代,将是怎样的架构?
Jordan Jacobs:接下来我们把目光投向未来。如今这么多年过去,你们觉得整个领域接下来会走向何方?Transformer架构会在不久的将来被取代吗?未来会是全新的架构,还是多种架构的融合?5年、10年、20年之后,我们又会身处一个怎样的世界?
Jeff Dean:我觉得有几个方向非常有意思,也让我很期待。首先,我们发现,只要给当前的模型输入恰当的上下文信息,它们的表现就会非常出色。因为模型可以精准地聚焦于近期获取的信息,而不是被训练过程中吸收的数万亿个token、混杂在数千亿个权重里的海量信息所干扰。所以我认为,探索扩展模型上下文窗口的技术,让模型能够处理数十亿甚至数万亿的token,而不是现在的数百万,将会是非常有价值的研究方向。这很可能会彻底改变这些模型的应用场景,它们不仅能处理人工整理的小范围信息,还能直接消化海量的科学论文、视频等数据。当然,这也需要硬件领域的创新配合,比如研发能效更高、性价比更优的推理芯片,来支撑这些大模型的运行。这是我非常看好的一个方向。
其次,目前我们训练的大多数模型,都没有实现机器学习领域长期以来追求的持续学习能力。这些模型的训练过程是静态的,一旦训练完成、投入使用,就不会再随着服务用户的过程发生显著变化。这看起来似乎不太合理。
Jeffrey Hinton:但这么做其实有一个重要的原因:更安全,更容易测试模型的性能。如果让模型自主学习,你很难预测它会学到什么东西。
Jeff Dean:确实如此。但我还觉得,当前的模型架构还不够灵活,和大脑的运作方式相去甚远。我认为,设计更丰富的模型内部连接模式会是一个好方向。即便是现在的稀疏激活模型,也只是采用“分支出多个同等规模的专家网络,再聚合结果,然后再次分支”的模式,这种结构其实没什么新意。
9Hinton预测:AI将让医疗、教育“巨变”
Jordan Jacobs:那我想请两位分别畅想一下,20年后,这项技术会给世界带来哪些意想不到的改变?
Jeffrey Hinton:我可以用一本书的可能标题来概括:“要么全员幸福要么一起完蛋”。说实话,20年后这项技术会产生怎样的影响,没人能说得准,尤其是对人类社会的影响。很明显,很多工作岗位会消失,但我们不确定是否会有新的岗位来填补这些空缺。但这并不是AI本身的问题,而是我们政治体系的问题。当生产力实现大幅提升时,创造的财富该如何分配?至少在美国,目前的政府体制并不适合解决这个问题。
Jeff Dean:去年,我和几位优秀的合作者一起,研究了AI可能对多个领域产生的影响。有些领域显然会迎来巨大的变革,比如医疗、教育,还有新型媒体内容的创作。但同时,我们也关注到了它可能对就业、虚假信息传播、地缘政治等方面带来的挑战。我认为,这些影响是一体两面、需要综合看待的。我最期待的一个方向,是AI如何加速科学突破。比如,帮助人类发现不同学科之间的潜在联系,这些联系可能是任何一个领域的专家都无法独自察觉的;或者,在某些领域实现科学发现流程的自动化。
Jeffrey Hinton:这些大模型的特点,就是能将海量知识压缩到数量相对有限的连接中,也就一万亿个左右。我们知道,要压缩海量知识,就必须找到不同知识之间的共性。所以我相信,在训练这些大模型的过程中,它们其实已经发现了很多人类从未意识到的共性规律。这些模型掌握的知识,远超任何一个人的认知范围。它们甚至可能发现了希腊文学和量子力学之间的关联,毕竟同时精通这两个领域的人寥寥无几。
Jeff Dean:对没错,这两个领域至少还共用希腊字母呢。
Jeffrey Hinton:是这样的。所以我认为,这些模型其实具有很强的创造力。很多人说它们没有真正的创造力,只是在复述已有内容,这纯属无稽之谈。正因为模型在做大规模的知识压缩,所以它们很擅长发现那些看似不相关的事物之间的类比关系。
Jeff Dean:对,这正是我想表达的意思。
Jordan Jacobs:如果沿着这个方向发展下去,我认为AI会彻底改变医疗领域,比如加速药物研发、消除疾病、实现个性化治疗,当我们对人类基因组有了更深入的理解之后,这些都将成为可能。医疗会是改变人类社会的最大突破口吗?
Jeffrey Hinton:我觉得教育领域的变革可能也不相上下。这两个领域都有很大的发展空间。以医疗为例,如果能让医生的工作效率提升10倍,我们并不会只保留十分之一的医生,而是会让所有人享受到10倍的医疗资源。教育领域也是如此。我们都知道,一对一的私人辅导效果最好。很明显,几年之内,AI就能达到私人辅导老师的水平,而在那之后,它会变得比人类老师更优秀,因为它见过数百万学生的学习过程。未来,人类能够吸收的知识量也会大幅增长。所以我认为,这两个领域的变革将会非常惊人。
参考链接:"
作者:天狮娱乐
新闻资讯 News
- 地球的失忆、幸存者偏差与真实的...12-24
- 大疆的“印钞机”Pocket:被手机...12-24
- “中华谈吃第一人”笔下的饺子:...12-24
- 280亿扫地机器人鼻祖破产:iRob...12-24

