百度入局后“形势不对劲”，拍卖当场叫停，Hinton与Jeff Dean首曝：64岁实习生，为“开心”与200万美元算力押定谷歌

谷歌和OpenAI的“互狙”，最近愈加疯狂。上周几乎同一时间，两家公司抛出围绕智能体技术、基础模型能力边界的重磅更新，OpenAI发了备受期待的GPT-5.2，谷歌则上了全新“重新构想”的Gemini Deep Research版本。前日，谷歌又祭出最新模型Gemini 3 Flash。
现代AI的成就，是在哪个时刻开始丝滑迭代，频频爆发？Transformer之后，未来何种架构能再度支撑起下一代AI的阶跃式进步？
这些问题的答案，在刚结束不久的一场重量级人物对谈里或许能窥到几分方向。本周，被称为“AI教父”的诺贝尔奖得主、图灵奖得主Jeffrey Hinton和谷歌首席科学家、Gemini团队的联合负责人Jeff Dean一同出现在NeurIPS大会现场，共同参与了Radical Ventures联合创始人Jordan Jacobs主持的圆桌对话。
从谷歌的早期突破到塑造当今AI系统的种种选择，他们就过去数十年的AI发展，畅谈了那些将决定AI未来走向的领导决策、模型架构、芯片硬件与未来趋势。
“要么全员幸福，要么一起完蛋！”对于20年后AI技术产生的影响，Hinton给出这样一句犀利的判断。
值得一提的是，这场深度对话还包含许多首次对外曝出的幕后故事：那些大胆的构想是如何实现并面世、又与规模化所需的基础设施相遇的。
对话很长，我们整理了部分精华信息（快速消化版）：
还有太多信息量值得细读，其中不乏有趣的技术细节和AI大佬们的科研经历。
以下是为经InfoQ整理与翻译后、不改变原意的完整对话内容，以飨读者：
1共同反思：没早意识到Scaling Law
Jordan Jacobs：我人生的大部分时间其实是一名AI创业者，2010年我创办了一家深度学习公司，那时候我们甚至还得跟客户解释“AI”这两个字母该怎么拼。不过我很幸运能有机会和Jeff Dean相识，保持密切联系，还和他合作参与了Vector Institute（加拿大多伦多的一家独立非营利AI研究机构）的创立等多个项目。感谢NeurIPS，能让他和Jeffrey Hinton两位同时出现在这里，这对我来说是一个难得的机会。首先，为在座还不了解Jeffrey Hinton的朋友介绍一下，他是诺贝尔奖得主、图灵奖得主，还斩获了无数其他奖项，被公认为“AI教父”。我一直没问过你，你喜欢这个称号吗？
Jeffrey Hinton：我不应该喜欢它，但实际上我很受用。
Jordan Jacobs：好的，知道了。那以后见到你，我就直接叫你“教父”了。
Jeffrey Hinton：没问题。
Jordan Jacobs：Jeff Dean是谷歌的首席科学家，也是一位传奇工程师。他主导了众多具有突破性的项目，正是这些突破，推动了如今AI领域的飞速发展。他目前还是Gemini团队的联合负责人，在座的各位肯定都有关注，Gemini已经在各大榜单上一骑绝尘，成为当前性能最强的模型，还引发了另一家公司的代码研读潮，这件事挺有意思的。非常荣幸能邀请两位同台。我注意到，你们两人的职业生涯早在很多年前就有相似的轨迹，是从1986年开始的。
Jeffrey Hinton：不，应该是1982年。不过我们直到1985年才意识到当时的研究有多重要。
Jordan Jacobs：好的，是我记错了几年。说实话，那时候我还在看动画片呢。
Jeffrey Hinton：我们的研究成果直到1986年才正式发表。
Jordan Jacobs：原来如此。说来也巧，不知道是偶然还是必然。我想问问Dean，1990年是什么促使你确定了本科毕业论文方向？可以简单讲讲吗？
Jeff Dean：当然可以。当时我修了两门关于并行算法的课程，其中有一门课花了大概一周时间讲解神经网络，我立刻就被这个领域吸引住了。于是我决定，跟着明尼苏达大学的Vipenkumar教授共事会很有意思。我去问他，“我能跟着你做荣誉毕业论文吗？”我想研究用于训练神经网络的并行算法。之后我就投入了这项研究。当时我们系里有一台32处理器的超立方体计算机，我那时候觉得，只要我们能获得32倍的算力，就能打造出令人惊叹的神经网络。
Jordan Jacobs：你一定是第一个意识到扩展计算能力需要付出巨大努力的人。
Jeff Dean：其实我自己当时都没完全意识到这一点。我确实做了一些加速曲线的实验，但结果不算理想，因为我犯了一个大错。我在增加处理器数量的时候，并没有同步扩大模型的规模。当我试图把只有10个神经元的网络层分配到32个处理器上运行时，效果糟糕得离谱。不过这个过程还是挺有趣的，我当时设计了两种算法变体，其实就是现在所说的数据并行和模型并行训练模式，只不过那时候我给它们起了些奇怪的名字，比如“模式划分”和“模型流水线”之类的。
Jordan Jacobs：Hinton，你是从什么时候开始意识到算力的重要性的？
Jeffrey Hinton：我应该在80年代末就意识到这一点。当时有两个研究团队，一个是伯克利国际计算机科学研究所的Herb Borlard和Nelson Morgan团队，另一个是剑桥大学的Tony Robinson团队，他们都投入了大量精力，用并行计算技术研发更优的语音声学模型。最终他们研发的模型性能达到了当时的顶尖水平，远超用普通处理器训练的神经网络模型。那时候我们就该意识到，只要把模型规模做大，性能就会更好。但问题在于，扩大模型规模需要复杂的编程技术和硬件支持，所以我们当时并没有真正吸取这个教训。现在回想起来，没意识到这一点真的很愚蠢，但事实就是如此。
Jordan Jacobs：那你是到什么时候才真正明白这个道理的？
Jeffrey Hinton：我直到2014年听了一场讲座之后，才彻底想通这件事，确实是有点晚了。我之前没意识到它会一直扩大规模。
2AlexNet传奇：两块GPU改写AI史
Jordan Jacobs：好的，接下来我们聊聊推动现代AI发展的几个关键节点。我发现两位的一个共同点，就是你们都很擅长挑选优秀的合作伙伴一起共事。或许这个话题有点偏题，但我还是想问问，之后会回到主线。你在挑选本科生加入自己实验室的时候，最看重他们身上的哪些特质？
Jeffrey Hinton：我最看重的是这个人是否有原创能力，是否有自己的想法。我有时候会问面试者一个问题：“你有过的最好的想法是什么？”有些学生成绩全优，但他们会说自己还没产生过什么想法，因为还没读研究生，只是很期待未来能有好的想法。这类学生我是不会选的。
Jordan Jacobs：明白了。我们继续往后聊。你挑选的很多研究生和博士后后来都成了行业大牛，比如Yann LeCun，还有很多人，昨天晚宴上我们还见到了Max Welling（阿姆斯特丹大学机器学习研究主席、微软阿姆斯特丹新实验室负责人）和Alex Graves（机器学习领域知名研究者、神经图灵机（NTM）提出者和可微神经计算机的创造者之一）。另外，多伦多大学的实验室里还有Ilya Sutskever（OpenAI前首席科学家）和Alex Krizhevsky（AlexNet网络一作）。说起来，可能有人去过那栋楼，它看起来一点都不像一个能改变世界的地方。
Jeffrey Hinton：没错，我们当时的实验室很小，连窗户都没有。不过这或许是件好事，至少他们没法分心往外看，只能专心做研究。
Jordan Jacobs：你们和这些学生一起合作，最终研发出了AlexNet，用李飞飞在斯坦福大学构建的ImageNet数据集做训练，还参加了相关比赛。你能讲讲当时为什么决定做这件事吗？再回到算力的话题，当时训练AlexNet用了多少算力？
Jeffrey Hinton：其实事情的经过是这样的。几年前，Vlad曾用英伟达的GPU尝试识别航拍图像里的道路。这其实是个很有难度的任务，因为城市道路上会有树木、车辆，还有各种阴影遮挡，他当时做得非常出色。这个研究项目是基于一项政府战略拨款开展的，该拨款旨在支持那些可能产生产业影响力的研究。在Vlad证明多层神经网络的性能远优于单层神经网络之后，我申请了续期资助。这在当时是一个关键突破，毕竟大家都在争论，增加网络层数到底有没有用，而他的实验给出了明确答案：每多增加一层，模型性能就会提升一截。结果有一位评审专家说，这笔钱不该批给我们，因为这个研究项目根本不可能产生任何产业价值。
Jordan Jacobs：你知道这位评审专家具体是谁吗？
Jeffrey Hinton：我倒是希望知道他是谁。可惜我没保留那份评审报告，不然我真想告诉他，去年美国股市80%的涨幅都和AI脱不开关系。言归正传，Vlad的研究让我们意识到GPU的强大性能，其实我们从语音识别的研究中也早就发现了这一点。有一天，Alex Krizhevsky来找我，他当时在研究小尺寸图像识别，用的是类似MNIST数据集的图像，因为我一直很看好MNIST数据集。他的想法是，如果能在小尺寸图像上实现识别，再拓展到真实场景的视觉识别应该会可行。我至今还记得，Krizhevsky第一次尝试小尺寸图像识别时，跑来跟我说实验失败了。我去看了他的实验设置，发现他把权重衰减参数设成了1。我问他：“为什么要把权重衰减参数设成1？这个参数应该设成0.001才对。”他回答：“我不知道，我只是觉得1这个数值听起来不错。”
其实你会发现，学生们在接触一个全新领域的时候，可能会犯一些看起来很“傻”的错误，但这不是因为他们笨，只是因为他们还不了解相关知识。Krizhevsky后来进步得非常快。之后伊利亚提议：“我们为什么不把这个模型用到ImageNet数据集上？肯定能成功。我们必须抢在Yann LeCun之前完成这个实验。”当时Yann LeCun也一直在让自己实验室的博士后和学生尝试用卷积神经网络处理ImageNet数据集，但他的团队都觉得有更重要的事情要做，没把这件事放在心上。幸运的是，Ilya当时态度很坚决，他还主动说：“这样吧，我来做数据预处理，把工作简化。”于是他把所有图像都处理成了固定尺寸，应该是256×256像素，也可能是224×224像素。准确来说，我们是从原始图像中截取了224×224像素的图像块。实验结果非常理想。
后来我做了一个这辈子最明智的管理决策。当时Krizhevsky需要完成一篇深度文献综述，也就是要梳理相关领域的研究成果，证明自己具备开展研究的能力，才能正式开始博士论文研究。但Krizhevsky根本不想做这件事。于是我跟他说：“这样吧，只要你每周能把AlexNet在ImageNet数据集上的性能提升1%，你就可以把文献综述的任务往后推迟一周。”结果就这样，一周又一周地拖了下去。
Jordan Jacobs：那当时训练AlexNet的算力是从哪里来的？
Jeffrey Hinton：是在Krizhevsky父母家的卧室里，用两块GPU显卡完成的。GPU是我们买的，但电费是他父母付的。当然了，我这么安排也是为了帮多伦多大学省点钱，这是肯定的。
3Google Brain诞生记：64岁实习生接替了吴恩达
Jordan Jacobs：差不多在同一时期，Google Brain团队也应运而生。你能给我们讲讲这个团队的起源、创立的初衷，还有“Google Brain”这个名字的由来吗？
Jeff Dean：当然可以。我想，Google Brain团队这个研究小组的起源，要从我偶遇吴恩达（Andrew Ng）说起。当时他刚开始每周抽一天时间来谷歌工作，他本身还是斯坦福大学的教员。我之前去斯坦福大学访问过一两次，所以认识他。我在茶水间碰到他，就问：“你怎么会在这里？”他回答：“我也不太确定具体要做什么，我刚来没多久。不过在斯坦福，我的学生们用神经网络做研究，已经开始取得不错的成果了。”其实本科毕业论文之后，我就没太关注神经网络领域了，只是一直觉得它是个很有用的研究方向，是个值得深耕的领域。于是我跟他说：“这听起来很有意思。我们谷歌有这么多计算机，为什么不在这里训练超大规模的神经网络呢？”
当时我们的数据中心里还没有配置GPU，只有大量的CPU服务器，每台服务器大概有16到24个核心。所以我着手开发了一个软件抽象库，通过这个库，人们可以自定义神经网络结构，同时它能支持模型并行和数据并行两种模式，把计算任务分配到成千上万台机器上进行处理。我们最终把这个系统的规模做大，成功训练出了一个神经网络，它的规模是当时其他人训练过的模型的50倍。我们做过一个非常有名的实验，后来也被广泛报道。我们用无监督学习的方法，在1000万张随机抽取的YouTube视频帧上训练模型，目标很简单，就是让模型学习到一种有效的数据表征，能够实现对每一帧图像像素的重构。
不过这个实验里我们犯了一个大错：我们想在计算机视觉任务中引入局部连接的结构，却刻意没有使用卷积操作。因为我们当时执着于让模型更符合生物学合理性，觉得人类大脑的视觉系统里，不同区域的神经元应该不会共享权重参数。所以我们最终采用的是局部连接的图像块结构，但每个连接对应的参数都是独立的。这么一来，整个模型的参数规模达到了20亿。之后我们用这个模型在ImageNet 22K数据集上做了测试，这个数据集的标注类别数量相对更多，样本分布则更稀疏。测试结果显示，模型的错误率比当时的最优水平降低了约70%。而完成这次训练，我们用了1.6万个CPU核心。
也是从那个时候开始，我们明确观察到一个规律：模型规模越大，性能表现就越好。我们还把这个软件抽象库应用到了其他多个领域，比如语音识别、各类计算机视觉任务等。虽然当时我们还没有把这个规律总结成正式的“缩放定律”（Scaling Law），但我们已经形成了一个共识，这个共识其实就近似于后来的Scaling Law，简单来说就是：模型更大、数据更多、算力更强，效果就会更好。
Jordan Jacobs：所以当AlexNet横空出世的时候，谷歌可能是唯一一个对此并不感到意外的机构。毕竟你们早就验证过这个逻辑。哪怕AlexNet是在Krizhevsky的卧室里完成训练，没有动用大规模算力，但只要给一个优秀的算法配上海量数据，再辅以充足算力，就足以彻底改变局面。
Jeff Dean：没错。其实早在Krizhevsky在ImageNet数据集上取得成果之前，我们在前一年就已经在ImageNet 22K数据集上实现了70%的相对误差降低。
Jordan Jacobs：应该就是同一年吧？你们两位就是在2012年的夏天第一次见面的吧？能不能分别讲讲你们对彼此的第一印象？
Jeffrey Hinton：好的。当时吴恩达决定全身心投入到Coursera的事业中，他认为这才是是未来的趋势，不过我觉得他当时的判断稍微有点偏差。他需要找一个人来接替他，担任Google Brain团队的技术顾问，这个人还得懂神经网络，于是他推荐了我。我答应去谷歌待一个夏天，原本的身份设定是访问科学家。但谷歌的规定是，访问科学家的任期至少要六个月，而我只想待一个夏天。他们要给我发薪水、办工牌，就必须给我定一个身份类别。最后没办法，我就成了一名实习生。
Jeff Dean：你曾是我的实习生？
Jeffrey Hinton：是啊，我当时是一个64岁的实习生。
Jeff Dean：我记得你当时还挂着绿色的工牌，和其他实习生一样。
Jeffrey Hinton：我想一个人能以64岁的高龄当上实习生，可能是因为谷歌的工牌系统里，年龄字段只分配了6个比特的存储空间，存不下太大的数字吧。
Jeff Dean：你就比普通实习生大那么一点点而已。
Jeffrey Hinton：我刚到谷歌的时候，还得跟着其他实习生一起参加入职培训。培训教室里坐满了年轻人，有印度理工学院的学生，有清华大学的学生，全都是绝顶聪明的年轻人。他们还都戴着统一的小绒线帽。我们当时每个人都发了一顶，我现在还留着，早知道今天就带来了。培训课上，老师站在讲台前说：“请大家用LDAP和一次性密码登录系统。”我当时直接举手问：“什么是LDAP？什么是一次性密码？”教室里有四个助教来回走动，帮大家解决问题。
大概十分钟后，他们专门指派了一个助教，全程围着我一个人转。其他学生都转过头来看我，看着这个年纪比他们大三倍还什么都不懂的老家伙，场面有点尴尬。中午我们去食堂吃饭，幸运的是，我之前教过的一个本科生刚好也在谷歌实习，她在排队的时候认出了我，喊了一声“Hinton教授”。这下所有人都恍然大悟：“哦，原来他是这么个来头。”现在想起来，那一天的经历还真是挺奇妙的。
4Hinton首次揭秘往事：为何没选百度去了谷歌？
Jordan Jacobs：那你们两位第一次见面是什么时候？
Jeffrey Hinton：应该是我入职第一天的傍晚，或者第二天一早。
Jeff Dean：我记得应该是入职第一天之前，大概是某个周日。
Jeffrey Hinton：对，是周日。我们在帕洛阿尔托一家很不错的餐厅见的面，叫塔马林餐厅。
Jeff Dean：塔马林餐厅，没错，那家的越南菜很地道。
Jeffrey Hinton：我们俩一见如故，从那时候起一直到现在，相处得都非常融洽。后来AlexNet的成果发布之后，很多公司都找上门来，想要收购我们的团队。我们当时琢磨出一个门道，如果我们假装成一家正式的公司，能拿到的收购报价会更高。因为我们发现，企业给员工发工资的预算，和做收购的预算完全不是一个量级，后者差不多是前者的十倍。所以我们决定，以公司的名义参与收购谈判，最后还搞了一场竞价拍卖。不过其实我早就打定主意，一定要让谷歌胜出。因为那个夏天在谷歌的实习经历实在太愉快了，在Google Brain团队工作的每一天都让人觉得很有成就感。
Jordan Jacobs：你们当时是有计划地操控了整场拍卖？
Jeffrey Hinton：只是到了拍卖最后阶段，我们发现形势有点不对劲，可能会让不合适的公司中标，于是我们干脆直接叫停了拍卖。
Jordan Jacobs：明白了。那这场拍卖是在哪里举办的？
Jeffrey Hinton：是在NIPS大会期间，地点选在了一家赌场里。
Jeff Dean：对，就是南太浩湖赌场。
Jeffrey Hinton：赌场一楼的大厅里，全是玩老虎机、玩21点的人。每次有人赢了一万美元，赌场里的铃铛就会叮叮当当地响个不停。而我们在楼上，正进行着一场百万美元级别的竞价。每次加价，起步就是一百万。
Jeff Dean：现在回想起来，那个场面真的很荒诞。毕竟搞AI研究的人，大多都懂概率统计，根本不会去赌场赌博。赌场估计也烦死我们这群人了，因为我们全程都没碰过任何赌具。
Jeffrey Hinton：这场拍卖是Terry Sejnowski组织的，他还给了我一张特殊的VIP卡，凭这张卡可以进入赌场的贵宾休息室。这种卡一般只发给那些出手阔绰的“大玩家”，也就是那些赌得大、输得也多的人。我拿着这张卡去贵宾餐厅吃饭，跟服务员说：“我其实不赌博。”他们都一脸不信的样子，敷衍着说：“是啊，当然了。”
Jordan Jacobs：最后谷歌赢得了拍卖。你和Ilya、Krizhevsky一起，正式成立了DNN Research公司，然后把这家公司卖给了谷歌。你当初为什么想要加入谷歌？
Jeffrey Hinton：很简单，谷歌大脑团队的工作氛围太棒了。当时我还有另一个选择，是百度。我想我永远不会知道中国人在想些什么，我那时候没法出国旅行，根本去不了北京。我只知道，在谷歌工作肯定会很开心。
Jeff Dean：没错，那段日子确实特别有意思。
Jeffrey Hinton：我觉得早期在Google Brain团队的所有人，现在回想起来都会觉得那段时光特别美好。一切都是全新的，我们不知道未来会走向何方，但我们坚信一个道理：模型规模越大、数据越多，效果就一定会越好。我还记得自己刚从大学进入谷歌的时候，发生过一件事。有一次我们的算力用完了，我听到Dean在打电话，隐约能听到他说“嗯，两百万美元应该够了”。我当时心想，换作是在大学，想要拿到两百万美元的算力经费，得写好几年的项目申请才行。
Jordan Jacobs：当时Google Brain团队的规模有多大？
Jeffrey Hinton：大概20个人，我们所有人挤在一间大办公室里，比现在这个房间还要小。
Jordan Jacobs：看来团队里多伦多大学的成员占比很高啊。
Jeffrey Hinton：是啊。我们每个人都在那间办公室里有一张办公桌，氛围特别好。后来团队规模也一直在扩大。
5知识蒸馏和Transformer，都被看走眼过？
Jordan Jacobs：接下来我们聊聊，稍后会谈到Transformer模型，不过先说说在那之后的几年里，Google Brain团队还产出了哪些成果？
Jeffrey Hinton：我当时在研究一种叫“胶囊网络”（Capsule Network）的技术。这个项目其实很能说明一个道理：做事光有毅力是不够的。我这个人毅力很足，但如果选错了研究方向，再强的毅力也没用，只会白白浪费好几年时间，最后一事无成。胶囊网络就是这样的例子。不过在研究初期，我听取了两位我非常敬重的人的建议，就是Dean和Ilya。他们都劝我别再执着于胶囊网络了，可他们越这么说，我反而越坚定要做下去。
当然，我也为谷歌做了一些有用的工作。比如知识蒸馏技术，我记得是2014年提出来的。当时这个研究成果被NIPS拒稿了。我至今还记得评审意见，有一位评审说：“用学生模型去蒸馏教师模型的知识，性能根本没比教师模型好，那这个技术有什么意义？”显然，这位评审完全没理解知识蒸馏的核心价值。但事实证明，知识蒸馏是一项非常实用的技术。
Jordan Jacobs：你还记得当时是哪位评审写的拒稿意见吗？
Jeffrey Hinton：不记得了，评审都是匿名的。
Jordan Jacobs：还好是匿名的。我知道你会保留这些评审意见，有时候我们还能扒出这些评审是谁。
Jeffrey Hinton：我不知道是谁在加拿大写了一份评审报告，说深度学习的研究永远不会产生任何产业价值，我真希望我那样做了。
Jordan Jacobs：说到加拿大，还有一件很有意思的往事。曾经有一家叫Research in Motion的企业，黑莓手机就是他们的产品。在你加入谷歌、AlexNet问世之前，你还把实验室里的一些技术带给了他们。能给我们讲讲这件事吗？这绝对算得上是一个前车之鉴。
Jeffrey Hinton：好的。当时George Dahl和Abdel-rahman Mohamed研发了一个语音声学模型，性能比当时最好的模型略胜一筹。只是略好一点，不像AlexNet在计算机视觉领域那样实现了碾压式突破。第二年夏天，Nav Deep想去Research in Motion实习。于是我联系了这家公司，跟他们说：“我们找到了一种更好的语音识别方法，想把这项技术交给你们。他可以来这里实习，负责教你们怎么用。”结果Research in Motion说，他们对语音识别技术不感兴趣。
Jeff Dean：也是，毕竟他们的手机有实体键盘，确实用不上语音识别。
Jeffrey Hinton：没错。后来Research in Motion的一位创始人还总抱怨，说加拿大的科研成果从来没有在本土得到应用。可明明是他们自己放弃了这个机会。这也算是一段很有意思的历史了。后来Nav Deep就去了谷歌。不过他当时正在申请美国绿卡，没法去美国本土工作，只能在谷歌蒙特利尔实验室任职。谷歌给他配备了一些GPU，他还有一位非常优秀的经理，叫Vincent Vanhoucke。他当时跟经理说，他想彻底改变谷歌的语音识别技术架构。Vincent一开始觉得这个想法太离谱了，让他先做一个更务实的项目。但他态度很坚决，Vincent最后只好说：“那你就试试吧。”结果他真的成功了。事实证明，这项技术的应用价值远比想象中要大。
Jordan Jacobs：好的，我们把时间线再往后推。现在来聊聊Transformer模型，这项技术同样诞生于Google Brain团队。你能讲讲当时的研发团队是怎么开展工作的吗？他们在做这项研究的时候，内部有没有意识到这是一项新颖、有趣，甚至可能具有突破性的成果？还是说，大家只是把它当成又一项普通的研究，最终目标只是发表一篇论文？
Jeff Dean：Transformer模型的研发灵感，其实来源于之前的sequence-to-sequence研究。没错，就是Ilya、Oriol和Quoc等人基于长短期记忆网络（LSTM）做的那个项目。他们当时用的是深度且规模较大的LSTM网络，最初在机器翻译任务上取得了非常出色的效果，后来这个模型也被应用到了各种各样的序列相关问题上。在那之后，我们一直在尝试扩大LSTM网络的规模。但后来有人意识到，传统的序列模型存在一个问题：模型会把所有信息都压缩到一个向量里，而且这个向量每个时间步只更新一次。这会带来两个弊端：一是存在序列依赖性，必须完成当前步的计算，才能进行下一步；二是要把大量复杂的信息都塞进一个向量里，效率很低。如果能保存所有的中间状态并进行处理，应该会是一种更好的方法。其实在谷歌之外，当时已经有一些关于注意力机制的早期研究了。
Jeffrey Hinton：是的，那是用到机器翻译领域。对于机器翻译来说，这样做是完全合理的。在写法语句子之前，先把英语句子写出来，这种场景下保留上下文信息是很合理的，而且当时需要处理的上下文规模也不大。我记得是Bahdanau等人发现，引入一种简单的注意力机制，就能让模型性能实现大幅提升。
Jeff Dean：后来研究人员将其运用到Transformer，就有了Transformer模型的雏形。它的核心思想就是保存所有的中间状态，并让模型去关注这些状态。这个设计的优势非常明显：首先，所有状态的计算都可以并行进行，摆脱了之前的序列依赖；其次，模型在解码时，可以回顾所有的中间状态，获取更全面的信息，对于编码器类模型来说，也能利用更多的上下文信息。
Jeffrey Hinton：Transformer模型刚问世的时候，我其实没太在意。因为我一直关注的是大脑的工作机制，而Transformer需要保存所有神经活动的向量，这显然和大脑的运作方式不一样。所以我当时觉得，既然大脑不是这么工作的，那这个模型也没什么研究价值。不过后来我发现，其实可以用“快速权重”来近似实现类似的功能，比如通过联想记忆就能完成一些近似计算。但直到现在，我还是不太清楚，模型是如何通过时序反向传播，根据后续的信息来学习前面的内容的。
Jeff Dean：但我认为，早期Transformer的第一篇论文就表明：在算力减少10到100倍的情况下，模型能达到和之前相当的性能；如果算力不变，性能则会有大幅提升。这显然是一项重大突破。除此之外，我们在稀疏激活模型的规模化方面也取得了类似的成果。我们看到，在达到同等性能的前提下，算力效率提升了10倍左右。而且这两项技术是互补的，把Transformer和混合专家模型结合起来，10到100倍的算力效率提升，再加上10到20倍的提升，效果会呈乘法效应叠加。
过去十年里，算法层面实际上取得了巨大的进步，这些进步叠加在一起，产生了巨大的协同效应。再加上硬件层面的投入，比如研发更快的芯片、训练时使用更多芯片、延长训练时长等，这些因素共同作用，让算力的使用效率实现了指数级增长。现在的模型训练，所用的算力大概是十年前的数十亿倍；而十年前的算力，又已经是1990年的数百万甚至数千万倍了。
Jeffrey Hinton：我记得大概是2012年的时候，我们买了一块新的Titan显卡。当时负责系统维护的同事正在给Vlad的电脑装这块显卡，动作有点慢。我当时还算了一笔账，估算他装显卡的这段时间浪费了多少算力，毕竟这块显卡本来可以用来做计算的。我算出来的结果很惊人：如果在1986年用当时的计算机训练一个神经网络，那么用这块新显卡只要一分钟就能完成同样的计算量。
Jordan Jacobs：你是在Transformer论文发表之前，也就是外界还没对这项技术做出反响的时候实时意识到的吗？毕竟论文发表后，外界的反馈也需要一段时间才能传来。在Google Brain团队内部，看到这项研究成果时，你们有没有觉得这是一项重大突破，是一次跨越式的进步？
Jeff Dean：我觉得是这样的。当时在这个领域，其实只有少数人在做积极的研究。我们团队规模不大，但在很短的时间内，就探索了很多未被涉足的领域，取得了不少突破，比如知识蒸馏、Transformer序列到序列模型、基于词向量的模型等等。Transformer模型就是其中一项重大突破，它的重要性和之前的序列到序列模型、混合专家模型等成果是相当的。当时我们并没有觉得它比其他成果重要得多，直到现在我也不认为它的重要性远超其他技术。它确实非常实用，但我们现在正在使用的所有技术，都是因为有用才会被保留下来的。
Jordan Jacobs：没错。当时谷歌手握搜索引擎这一堪称史上最佳的商业模式，同时还有一支顶尖团队在不断产出各种突破性成果，所以Transformer模型的出现，在众多成果里并没有显得一枝独秀。谷歌本身拥有充足算力，也早已洞悉算力和数据的价值。
6谷歌痛悔：早有压箱底成果，GPT后火速拍板Gemini
Jordan Jacobs：我很好奇，在ChatGPT问世之前，谷歌内部有没有过相关讨论，比如要不要将这些AI技术投入应用，哪怕可能会对现有业务造成冲击？还是说，谷歌只倾向于落地那些真正有助于业务发展的产品？
Jeffrey Hinton：这里还有个小历史插曲，我记得在ChatGPT之前，微软曾推出过一款聊天机器人，结果它却发表了仇恨言论，这件事当时让所有人都心有余悸。
Jeff Dean：对，是那个叫Tay的机器人。微软当时采用了在线训练的方式，这恐怕不是个明智的选择。
Jeffrey Hinton：甚至可以说相当糟糕。不过这话可别跟Rich Sutton说。
Jeff Dean：我不会去附和这个说法的。
Jeffrey Hinton：所以我觉得谷歌在技术落地这件事上一直非常谨慎。很多人可能不知道，其实在ChatGPT推出之前，谷歌就已经有了性能不错的大语言模型聊天机器人，比如PaLM。谷歌当时欠缺的，其实只是人类反馈强化学习技术，而且他们没意识到，只需要少量样本，就能有效阻止模型输出不良内容。
Jeff Dean：没错。谷歌内部其实有一款聊天机器人，当时在公司内部的使用频率很高。它是在新冠疫情期间研发的，当时所有人都居家办公，这款机器人在谷歌内部吸引了约8万名用户，这已经占到了公司员工总数的相当大一部分。大家都觉得它非常实用，但我们当时的视野多少有些狭隘。和那个时代所有的神经网络模型一样，它存在事实性错误和幻觉问题，直到现在这类问题也没有完全解决。如果从搜索引擎的视角来看，这些问题是致命的，毕竟搜索业务的核心原则之一就是追求信息的准确性和真实性。
但我们当时没能充分意识到，聊天机器人还有很多非搜索类的潜在应用场景。比如“帮我写一封给兽医的信，说明我的狗狗生病了”“帮我总结这篇论文的内容”，甚至是“帮我写一篇论文”“帮我写一份论文评审意见”。当然，我可不是说真的有人会这么做。所以从纯粹的搜索业务角度出发，我们并不想把这款机器人作为产品对外推出；但从用户实用性的角度来看，8万名谷歌员工给出的反馈都是极其正面的。因此，我们希望先解决事实性错误和幻觉问题，再将它推向外部用户。
Jordan Jacobs：好的。然后时间来到三年零一周前，ChatGPT正式发布。当时谷歌内部的反应是什么样的？是不是立刻拉响了最高警报？
Jeff Dean：倒也不能这么说。我当时写了一份一页纸的备忘录，大意是：“我们这样下去有点不明智。我们早就知道，算力规模和训练数据量决定了模型的性能，投入的算力和数据越多，模型效果就越好。谷歌内部其实有多个相关团队在开展研究，比如资深的DeepMind团队、Google Brain团队，还有Google Research的几个不同项目组，他们不仅在研究文本模型，还在探索各类多模态模型。DeepMind当时也有几个项目在推进，比如Flamingo，还有另一个我一时想不起名字的模型。但问题在于，我们的研究思路和算力资源都太过分散了，这在我看来完全没有必要。”所以我在备忘录里提议：“我们应该整合所有力量，组建一支专门的团队，目标就是打造全球最好的多模态模型，集中所有算力资源，看看我们到底能做到什么程度。”这就是Gemini项目的由来。
Jordan Jacobs：这件事是在ChatGPT发布后多久发生的？
Jeff Dean：大概是在ChatGPT发布一两周之后。因为我们意识到，谷歌内部其实早就有了类似的聊天机器人，原本我们完全可以抢先发布的。说不遗憾是假的，但没关系，我们可以迎头赶上。
Jordan Jacobs：我还有个问题。谷歌有没有后悔发表Transformer的相关论文？
Jeff Dean：当然不后悔。因为这篇论文对整个世界都产生了非常积极的影响。
Jordan Jacobs：从那之后，谷歌的论文发表量是不是减少了？还是说，这只是外界对谷歌政策的误解？
Jeff Dean：其实谷歌现在依然发表了大量论文。你可以去看看NeurIPS的议程，谷歌入选的论文可能有上百篇，甚至更多。不过对于那些商业价值极高的超大模型，我们确实会更加谨慎。毕竟这个领域的竞争非常激烈，所以像Gemini模型训练方案的具体细节，我们不会全部公开。但对于那些处于前沿探索阶段、暂时无法确定其重要性的研究，我们还是会积极发表论文。一方面是为了分享想法，获取学术界的反馈；另一方面也是为了让整个科研社区都能从中受益。
Jordan Jacobs：发表论文也是谷歌吸引人才的一大竞争优势，对吧？很多其他实验室可能没有这样的意愿，或者没有这样的能力去大量发表论文。
Jeffrey Hinton：没错。谷歌作为一家大型研究机构，除了核心的Gemini模型研发之外，还有很多其他的研究方向，比如大量的基础机器学习研究，以及很多和机器学习无关的其他领域研究。这些研究成果的发表数量其实相当可观。
7靠自研芯片""结构性碾压""？谷歌：打不过就加入吧
Jordan Jacobs：好的，我们把话题快进到最近。就在过去几周，谷歌发布了Gemini 3。这个产品一推出，人们就再次意识到，谷歌确实是一家顶尖的AI公司。我觉得大家其实并没有忘记这一点，只是再一次深刻地感受到了。谷歌这些年其实有很多影响深远的长期投入，比如TPU就是典型的例子。我之前也跟你聊过，我现在才突然反应过来，谷歌其实有着其他公司无法比拟的结构性优势，因为你们拥有自研芯片。你能给我们讲讲TPU的起源吗？推动这个项目的初衷是什么？你认为这项技术到底为谷歌带来了多大的优势？
Jeff Dean：当然可以。TPU的起源，其实源于我当时做的一个简单测算。那时候我们发现，无论是语音识别模型还是各类计算机视觉模型，性能都在飞速提升，但这些模型如果用CPU来运行，算力消耗会非常惊人。而当时谷歌的计算平台主要就是基于CPU搭建的。我当时就在想，如果我们的语音识别技术变得足够好，用户可能会更愿意使用语音功能。假设每天有1亿用户，每人用语音功能3分钟，那么如果用CPU来支撑这个规模的运算，需要多少算力？计算结果让我吓了一跳：仅仅是为了支撑这一项语音识别服务，谷歌就需要把现有的计算机数量翻倍。
这显然是不现实的。就算成本上可以承受，时间上也来不及。而且我们当时已经意识到，更大、更强的神经网络将会在更多领域发挥作用。于是我把这个粗略的计算做成了一张幻灯片，这也成为了谷歌启动自研定制芯片项目的契机。我当时的直觉是，神经网络其实有很多独特的特性，适合针对性地设计硬件：首先，神经网络的运算类型并不多；其次，它对低精度计算的容忍度很高，因为低精度带来的误差相当于给模型加入了噪声，而神经网络本身就对噪声有一定的鲁棒性。
Jeffrey Hinton：另外，你也不需要纠错。就算内存里的一些比特出现错误，对最终结果也不会有太大影响。
Jeff Dean：是的没错，这就好比模型训练中的随机失活技术，或者对抗性内存技术。所以我当时认为，我们应该启动一个硬件研发项目，初期先聚焦于模型推理环节。因为如果要将AI技术大规模推向用户，推理阶段的算力压力会是最大的。当时谷歌威斯康星州的硬件团队，其实已经有人在研究用现场可编程门阵列（FPGA）来加速神经网络运算。但经过讨论，我们认为直接研发专用集成电路（ASIC）会是更好的选择。因为现场可编程门阵列存在固有的性能损耗，这种损耗会抵消掉很多潜在的性能提升。最终我们推出了第一代TPU，它是一款用于推理的PCIe插卡式芯片。
当时我在走廊里拦住了谷歌的首席财务官Patrick Pichette，说服他批准了5000万美元的预算，用于在谷歌数据中心部署这款芯片，尽管当时我们还不完全确定这些芯片具体能用来做什么。后来的事实证明，这个决定非常正确。这些TPU被广泛应用于语音识别、计算机视觉等多个领域，还助力谷歌推出了质量更高的翻译服务。之后，谷歌的硬件团队开始将研发重点转向模型训练。因为训练环节的算力需求规模更大，需要大量芯片协同工作，还需要超高速度的互联技术。这其实已经相当于打造一台机器学习超级计算机了。而现在，谷歌已经推出了多个世代的TPU，一直在沿着这个方向不断迭代。
Jordan Jacobs：不过回到最开始的那个决定，你当时找到Patrick，跟他说需要5000万美元预算的时候，具体是哪一年？
Jeff Dean：2013年。
Jordan Jacobs：这么说，谷歌当时远远走在了行业的前面。
Jeff Dean：没错。因为我们当时就预见到，要把这些模型推向市场、支撑推理任务，算力需求会是天文数字，而自研芯片是解决这个问题的必经之路。后来我们在国际计算机体系结构研讨会（ISCA）上发表了一篇相关论文，这也是计算机体系结构领域的顶级会议。现在这篇论文已经成为ISCA历史上被引用次数最多的论文。论文里公布的性能数据显示，第一代TPU的性能，比同期的CPU和GPU高出15到30倍，延迟更低；而能效比（每瓦性能）更是提升了30到80倍。
Jordan Jacobs：这可是巨大的飞跃，足足有一两个数量级的差距。那么到了今天，谷歌拥有性能最强的模型，手握一支遍布全球、但主要集中在西海岸、伦敦、纽约等地的庞大团队，也就是Gemini团队。你们还有来自十几亿用户产品的海量数据，背后更有每年超过1000亿美元自由现金流的商业模式支撑。这样的谷歌，其他公司要怎么跟你们竞争？
Jeff Dean：加入我们就好。开个玩笑，其实我并不想空谈这个问题。但我确实认为，将硬件研发和模型研发整合在同一个组织架构下，对我们来说是极大的优势，因为这两者可以深度协同、共同演进。硬件研发的周期很长，作为硬件设计师，你必须预判这个飞速发展的领域在未来2到6年的走向，毕竟现在研发的硬件，要等到2.5到6年后才能真正投入使用。这是一项极具挑战性的工作。如果机器学习研究员能和硬件工程师紧密合作，一起发掘那些尚未成为主流、但前景可期的技术方向，提前在硬件层面为这些技术提供支持，就能让我们对未来有更清晰的把握。反之，如果没有研究员分享他们的机器学习理念，以及这些理念如何落地到硬件设计中，预判未来会困难得多。
Jeffrey Hinton：另外，用机器学习技术来辅助硬件设计，也带来了很大帮助吧。
Jeff Dean：没错。我牵头开展过一个项目，就是用强化学习技术来优化芯片设计中的布局布线环节。这项技术目前已经被用于三代公开披露的TPU，还有几款其他类型的芯片。每一代芯片的优化效果都在不断提升，相比人类工程师使用传统计算机辅助设计工具的方案，表现更为出色。
Jordan Jacobs：这项技术是提升了芯片的性能，还是加快了芯片的研发速度？
Jeff Dean：两者兼具。
8Transformer的下一代，将是怎样的架构？
Jordan Jacobs：接下来我们把目光投向未来。如今这么多年过去，你们觉得整个领域接下来会走向何方？Transformer架构会在不久的将来被取代吗？未来会是全新的架构，还是多种架构的融合？5年、10年、20年之后，我们又会身处一个怎样的世界？
Jeff Dean：我觉得有几个方向非常有意思，也让我很期待。首先，我们发现，只要给当前的模型输入恰当的上下文信息，它们的表现就会非常出色。因为模型可以精准地聚焦于近期获取的信息，而不是被训练过程中吸收的数万亿个token、混杂在数千亿个权重里的海量信息所干扰。所以我认为，探索扩展模型上下文窗口的技术，让模型能够处理数十亿甚至数万亿的token，而不是现在的数百万，将会是非常有价值的研究方向。这很可能会彻底改变这些模型的应用场景，它们不仅能处理人工整理的小范围信息，还能直接消化海量的科学论文、视频等数据。当然，这也需要硬件领域的创新配合，比如研发能效更高、性价比更优的推理芯片，来支撑这些大模型的运行。这是我非常看好的一个方向。
其次，目前我们训练的大多数模型，都没有实现机器学习领域长期以来追求的持续学习能力。这些模型的训练过程是静态的，一旦训练完成、投入使用，就不会再随着服务用户的过程发生显著变化。这看起来似乎不太合理。
Jeffrey Hinton：但这么做其实有一个重要的原因：更安全，更容易测试模型的性能。如果让模型自主学习，你很难预测它会学到什么东西。
Jeff Dean：确实如此。但我还觉得，当前的模型架构还不够灵活，和大脑的运作方式相去甚远。我认为，设计更丰富的模型内部连接模式会是一个好方向。即便是现在的稀疏激活模型，也只是采用“分支出多个同等规模的专家网络，再聚合结果，然后再次分支”的模式，这种结构其实没什么新意。
9Hinton预测：AI将让医疗、教育“巨变”
Jordan Jacobs：那我想请两位分别畅想一下，20年后，这项技术会给世界带来哪些意想不到的改变？
Jeffrey Hinton：我可以用一本书的可能标题来概括：“要么全员幸福要么一起完蛋”。说实话，20年后这项技术会产生怎样的影响，没人能说得准，尤其是对人类社会的影响。很明显，很多工作岗位会消失，但我们不确定是否会有新的岗位来填补这些空缺。但这并不是AI本身的问题，而是我们政治体系的问题。当生产力实现大幅提升时，创造的财富该如何分配？至少在美国，目前的政府体制并不适合解决这个问题。
Jeff Dean：去年，我和几位优秀的合作者一起，研究了AI可能对多个领域产生的影响。有些领域显然会迎来巨大的变革，比如医疗、教育，还有新型媒体内容的创作。但同时，我们也关注到了它可能对就业、虚假信息传播、地缘政治等方面带来的挑战。我认为，这些影响是一体两面、需要综合看待的。我最期待的一个方向，是AI如何加速科学突破。比如，帮助人类发现不同学科之间的潜在联系，这些联系可能是任何一个领域的专家都无法独自察觉的；或者，在某些领域实现科学发现流程的自动化。
Jeffrey Hinton：这些大模型的特点，就是能将海量知识压缩到数量相对有限的连接中，也就一万亿个左右。我们知道，要压缩海量知识，就必须找到不同知识之间的共性。所以我相信，在训练这些大模型的过程中，它们其实已经发现了很多人类从未意识到的共性规律。这些模型掌握的知识，远超任何一个人的认知范围。它们甚至可能发现了希腊文学和量子力学之间的关联，毕竟同时精通这两个领域的人寥寥无几。
Jeff Dean：对没错，这两个领域至少还共用希腊字母呢。
Jeffrey Hinton：是这样的。所以我认为，这些模型其实具有很强的创造力。很多人说它们没有真正的创造力，只是在复述已有内容，这纯属无稽之谈。正因为模型在做大规模的知识压缩，所以它们很擅长发现那些看似不相关的事物之间的类比关系。
Jeff Dean：对，这正是我想表达的意思。
Jordan Jacobs：如果沿着这个方向发展下去，我认为AI会彻底改变医疗领域，比如加速药物研发、消除疾病、实现个性化治疗，当我们对人类基因组有了更深入的理解之后，这些都将成为可能。医疗会是改变人类社会的最大突破口吗？
Jeffrey Hinton：我觉得教育领域的变革可能也不相上下。这两个领域都有很大的发展空间。以医疗为例，如果能让医生的工作效率提升10倍，我们并不会只保留十分之一的医生，而是会让所有人享受到10倍的医疗资源。教育领域也是如此。我们都知道，一对一的私人辅导效果最好。很明显，几年之内，AI就能达到私人辅导老师的水平，而在那之后，它会变得比人类老师更优秀，因为它见过数百万学生的学习过程。未来，人类能够吸收的知识量也会大幅增长。所以我认为，这两个领域的变革将会非常惊人。
参考链接："

作者：天狮娱乐

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →