Inceptive创始人的哲学：保持专注，在飞行中将技术保持最小化，因为一个导航设备足矣～ -极悦娱乐

极悦娱乐 > 公司新闻 > Inceptive创始人的哲学：保持专注，在飞行中将技术保持最小化，因为一个导航设备足矣～

Inceptive创始人的哲学：保持专注，在飞行中将技术保持最小化，因为一个导航设备足矣～

极悦娱乐 2023-08-29 阅读次数：211 次浏览

在上月底，《Attention is all you need》论文八位作者的最后一位 Llion Jones 也宣告离开谷歌，并在近期和另一位 Google Brain 研究人员 David Ha 在东京创办 Sakana AI，开启创业之路，追随 Character.ai 和 Cohere 的步伐，这期为大家带来第四作者 Jakob Uszkoreit 所创办的 Inceptive。

Inceptive 是一家位于旧金山的生物技术公司，由前 Google AI 研究科学家 Jakob Uszkoreit 在 2021 年与 Rhiju Das 共同创立，目前已经获得 2000 万美元融资，团队规模超过 20 人。

在创办 Inveptive 之前，Jakob 已经在 Google 工作 13 年，包括 Google 在柏林和加州的部门，他还领导改造了 Google 搜索、Google 翻译以及 Google 助手的研究团队。

Jakob 最初并不希望从事语言类工作，但他老爸就是在斯坦福教计算机语言的，他自己在 17 岁时就成为了一家初创公司的联合创始人，当时还为银行开发极悦娱乐登录，并在柏林工业大学完成了计算机科学专业，命运的齿轮早早转动起来。

后来，Jokob 阴差阳错的来到 Google 实习，而当时 AI 领域最火的也是语言翻译，于是 Jakob 很勉强的跟随老爸的脚步，并专注在机器翻译领域，毕业以后也是正式加入 Google，他在柏林领导了一个进行基础研究的 AI 团队，将互联网上搜集的短片用作当时项目的素材，让 AI 能够基于图像理解生物和物体的典型行为和运动方式，比如经过足够的机器学习，让模型基于图像生成一个逼真的猫咪奔跑视频。

当 Jakob 想要独处时，他会选择玩滑翔伞，沿着山坡跑下来，然后利用热气流起飞。Jakob 表示滑翔伞运动中让他将注意力完全集中在当下，让大脑忘记其它事情，以及在飞行中将技术保持最小化，因为一个导航设备足矣。

离开 Google 后，Jakob 决定在一个完全不同的领域使用 Transformer，他说“如果一个程序在你的计算机上运行，我们想要将这个概念应用在你体内的细胞上” 。根据 Jakob 在博客里对 Inceptive 的描述，他希望通过深度学习和高通量实验来学习生命的语言。

Inceptive 目前已经向一家大型制药公司提供了通过 AI 设计的用于传染病疫苗的分子，Jakob 确信这绝对是在过去 10 年里他一直在努力的方向上取得进展，甚至可能拯救人们生命的最佳方式。

具体来讲，Inceptive 致力于研发生物软件，改造 RNA 分子以实现药物和疫苗的研发突破，通过机器学习模型针对性地设计 RNA 序列，大大缩短药物研发周期来降低研发成本，这就包括以下环节：

开发生物软件,可以将编码药物或疫苗的程序代码编译成 mRNA 分子序列。通过机器学习模型,自动搜索和设计出优化的 RNA 分子序列。利用 RNA 的高效合成制造能够表达疫苗或药物的 mRNA 分子。构建 RNA 分子设计、合成、测试的自动化闭环工作流程。应用该技术平台,快速开发新药和疫苗。
这期内容还带来 Inceptive 创始人 & CEO Jakob Uszkoreit 与硅谷两位投资人 Elad Gil 和 Sarah Guo 的分享，Jakob 讲述了更多 transformer 以及 inceptive 背后的故事与思考，大家 enjoy～

Elad Gil
你在谷歌工作了10多年，参与了许多领先的研究团队。你对最初的 transformer 论文意义非凡。我想，当我与 transformer 论文的其他作者交谈时，人们普遍认为是你提出了关注注意力的想法，这成为“attention is all you need”论文的基础。你能谈谈你是如何提出这个想法的，团队是如何开始研究它的，以及这个对 transformer 基础性突破的起源吗？

Jakob Uszkoreit
事情并没有那么简单，对吧？非常重要的是要记住，在深度学习中，如果一个在“理论”或“形式”端比较远的东西无法真正“发挥作用”，那么你就无法在工程实现方面深入研究。最终，它必须是有效的。在我看来，这是我们所知道的真正有效的推进深度学习的唯一途径，就是让它在给定硬件上运行得更快、更高效。

有很多证据表明，我们理解语言的方式实际上在某种程度上是分层的，这反过来又影响了语言的统计特性。这个观点最好的日常轶事证据是看语言学家画的这些树。虽然我认为它们从未真正准确，但它们也绝对不总是错误的。所以它们确实捕捉了语言中固有的一些统计特性。

语言可能就是这样进化的，为了以一种比较理想的方式利用我们的认知能力。所以你可以安全地假设，为了理解语言，不需要从头到尾顺序遍历整个序列信号，或者同时从结束到开始遍历。但实际上，你可以通过查看信号中的各个组，比如你的信号，获得很多理解的突破，我引号内的“理解”。

最后，如果现在你有一种硬件，它的关键优势在于大规模并行进行简单计算，而不是复杂的串行结构化计算，那么这实际上是一个你真正想利用的统计属性，对吧？你想并行理解图像的各个部分。然后可能做不到完全，但你可以获得很大一部分。然后只有当你做了一些这样的理解或表示之后，你才将这些不完整的理解或表示组合在一起。

随着你把它们组合在一起，你才能消除最后剩下的、消除最后剩下的歧义。当你思考这个过程看起来像什么时，它是一个树。当你思考如何实际运行一个评估所有可能树的操作时，一个合理的近似是重复一个操作，其中你查看所有事物的组合，这个二次步骤，对吧，这最终是attention步骤的核心。然后你有效地为给定片段的表示拉入其他片段的所有其他表示的信息，然后重复。

这看起来很直观，也很直观地清晰，这与当时我们所拥有的、我们现在仍拥有的那种加速器非常匹配。所以这实际上就是这个想法的来源。例如，如果你要查看 transformer 在“attention is all you need”论文中描述的方式与其某些祖先(如可分解注意力模型)之间的最大差异，最大的差异仅仅在于像 Norman 等人以适合当时我们拥有的加速器的方式实现了 transformer 。

Elad Gil
有一个问题我听人提出过，我们在 transformer 中看到的许多行为，在某种程度上在规模扩大时最有趣，对吧？你得到有趣的潜入属性。可能还有其他架构在规模上同等有趣或可能更有趣的属性，但有两点阻碍。第一，人们实际上没有向其投入大量资金和计算力。

其次，底层加速器架构实际上非常适合它，所以在性能上实现其他架构会非常困难。因此，我们实际上可能永远无法测试它们。你认为这是一个真实的陈述吗？

Jakob Uszkoreit
我认为最大的问题是，这重要吗？将不同的硬件与适合它们的手套般贴合的模型或架构组合评估起来非常有趣。我觉得现在，考虑到 GPU 的起源，它们不是为此目的构建的，为什么它们会远远接近最佳呢？为什么会这样？

很多人本质上撞墙直到它们在某种程度上被优化。但这不是基本架构出现的方式。所以你可以谈很多，推理很多，我认为其中一些是真的，通用的真正快速可扩展的矩阵乘法器以及它在科学计算中所做的一切都非常出色。当然。但还有很多细枝末节，还有针对例如记忆带宽等的具体具体折衷，最终固有的并行性与延迟。

我认为 GPU 没有达到大规模深度学习的最佳折衷点，就这些权衡而言。所以很有可能，如果我们实际尝试这些组合，我们可能会很快找到更好的东西。

Sarah Guo
当你考虑我们如何从这里取得进步时，人们通常认为软件正在驱动硬件，对吧？你认为我们是为已经有的大规模 transformer 体系结构设计加速器，还是为新的硬件设计？所以这里有点像先有鸡还是先有蛋。

Jakob Uszkoreit
这是先有鸡还是先有蛋的问题。如果你看看最新的加速器设计，它们在很大程度上都已经考虑到这一点，实际上越来越多。有一些有趣的例子。我们有一个完全是多层感知器的计算机视觉架构，叫做 mixer。

虽然它并不明显更好，但与分层 transformer 相比也不明显更差，对吧？我认为这已经表明，这并不难，特别是如果你在过程中进行简化，这可能真的是一个可能性。我还要说一件事。

除了效率之外，就真正的原始效率而言，适应架构，适应加速器硬件，我认为这个架构成功的另一个主要因素是乐观和希望。所以突然之间，由于各种原因，人们尝试的一系列事物开始发挥作用，然后越来越多的事物开始发挥作用。这并非巧合。这真的只是因为，终究投入到让所有这些不同事物发挥作用的人力周期，是由不相信和希望或者你想称之为什么驱动的。

我的意思是，社区变得非常有活力，非常快，然后尽可能尝试各种事物。现实是你第一次尝试其他事物，你真的必须努力工作很长时间。然后瞧，有时它奏效了。如果你做更多次，那么它就会更多次奏效。我认为这才是我们正在看到的。

Elad Gil
你认为人们今后应该在哪些方面投入这种乐观情绪？像是哪些大的领域需要人们努力以提高这些系统的性能或添加内存或做你认为的其他事情，如果要绘制未来的路线图来制造这些非常有价值的性能系统，你会关注什么？

Jakob Uszkoreit
我认为有一件事仍然让我不解，就是从第一原则来看，它不可能是最佳的。那就是，如果你仔细思考，今天你扩展投入于给定问题的计算方式，取决于提示以及某些大型语言模型，然后最终扩展该计算的方式取决于提示本身以及它的长度。提示越长，计算量就越大。

它取决于，当然，有很多不同的调整参数，这里的提示长度。有许多非常困难的问题，其响应非常短。在许多情况下，你实际上可以非常简明地阐述这些问题。所以即使我们知道问题非常困难，你也不会使用大量计算，比如说，我不知道，素数分解之类的问题，简单地陈述，巨大的潜在影响。

目前没有你作为用户可以轻松调整的内容，当然，架构本身也没有内容，当它来决定的时候，哦，这很难。我实际上需要为此使用更多计算。

讽刺的是，这回到了许多人关心的问题，我认为围绕生成数据训练有意义吗？因为信息论非常清楚地说，不，你不会从中获得更多信息。你可以随心所欲地做，但在信息中存在人工制品或者可能甚至遗漏，在那种信息论中，它没有考虑计算。它没有考虑生成数据实际所需的能量支出。

所以，如果现在你回想这些问题，如果你只是让 LLMs 运行，生成东西，然后用输出训练新元素甚至相同元素，那么你会摊销在某个时间点上花费的计算，所以现在，你实际上拥有的模型，如果你反复重新训练它们，它们会开始在同一问题上花费更多计算，但这是在所有这些系统迭代上摊销的。这看起来很笨拙。这看起来非常笨拙。

这应该是一些东西，在推理运行时，模型可以有效地决定或查询，所以有这种随时算法的概念，它可能只取决于你的资源，如果你有更多时间或金钱，让它运行得更长，但是你不希望这发生在问题或问题本身很简单的情况下，你只想在问题实际上很难的时候才这么做。这现在不起作用，因为如果你现在像 GPT-4 那样提出一个非常简单的问题，比如 2+2，并以很长的提示的方式写出来，要求 GPT 生成一个非常复杂的答案，那么它实际上会展开大量计算来计算两个数之和，这毫无意义。

所以在所有不同的问题中，但我目前看到的问题在高层次上，因为不清楚如何确切解决它。这可能是让我最困惑的。

Elad Gil
现在还有其他你感兴趣的大研究领域或你看到正在取得巨大进步的领域吗？

Jakob Uszkoreit
就基础而言，我认为不同形式的弹性很有趣。所以你可以说，很多这些问题实际上可以归结为我刚才描述的这个问题，对吧？计算机在某种意义上非常粗略地分配。但你可以查看这个问题的不同表现。

另一个就是，为什么我们没有优雅管理不同分辨率、不同采样率、不同持续时间的视觉传感器输出的模型呢？现在，除了可能的递归架构之外，让一个模型处理不同长度、不同图像分辨率或者说不同密度的视频，优雅地调整计算以获得你真正想要了解的关于这个的内容，或者生成你需要的表示来做任何你想做的事情有多难，实际上相当棘手。

这里再举一个使这一点我认为很明确的例子，你可以获取一个视频，放大它，用平凡的算法进行帧插值，然后再次运行它。如果基于该视频解决的问题是相同的，那么我不会想要使用更多计算，但现在，这就是会发生的事情。你会使用更多计算。

所以在某种意义上，这些模型的弹性或灵活性的缺乏，我认为这最终令人难以置信的浪费。

Sarah Guo
我看到关于两个不同概念的关注度在这些一般方向上在增加，一个是，我认为Meta 的一些人做了自适应 transformer，对吧？所以只是为每个输入调整计算量，并对此进行预测，对吧？然后我不知道在那个方向上还做了多少工作。

我认为许多人对测试时搜索更感兴趣，特别是对于代码生成等问题，你可以通过编译或某些方式进行评估，以某种方式获得模型成功的循环。

Jakob Uszkoreit
我认为自定义搜索非常有效。我认为它很笨拙，因为这不是你可以轻松输入和优化的东西。所以，基本上，这也是我在某种程度上想要表达的，好吧，我们还没有真正利用的一些效率改进，我认为会大大影响训练时间。如果你看一下测试时搜索实际上如何影响训练，它只是笨拙的，我不认为我们能够像优化它那么好。

尽管在某种意义上作为一种工程，我不知道，“hack”这个词可能有负面含义。这不是我的意思。我认为这是一种很棒的技巧。作为解决这个问题的一种工程技巧，它真的很有效。它基本上回到了在某种意义上摊销计算的整个想法，对吧？利用你已经掌握和记忆的东西，即使在许多情况下是人类实际放置在那里的。在自适应时间 transformer 等方面。

我们实际上很久以前就试过这种通用 transformer。它就没有流行起来。那是因为它根本不起作用，对吧？在这一点上，它的效果还不够好。这并不是说它完全不起作用。如果它真的很有效，那么由于计算现在是一个非常稀缺的资源，我们会无处不在地看到它。我认为这告诉我们，至少在这里，我不认为仅仅是因为尝试的不足。实验太少了。但至少这些已知或提议的方法，它们的效果还不够好。

Elad Gil
你在过去几年一直在研究的事情是Inceptive，它真正开始关注如何将机器学习和软件的不同方面应用于生物学。你能分享一下公司的情况，你如何对生物学感兴趣，以及你认为那里有哪些有趣的问题吗？

Jakob Uszkoreit
基本上我一直对生物学感兴趣，但对它一无所知，这是一个难题，因为当你不在学校的时候，学习大量生物学知识是很困难的，我也不想回到学校。

但它总是感觉像在效率方面有很大的提升空间，而且在你感兴趣的解决一些问题上，可能甚至有替代方法，至少这里肯定需要替代方法，替代基本上是生物设计，它们正试图对生命的工作方式形成完整的概念理解。

我对人类开发那个完整的概念理解的希望不是很高，不是到我们需要的程度，以便做所有我们想做的干预。在我们的工具箱中，我们真的没有很好的工具，或者直到不久前，我们没有替代理解它是如何工作的的工具。然后基本上根据这种理解来修复它，如果它意味着修复的话。

我认为现在我们有一个非常好的替代方案，那就是大规模的深度学习。我们真的有潜力在相当大的程度上，如果不是完全的话，无论这意味着什么，都可以绕过以下两个问题。

首先，我们不知道生命中发生的所有事情所以我们仍然只是那甚至没有一个完整的清单，更不用说真正理解所有机制了；其次，即使对于我们到目前为止所知道的东西，在许多情况下，我们并没有真正能够提出足够有预测力的理论来真正使这种理解有用。

这里的具体例子是蛋白质折叠。在那里，即使你只是假装没有分子伴侣，环境中没有其他东西，在那里折叠或者你想称之为的过程发生，在翻译期间发生的最早动力学，即使你做出这种大大简化的假设，理论也不实用。

深度学习似乎至少有潜力真正回答这两个方面的问题，因为你基本上可以将一切作为黑盒对待，只要你能够以任何输入输出足够快速和足够规模来观察那个黑盒，就可能在某种程度上取得进展。

Elad Gil
Inceptive非常低调，你能分享一下你如何将深度学习或其他技术应用于公司背景下的生物学吗？

Jakob Uszkoreit
我的女儿出生了，她是我的第一个孩子，整个过程让我对生命的脆弱有了一种非常不同的认识，这是一种非常美妙的认识，但也是一个非常不同的认识。所以我们在这里，我们有这种新工具，即 Alpha Fold 2，它解决了结构生物学中的一个基本问题。我们有这个巨大分子家族的实例，它基本上要拯救世界。我基本上是想修复生命，因为现在我有了这个美妙的女儿。

很明显，使用我们在谷歌之前一直在使用的工具，并将其应用于这个被忽视的 RNA ，或者更具体地说，起初是 mRNA ，可能会对世界产生巨大影响；我们正在尝试做的是设计更好的 RNA 和第一批 mRNA 分子，用于相当广泛的不同药物，考虑到 Covid 疫苗，传染病疫苗我想可能是显而易见的第一个例子。

如果你看看 Moderna 和 Biontech 以及所有这些公司的产品流水线， RNA ，更具体地说是 mRNA 的潜在适用性是无限的。目前已经有数百个项目在不同阶段的开发中，预计这个数字到本十年末会攀升至三位数，现在我们正在谈论的模式，在本十年末可能成为第二大或第三大模式，就收入和潜在影响而言。

如果你怀疑，就从轨迹来看，看看与 RNA 疫苗相比可能的疫苗有多次优，仅仅看看自然中存在的 RNA ，看看最终接种疫苗的患者中有多少人出现了严重的副作用，相比之下有多少人真正获得了他们迫切需要的任何疫苗。

目前看来，如果我们看看我们的工具包，我们唯一可能快速改变这种状况的工具就是更深层次的学习。所以在 Inceptive，我们现在认为这可以称为生物软件，其中 mRNA 和 RNA 通常是字节码的等价物，然后形成基质，形成软件实际由之组成的材料。你要做的就是学习让你能够将生物程序翻译成模型，这些程序可能看起来像一些 Python 代码，它们指定你想让某种药物在你体内做什么，然后将这些程序编译成 RNA 分子的描述，这些 RNA 分子然后希望你实际上是做了你编写的，你对它们编程要做的事情。

现在，如果你看 mRNA 疫苗，我们的编程语言只是一个打印语句，只是打印这个蛋白质，但你可以轻松想象，自我扩增 RNA 就是一个例子，还有所谓的核糖开关，基本上是在特定分子存在下会剧烈改变结构或自我毁灭的 RNA 。

你可以有条件语句，可以有递归，作为计算机科学家，你可能眯起眼睛，就像“wow，nice”，这基本上是图灵完备的，你现在有各种工具可以真正建立非常复杂的医学，然后可能以比我们目前能做的任何事情更可扩展的方式生产、制造和分发。

基于蛋白质的生物制药通常无法进入市场，因为简单地说不可能大规模制造。如果我们想给世界上每个人提供所有他们实际上可以获得、应该获得的基于蛋白质的生物制药，地球上的房地产就不足以制造所有这些东西。

但是现在，如果你看看 RNA 制造和分销基础设施，我们将在两年内能够制造和分销全球范围内 60-80 亿剂疫苗，这个数字会快速增加；在Inceptive现在的实验室中，我们实际上可以打印几乎任何给定的 RNA ，这是你无法用小分子实现的，你不能轻松地用蛋白质做到这一点，当然也不能大规模地做到，这不仅仅是在你手头有问题时才重要的事情。

如果你想把这个视为一个机器学习问题，你需要生成训练数据，它已经不存在，所以你也真的希望具有可扩展的合成。因此，就协同效应而言，制造是前所未有的。

Sarah Guo
你的观点是，你实际上可以搜索编码 Covid 刺突蛋白的特定量的程序，具有不同的稳定性特征，不同的免疫反应特征，不需要酶促反应，不依赖任何细胞类型。我是说将来。不是今天的 Inceptive，但这是 630个变种的目标？

Jakob Uszkoreit
没错，而且这不仅仅是搜索，对吗？就像今天 LLM 的输出不是来自适当的搜索过程，它必须是一个生成过程，正如你基本上在大型语言模型或图像生成模型中看到的那样，完全以相同的方式和相同的原因，我们编码的只是一个抗原，当你进行个性化癌症疫苗接种时，随着时间的推移，每个患者会针对许多抗原，用筛选方法基本上没有希望解决这个问题。

Sarah Guo
我很高兴能够不必理解或发现每一个机制就得到正确的答案，而不必进行昂贵的大规模筛选。

Jakob Uszkoreit
一个非常大的问题是，我们是否在这里处于一个关键点，发现和理解实际上是一个障碍；这里有一个与语言理解的直接类比，计算语言学和语言学总体上这样做了一段时间，以开发足够准确和完整的语言理论，使其真正可行。

Elad Gil
当你谈到 transformer 模型是如何工作的时，例如，我想到的是基因组测序，你过去通过连续顺序测序来完成，你会有这些大块的染色体序列。最终，你进入了一个可以将其分解成上百万个随机生成的微小序列的时代，然后用机器重新组装它。没错。这感觉就像一个非常有趣的并行或类比，就是你在谈论语言角度的时候。从本质上说，这是一回事。

Jakob Uszkoreit
是的，确切地。而且这些并行之处还不止这里。所以看到这一点真的很有趣。我觉得一个不变的规律就是，我们编造这些形式主义来沟通我们的概念理解或直观理解，然后概念化基本上很好地用于教育。它也很适合许多其他类型的可能的推理。但它实际上可能由于我们有限的认知能力，并不是预测给定事物将发生的最佳工具。

Elad Gil
我想另一点是，如果你看药物，尤其是传统药物，我们实际上直到最近才理解大多数药物的作用机制；像阿司匹林，我们不知道它是如何起作用的，直到 19世纪从树皮中提取出来；像人们没问题地服用这些东西，副作用很小，像美沙酚这样在市场上很受欢迎的药物作用于多个靶点。

我们仍然不确定它们的确切作用机制，所以现在药物监管途径的重点是，你需要功能机制，你需要经过验证的途径等等，这些东西制造了障碍，不一定有助于药效。

Jakob Uszkoreit
其中一些实际上在某种意义上也可能是，应该说是浪费时间和金钱，而且可能不是真的，我们没有办法判断，真相可能是：它是否起作用，是否做的好比坏处更大，这是经验主义，也许我们真的应该把重点放在这里，其他一切都应该被视为我们至少应该在采取首要行动后做的事情。

Sarah Guo
从历史的角度来看，我们实际上不了解医学中最重要的许多事物，或者如果我们事后发现了它们的机制，端到端的黑盒深度学习流程方法似乎更合理一些，不那么异端，我认为乍一看，它肯定具有争议性。

Jakob Uszkoreit
我的意思是，可以看作亵渎的部分是，现在你突然不再知道你正在测试的理论了，对吧？而你可能永远不会，因为今天对我们来说还不清楚，就我所知，如果黑盒中存在一个理论，我们是否可以将其提取出来。

有人在尝试，我认为值得尝试。我对此不太乐观。我认为对于一些简单的情况会奏效，但有许多情况我们做不到，就像气候和天气预报，我不认为我们会以我们理解的方式得到它。我认为我们理解薛定谔方程，理论上如何交互使用它来解决所有这些问题，但这不切实际，在这里开发一个既有预测力又实用的理论可能只是我们无法理解的东西。

Elad Gil
这很有趣，因为我实际上觉得这再次成为遥远以来许多传统药物发现的基础，以及如何考虑遗传筛选的基础，对吧？你基本上做功能筛选。所以你会使许多有机体发生突变，你会查看输出，然后说，好的，我已经识别出参与此途径或输出的基因，并且在某种程度上我可以映射它们之间的相互作用。

但在分子生物学之前，我们实际上从功能角度什么也不了解。我们只是了解顺序和输出，对吧？所以深度学习实际上只是对其他形式的生物学的回归，这些生物学非常富有成果，只是用一种新的技术模型来审视这些系统。

那么你如何看待人类增强和所有这些东西的背景？你对人类增强有多看好？你认为近期它会采取什么形式？

Jakob Uszkoreit
我对人类增强非常看好，从长远来看，我认为看我们的大脑，即使只是从物理上看，它们似乎非常专注。关于大脑处理资讯的速度，为什么在某个地方会有某种计算能力，如果我们只是提高几个数量级的 IO，它仍然可以处理？为什么进化会把它放在那里？我不知道为什么。你当然可以说，也许是为了长期规划任务等等。但当然，对吧，让我们将其约束在一生中，对吧？很难说我们的能力是否比我们的IO容量的某个倍数大很多，从进化压力来看。

Elad Gil
如果你看用来训练 LLM 的 tokens 数量，然后看用来训练孩子的 tokens 或词汇数量，对吧，一个人类婴儿或人类学步儿。我的意思是，一个人类学步儿在他们能够流利讲话之前，可能会接触数十万，可能数百万个词。

Jakob Uszkoreit
我认为我们混淆了微调和预训练，预训练是整个进化，基本上，你就有了这种东西，它可能一开始在某种意义上完全不相关，但具有所有能力，然后与小量数据相比，也许介于两者之间，然后通过微调面向我们会认为的东西，认知上如此高级。

Sarah Guo
过去几万年的计算已经在人类身上进行了摊销；我们与语言相关的部分天生就有线路，所以最后只需要 100 万个 token。

Jakob Uszkoreit
现在的问题是，你现在可以说很好，我们天生就有连接，让我们看看连接，并试图找到语言，但可能没那么简单，这当然是共同进化，一切都是模糊的，所以我们对此有多少先天连接，语言在某种意义上也针对我们有多少先天连接，可能的情况是，仅仅通过观察连接本身，实际上可能无法读取它所针对的内容。

Elad Gil
你可以看到这样的情况：人们实际上天生就没有大脑半球，或者脑部存在其他大规模缺陷，然后事物就会重新接线，补偿，并且看到大脑的某些部分接管其他功能，这些功能通常不是为它们设计的，这也令人着迷，因为似乎某些部分非常专门化，如视觉皮层等，然后其他部分基本上几乎是通用机器，可以重新分配。

Jakob Uszkoreit
我完全同意你的说法。我觉得通用机器是一个非常棘手的术语，在大规模创伤后，它们能重新连接来做一些非常不同的事情吗？公平而言，不清楚，所以它实际上仍可能是具体的，但在某种意义上它是通用的，即准备某种冗余，这也是为什么我发现 AGI 作为一个术语特别有问题，因为我不知道通用是什么意思。

Sarah Guo
数据生成和 Inceptive 的理论是什么？我觉得我理解你描述的任务。然后你需要进行湿实验室实验并观察这些序列的所有属性。而且你必须弄清楚如何有效地做到这一点，对吧？仍然是一家年轻的公司，你有所有这些传统和资源。是的，很想听听你对此的任何直觉。

Jakob Uszkoreit
那么让我试着表达我们如何思考这个问题。

第一，我们实际上将自己视为一个反学科团队，所以它不完全是反学科的，尽管反学科与缺乏学科纪律或不顾基本学科或学科可能存在某种相关性。但我们认为我们在某种意义上真的是一门新学科的先驱，它还没有名字，但它从深度学习中汲取了很多东西，也从生物学中汲取了很多东西。

我们认为，在某种意义上，设计我们用于生成训练模型所需数据的实验或分析，如果你愿意，就是这个学科的核心，因为我们正在运行的实验或资产，它们使用我们在训练的数据上训练的模型，他们的前身实际产生的数据。

如果你仔细看，在某种意义上，我猜一直有这样的梦想，我认为这是一个幻想，就是在实验和你把它放入一些东西之间有一个循环，一些模型，一些在计算机上运行的东西，然后它指导实验，然后你迭代这个循环。我认为这只是，这会很美好、简单和漂亮。

我不认为这真的那么容易，你在侦探处看到的实际上不是一个循环，尽管现在在某个地方模糊地也确实有那个循环。实际上，设计上有大量小循环，所以当你开始一个分析，你要做的第一件事实际上是查询一个神经网络，然后做一些事情，然后得到某些读数，将它们与其他一些东西一起馈送到另一个模型中，它实际上会为一些仪器提供参数，再然后在你创造的东西上运行该仪器，它实际上只是一个巨大的混乱，其中界限实际上越来越模糊。

我们实际上认为我们的工作发生在海滩上，因为那是湿和干和谐相遇的地方。所以最初加入 Inceptive 的人们通常来自这两边，他们在深度学习或机器人技术或生物学方面度过了大部分职业生涯。