谷歌 DeepMind 使用大型语言模型破解了纯数学中著名的未解决问题。在今天发表在《自然》杂志上的一篇论文中,研究人员表示,这是第一次使用大型语言模型来解决长期存在的科学难
谷歌 DeepMind 使用大型语言模型破解了纯数学中著名的未解决问题。在今天发表在《自然》杂志上的一篇论文中,研究人员表示,这是第一次使用大型语言模型来解决长期存在的科学难题——产生以前不存在的可验证且有价值的新信息。合著者、谷歌 DeepMind 研究副总裁 Pushmeet Kohli 表示:“训练数据中没有这一点,甚至根本不为人所知。”
大型语言模型以编造事实而闻名,而不是提供新事实。谷歌 DeepMind 的新工具 FunSearch 可能会改变这一现状。它表明,如果他们被这样哄骗,并且如果你扔掉他们提出的大部分内容,他们确实可以做出发现。
FunSearch(之所以这样称呼,是因为它搜索数学函数,而不是因为它很有趣)延续了 DeepMind 利用人工智能在基础数学和计算机科学领域取得的一系列发现。首先,AlphaTensor 找到了一种加速多种不同类型代码核心计算的方法,打破了 50 年来的记录。然后 AlphaDev 找到了让每天使用数万亿次的关键算法运行得更快的方法。
然而这些工具并没有使用大型语言模型。两者都建立在 DeepMind 的游戏 AI AlphaZero 之上,通过将数学问题视为围棋或国际象棋中的难题来解决数学问题。该公司的研究员 Bernardino Romera-Paredes 曾参与 AlphaTensor 和 FunSearch 的工作,他表示,问题在于他们陷入了困境:“AlphaTensor 擅长矩阵乘法,但基本上没有其他能力。”
FunSearch采取了不同的策略。它将名为 Codey 的大型语言模型(Google PaLM 2 的一个版本,在计算机代码上进行了微调)与其他系统相结合,这些系统拒绝不正确或无意义的答案,并重新插入好的答案。
谷歌 DeepMind 的研究科学家阿尔侯赛因·法齐 (Alhussein Fawzi) 表示:“老实说,我们有一些假设,但我们并不确切知道为什么会这样。” “在项目开始时,我们根本不知道这是否有效。”
研究人员首先勾勒出他们想要用流行的编程语言 Python 解决的问题。但他们遗漏了程序中指定如何解决该问题的行。这就是 FunSearch 的用武之地。它让 Codey 填补空白——实际上是建议可以解决问题的代码。
然后,第二种算法会检查 Codey 的结果并对其进行评分。最好的建议——即使还不正确——都会被保存并返回给小程,小程会尝试再次完成程序。 “许多人会是无意义的,有些人会是明智的,还有一些人会真正受到启发,”科利说。 “你拿起那些真正受到启发的人,然后说,‘好吧,拿这些然后重复。’”
经过数百万条建议和几十次整个过程的重复(花了几天时间),FunSearch 能够提出代码,为上限设置问题生成正确且以前未知的解决方案,其中涉及找到最大尺寸某种类型的集合。想象一下在方格纸上绘制点。上限设置问题就像试图找出可以放下多少个点而其中三个点不会形成一条直线。
这是超级利基,但很重要。数学家们甚至就如何解决这个问题还没有达成一致,更不用说解决方案是什么了。 (它也与矩阵乘法有关,AlphaTensor 找到了一种加速计算的方法。) 加州大学洛杉矶分校的陶哲轩 (Terence Tao) 获得了许多数学顶级奖项,包括菲尔兹奖,他被称为2007 年博客文章中的上限设置问题“也许是我最喜欢的开放式问题”。
Tai 对 FunSearch 的功能很感兴趣。 “这是一个有前途的范例,”他说。 “这是利用大型语言模型的力量的一种有趣的方式。”
FunSearch 相对于 AlphaTensor 的一个关键优势是,理论上它可以用来寻找各种问题的解决方案。这是因为它生成代码——生成解决方案的秘诀,而不是解决方案本身。不同的代码会解决不同的问题。 FunSearch 的结果也更容易理解。法齐说,配方往往比它产生的奇怪的数学解决方案更清晰。
为了测试其多功能性,研究人员使用 FunSearch 来解决数学中的另一个难题:装箱问题,其中涉及尝试将物品装入尽可能少的箱子中。这对于计算机科学的一系列应用(从数据中心管理到电子商务)都很重要。 FunSearch 提出了一种比人类设计的方法更快的方法来解决这个问题。
陶说,数学家“仍在试图找出将大型语言模型纳入我们的研究工作流程的最佳方法,以利用它们的力量,同时减轻它们的缺点。” “这无疑表明了一种可能的前进方向。”
作者: Will Douglas Heaven