Banner

60 亿打败 1750 亿验证凌驾微调:OpenAI 察觉 GPT-3 处理数学题并非参数越大越好

60 亿打败 1750 亿验证凌驾微调:OpenAI 察觉 GPT-3 处理数学题并非参数越大越好
产品详情

发布时间:2021-11-30 01:22:59

  简陋的幼学数学运用题目,关于人类来说不算什么,但关于模子来说,或许是有难度的。

  譬喻题目:安东尼有 50 支铅笔。他把 1/2 的铅笔给了布兰登,剩下的 3/5 铅笔给了查理。他保存了剩下的铅笔。问安东尼保存了多少支铅笔?

  像 GPT-3 如许的大型讲话模子固然获得了很多令人印象长远的才能,征求模拟人的多种写态度格、20 分钟内告竣论文等等。然而,雷同 GPT-3 如许的模子很难实行必要举行无误多步推理的工作。就如上述题目让模子给出无误谜底照旧贫乏的。

  只管雷同 GPT-3 如许的模子能够推导出无误会决计划大致实质,但也每每会发作要紧的逻辑毛病。

  为了正在丰富逻辑范畴能够到达与人类相媲美的功能,模子务必拥有判别本身毛病的本领,并留心地实行之后的流程。然而,模子奈何判别治理计划是否无误,来自 OpenAI 的探求者提出了一个操练验证器(verifier)来判决模子告竣的无误性。

  正在测试阶段会天生很多候选治理计划并采用排名最高的一个。说明验证(verification)显着升高了 GSM8K 的功能,其它也为这一见地(跟着数据的推广,验证比微调基线更有用)供给了强有力证据。

  整体来说,该探求操练了一个治理幼学数知识题的编造,其无误率约是原委微调的 GPT-3 模子的两倍。它能像真正的学生雷同能够治理 90% 的数学运用题目:正在供给的数据凑集举行了幼样本测试,结果注明 9-12 岁的学生测试得分为 60%,该探求所提编造正在一致的题目上测试得分 55%。

  这一结果特殊首要,由于本日的 AI 正在常识性多步推理方面仍旧很弱,尽管对幼学生来说也很容易,但 AI 照旧存正在很大的缺陷。该探求通过操练模子来识别其毛病,以便它能够屡屡试错,直到找到可行的治理计划。

  Tim 种了 5 棵树。他每年从每棵树上搜集 6 个柠檬。他十年能获得多少柠檬?

  OpenAI 基于四个计划规则创筑了 GSM8K 数据集:高质地、高多样性、中等难度和天然讲话治理计划。

  GSM8K 数据集由 8.5K 个高质地幼学数学运用题构成。每个题目必要 2 到 8 步治理,治理计划重要涉及利用加减乘除等基础算术运算实行一系列根源估计妄图以获取最终谜底。微调后的 SOTA 模子正在该数据集上表示不佳,重倘使题主意高度多样性导致的。与此同时,GSM8K 治理计划仅依赖于基础观念,以是杀青高测试功能是一个容易杀青的倾向。

  值得细心的是,GSM8K 中的治理计划是用天然讲话而不是纯数学表达式编写的。通过保持利用天然讲话,模子天生的治理计划更容易被人类注明。OpenAI 的本领保留相对范畴不行知。

  OpenAI 探求了两种治理 GSM8K 题主意本领:微折衷验证。微调是基线本领,它利用与 GPT-3 中天生式预操练一致的讲话筑模倾向(Brown 等人,2020 年)。正在测试时,OpenAI 通过自回归采样单个低温治理计划并查验最终谜底是否无误来判决功能。比拟之下,验证征求对多个高温治理计划举行采样,为每个治理计划分拨一个分数,并输出排名最高的治理计划。验证器被操练来判决治理计划的无误性,个中操练信号全体取决于治理计划是否获取了无误的最终谜底。

  关于这两种本领,OpenAI 利用 GPT-3 系列模子举动初始化,重要体贴 175B 和 6B 巨细的模子。175B 模子最大,发作的结果最令引人注视,而 6B 模子更易于杀青探求目。

  OpenAI 通过更新模子参数来举行微调,以最幼化全体操练 token 的交叉熵牺牲。下图 2 显示了对 20 个 epoch 时分别巨细的操练集举行微调后的测试功能。

  结果不出所料,能够看到 175B 模子明白优于较幼的模子。假设一个对数线性趋向,咱们能够简陋地估计这些结果,以揣摸当利用完好的 GSM8K 操练集时,必要拥有 10^16 个参数的模子本事到达 80% 的求解率。只管如斯,175B 模子彷佛必要起码两个出格数目级的操练数据本事到达 80% 的求解率。

  为了改革微调基准,OpenAI 操练验证器判决模子天生的治理计划的无误性,并正在测试时摸索这些验证器。以题目和候选治理计划为前提,验证器输出治理计划无误的概率。仅遵照它们是否到达无误的最终谜底,将操练治理计划标识为无误或不无误。然而,正在实习中,极少治理计划会利用出缺陷的推理得出无误的最终谜底,从而导致误报。

  从天生器中为每个操练题目抽取 100 个告竣样本,并将每个治理计划标识为无误或不无误;

  正在完好的操练集。

  解决方案