Transformer + scratchpad: 事前学習モデル+スクラッチパッドを用いた処理

  • Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
    大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。 これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。 特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 21:32:46 GMT)
    • 中間ステップをスクラッチパッド(バッファ)に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
      • 人がやる事っぽく面白い結果。