GPTScore

  • GPTScore: Evaluate as You Desire [40.1]
    本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。 4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 16:17:29 GMT)
  • 要約におけるBARTScoreのようにGPTシリーズを評価に使おうという試み。ROUGEのような単純な手法よりはるかに良く、BARTScoreのようなDeepベースの手法とも競合可能な結果。
  • このタスクだとGPT3-text-davinci-003よりもGPT3-text-davinci-001の方が性能が良いとのことで興味深い。
  • リポジトリはGitHub – jinlanfu/GPTScore: Source Code of Paper “GPTScore: Evaluate as You Desire”

Augmented Language Modelのサーベイ

  • Augmented Language Models: a Survey [56.0]
    この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。 私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。 トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:25:52 GMT)
  • CoTのようなサブタスク化した上での推論、外部知識の利用、データベース検索、ツールの利用など大規模言語モデルを拡張するアプローチのサーベイ。reasoning がAugmentedなのか?という問いには「 reasoning is a way for LMs to combine different tools in order to solve complex tasks, and tools are a way to not fail a reasoning with valid decomposition.」との記載があり、分けて語るべきではないという見解?