今週のChatGPT

今週のChatGPT。

  • Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
    GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。 最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。 実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 04:41:30 GMT)
  • 要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional fine-tuning methods in terms of Rouge scores」とのこと。
  • この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through finetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。
  • Can GPT-3 Perform Statutory Reasoning? [37.7]
    我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。 我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 04:56:11 GMT)
  • StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
  • リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning
  • Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
    大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。 近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 17:46:20 GMT)
  • ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、fine-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」

Towards Agile Text Classifiers for Everyone

  • Towards Agile Text Classifiers for Everyone [10.4]
    本稿では,アジャイルテキスト分類の手法を紹介し,評価する。 そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。 これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 17:34:13 GMT)
  • 大規模言語モデル+ソフトプロンプトの強力さが分かる論文
  • PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。