今週のChatGPT。
- Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。 最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。 実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (Thu, 16 Feb 2023 04:41:30 GMT) - 要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional fine-tuning methods in terms of Rouge scores」とのこと。
- この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through finetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。
- Can GPT-3 Perform Statutory Reasoning? [37.7]
我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。 我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
論文 参考訳(メタデータ) (Mon, 13 Feb 2023 04:56:11 GMT) - StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
- リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning
- Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。 近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
論文 参考訳(メタデータ) (Wed, 15 Feb 2023 17:46:20 GMT) - ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、fine-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」