A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models 

  • A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
    GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
    論文  参考訳(メタデータ)   (Sat, 18 Mar 2023 14:02:04 GMT)
  • GPTシリーズモデルの性能比較
  • 学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
  • 日本語での評価も知りたいところ。(比較すればよいって話ではあるが。。。)

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

  • Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
    本研究では,実環境における職種分類の課題について検討する。 目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 17:01:59 GMT)
  • 「Graduate Job Classification(求職が大学・入学レベルの職位に適切かどうかを判断する問題)」を例にPLMを用いた分類モデルとLLM+Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している(メトリクスによってはDeBERTa-V3の負けているが…)
  • 色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
  • プロンプトを改善していく過程も非常に参考になる。

週刊ChatGPT

今週もChatGPT関連の論文は多い。API利用が可能になったこともあり、検証関連は今後も増えそうな感じ。

  • Cross-Lingual Summarization via ChatGPT [46.0]
    言語間要約(CLS)は、異なるターゲット言語で要約を生成することを目的としている。 ChatGPTの最近の出現は、計算コミュニティから広く注目を集めている。 本稿では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイムからゼロショットCLSを実行する。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 01:27:37 GMT)
  • クロスリンガルなゼロショット要約への応用。ChatGPTはtext-davinci-003よりも優れている一方で、ROUGE、BERTScoreともにFine-tunedなmBARTモデルに及ばずという結果。ただし、「For example, as discussed by Goyal et al (2022), the news summaries generated by GPT-3 achieve lower ROUGE scores than fine-tuned methods but higher human evaluation scores.」との注釈がある。
  • Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication [2.9]
    本研究では,AIを用いたコミュニケーションにおける文レベルの提案とメッセージレベルの提案とのトレードオフについて検討する。 我々は120人の参加者を募集し、議員のオフィスからスタッフとして働きました。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 18:40:38 GMT)
  • 文レベルのサジェスチョンとメッセージレベルのサジェスチョンのどちらが有効か(およびユーザから見てどのような違いがあるのか)を検証した論文。当たり前かもしれないがメッセージレベルでのサジェスチョンの方がタスク完了の早期化には有効、かつユーザも満足していたとのこと。
  • 使用した生成モデルは GPT-3 (text-davinci002 modelでfine-tuningなし)
  • Large Language Models Are State-of-the-Art Evaluators of Translation Quality [7.8]
    翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 12:23:48 GMT)
  • LLMを用いた翻訳品質の評価方法GEMBA(GPT Estimation Metric Based Assessment)の提案。BLEUやCOMETより優れているとのこと。
  • プロンプトを工夫して評価させるアプローチでこれで真っ当な評価が返ってくるのはかなり意外
  • リポジトリはGitHub – MicrosoftTranslator/GEMBA: GEMBA — GPT Estimation Metric Based Assessment
  • ChatAug: Leveraging ChatGPT for Text Data Augmentation [56.0]
    本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。 我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
    論文  参考訳(メタデータ)   (Sat, 25 Feb 2023 06:58:16 GMT)
  • ChatGPTを用いたデータ拡張の提案。画像生成モデルでもトライされており、言語モデル内の知識を活用するのが有効なことはあると思う。
  • 様々なデータ拡張手法と比較して有用性を検証しているが、LLM+fewshot(or LLM + soft prompt)だとどの程度の性能になるのかは知りたいところ。

ExaRanker

  • ExaRanker: Explanation-Augmented Neural Ranker [67.5]
    本研究は,ニューラルランカーが説明の恩恵を受けることを示す。 我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 11:03:04 GMT)
  • 大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
  • リポジトリはGitHub – unicamp-dl/ExaRanker

Benchmarking Large Language Models for News Summarization

  • Benchmarking Large Language Models for News Summarization [79.4]
    大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:46:19 GMT)
  • GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
  • リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

テキスト分類に何を使うか?(GPT-3? T5? ロジスティック回帰?)

  • Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
    本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,様々なモデルの分類器の性能を評価する。 次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 16:51:58 GMT)
  • テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
  • アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
  • (結局は目的次第ではありつつ)現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities

  • GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
    サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。 サンプル試験では,text-davinci-003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力より著しく低いことが判明した。 最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 11:30:42 GMT)
  • CPA試験を対象としたGPT-3(3.5)の検証。量的推論や算術のようにGPT-3が苦手としている部分はまだまだという結果だが、そうでない部分は性能が大幅に向上しているように見える。量的な部分は別モデルで改善が続いているわけで、色々と可能性を感じる結果
  • リポジトリはGitHub – mjbommar/gpt-as-knowledge-worker: GPT as Knowledger Worker (or if you really want, GPT Sorta’ Takes the CPA Exam)

Large Language Models as Corporate Lobbyist、GPT Takes the Bar Exam

  • Large Language Models as Corporate Lobbyists [0.0]
    自己回帰的な大きな言語モデルは、提案されたアメリカ合衆国議会法案が特定の公共企業に関連するかどうかを決定する。 モデルが関連するものとみなす法案について、モデルは、提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 16:55:35 GMT)
  • AIを使ってロビー活動ができるのかを検討した報告。やろうと思えばそれっぽいことが可能になってきていると感じる。
  • (正当な目的にも使えるとはいえ)SPAMといえばSPAMのような気はするが、どう扱うかは悩ましい問題。
  • GitHub – JohnNay/llm-lobbyist: Code for the paper: “Large Language Models as Corporate Lobbyists” (2023).
  • GPT Takes the Bar Exam [0.0]
    GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。 最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 18:19:43 GMT)
  • GPT-3(3.5)を米国の弁護士試験に適用してみたとの報告。2つのカテゴリでは合格水準にあるとのこと。

ChatGPTとtext-davinci-003

  • ChatGPT: Optimizing Language Models for Dialogue (openai.com)
  • 極めて強力な対話用の言語モデル。Google検索か!?というレベルで回答をしてくれる。(間違っている場合も多いが…)
  • Reinforcement Learning from Human Feedback (RLHF)を用いており、GPT-3.5をfine tuningしているとのこと。
  • 11/29に出たtext-davinci-003もGPT-3.5シリーズのモデルでInstructGPT(code-davinci-002)ベースのtext-davinci-002を改善したものとのことで、こちらも性能が高い。NLPを変える可能性を感じている。
  • Model index for researchers – OpenAI API

GPT-3を使った対話による学習プロセス改善、要約

  • GPT-3-driven pedagogical agents for training children’s curious question-asking skills [24.7]
    学生が好奇心をそそる質問をする能力は、学習プロセスを改善する重要なスキルである。 これまでの研究では、学習中の子供の好奇心を促進するために特定の手がかりを提案する会話エージェントが用いられてきた。 本研究は,大規模言語モデル(GPT-3)を用いて,好奇心を刺激する手がかりの自動生成を行う。
    論文  参考訳(メタデータ)   (Tue, 29 Nov 2022 15:27:35 GMT)
  • Zero-Shot Opinion Summarization with GPT-3 [116.0]
    GPT-3モデルは人間の評価において非常に高い性能を示すことを示す。 我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視したいくつかの新しい尺度に対して評価を行った。
    論文  参考訳(メタデータ)   (Tue, 29 Nov 2022 04:06:21 GMT)

GPT-3を使った応用的な研究。fugumt.comでも論文検索に一部利用しており、不明点が多い分野の論文を探す場合に外部知識(GPT-3.5の知識)を利用するには良いもののように思っている。