テキスト分類に何を使うか?(GPT-3? T5? ロジスティック回帰?)

  • Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
    本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,様々なモデルの分類器の性能を評価する。 次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 16:51:58 GMT)
  • テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
  • アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
  • (結局は目的次第ではありつつ)現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities

  • GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
    サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。 サンプル試験では,text-davinci-003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力より著しく低いことが判明した。 最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 11:30:42 GMT)
  • CPA試験を対象としたGPT-3(3.5)の検証。量的推論や算術のようにGPT-3が苦手としている部分はまだまだという結果だが、そうでない部分は性能が大幅に向上しているように見える。量的な部分は別モデルで改善が続いているわけで、色々と可能性を感じる結果
  • リポジトリはGitHub – mjbommar/gpt-as-knowledge-worker: GPT as Knowledger Worker (or if you really want, GPT Sorta’ Takes the CPA Exam)

Large Language Models as Corporate Lobbyist、GPT Takes the Bar Exam

  • Large Language Models as Corporate Lobbyists [0.0]
    自己回帰的な大きな言語モデルは、提案されたアメリカ合衆国議会法案が特定の公共企業に関連するかどうかを決定する。 モデルが関連するものとみなす法案について、モデルは、提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 16:55:35 GMT)
  • AIを使ってロビー活動ができるのかを検討した報告。やろうと思えばそれっぽいことが可能になってきていると感じる。
  • (正当な目的にも使えるとはいえ)SPAMといえばSPAMのような気はするが、どう扱うかは悩ましい問題。
  • GitHub – JohnNay/llm-lobbyist: Code for the paper: “Large Language Models as Corporate Lobbyists” (2023).
  • GPT Takes the Bar Exam [0.0]
    GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。 最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 18:19:43 GMT)
  • GPT-3(3.5)を米国の弁護士試験に適用してみたとの報告。2つのカテゴリでは合格水準にあるとのこと。

ChatGPTとtext-davinci-003

  • ChatGPT: Optimizing Language Models for Dialogue (openai.com)
  • 極めて強力な対話用の言語モデル。Google検索か!?というレベルで回答をしてくれる。(間違っている場合も多いが…)
  • Reinforcement Learning from Human Feedback (RLHF)を用いており、GPT-3.5をfine tuningしているとのこと。
  • 11/29に出たtext-davinci-003もGPT-3.5シリーズのモデルでInstructGPT(code-davinci-002)ベースのtext-davinci-002を改善したものとのことで、こちらも性能が高い。NLPを変える可能性を感じている。
  • Model index for researchers – OpenAI API

GPT-3を使った対話による学習プロセス改善、要約

  • GPT-3-driven pedagogical agents for training children’s curious question-asking skills [24.7]
    学生が好奇心をそそる質問をする能力は、学習プロセスを改善する重要なスキルである。 これまでの研究では、学習中の子供の好奇心を促進するために特定の手がかりを提案する会話エージェントが用いられてきた。 本研究は,大規模言語モデル(GPT-3)を用いて,好奇心を刺激する手がかりの自動生成を行う。
    論文  参考訳(メタデータ)   (Tue, 29 Nov 2022 15:27:35 GMT)
  • Zero-Shot Opinion Summarization with GPT-3 [116.0]
    GPT-3モデルは人間の評価において非常に高い性能を示すことを示す。 我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視したいくつかの新しい尺度に対して評価を行った。
    論文  参考訳(メタデータ)   (Tue, 29 Nov 2022 04:06:21 GMT)

GPT-3を使った応用的な研究。fugumt.comでも論文検索に一部利用しており、不明点が多い分野の論文を探す場合に外部知識(GPT-3.5の知識)を利用するには良いもののように思っている。

Binding Language Models in Symbolic Languages

  • Binding Language Models in Symbolic Languages [146.3]
    Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。 解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。 実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 12:55:17 GMT)

TabMWP: Tabular Math Word Problem

  • Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
    数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 08:01:04 GMT)
    • 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。

GPT-3時代の要約

  • News Summarization and Evaluation in the Era of GPT-3 [73.5]
    我々は,0ショットGPT-3が,大規模な要約データセット上で訓練された微調整モデルと比較した。 我々は,人間はGPT-3要約を圧倒的に好んでいるだけでなく,現実性に乏しいようなデータセット固有の問題に悩まされていることも示している。
    論文  参考訳(メタデータ)   (Mon, 26 Sep 2022 01:04:52 GMT)
    • 機械要約において(機械的評価とは乖離して)人間はGPT-3による要約を好むという報告。通常の要約だけでなくCTRLSumが行うようなキーワードベースの手法でもGPT-3の方が好まれるとのこと。
      • 特化系のモデルが(Promptがあるとはいえ)汎用のモデルに勝てない時代…
    • リポジトリはtagoyal/factuality-datasets (github.com)

Customized Prompts via Language models

  • What does a platypus look like? Generating customized prompts for zero-shot image classification [47.8]
    本研究は,画像領域の明示的な知識を使わずに,高精度なプロンプトを生成する簡単な手法を提案する。 大規模言語モデル(LLM)に含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。 このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
    論文  参考訳(メタデータ)   (Wed, 7 Sep 2022 17:27:08 GMT)
    • 大規模言語モデルからの知識を用いてゼロショット画像分類モデルの精度を上げるアプローチ。手作業で作成する部分をGPT-3のような大規模言語モデルに代替させるのはとても良さそう。
    • リポジトリはsarahpratt/CuPL (github.com)

WANLI: データセット作成のためのクラウドワーカとAIのコラボレーション

  • WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [101.0]
    我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。 我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。 結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
    論文  参考訳(メタデータ)   (Sun, 16 Jan 2022 03:13:49 GMT)
    • クラウドワーカーとAIとのコラボレーションによる高品質データの構築。自由形式で例を書くことをクラウドワーカに求めるよりも、GPT-3などで作成されたコンテンツの修正を求める方がより効果的であることを示唆しているとのこと。
      • 賛否両論あるポストエディットの話に似ているように感じた。