A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models 

  • A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
    GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
    論文  参考訳(メタデータ)   (Sat, 18 Mar 2023 14:02:04 GMT)
  • GPTシリーズモデルの性能比較
  • 学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
  • 日本語での評価も知りたいところ。(比較すればよいって話ではあるが。。。)

Consistency Analysis of ChatGPT

  • Consistency Analysis of ChatGPT [54.2]
    ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。 論理的に一貫した行動に関するChatGPTの信頼性について検討する。
    論文  参考訳(メタデータ)   (Sat, 11 Mar 2023 01:19:01 GMT)
  • ChatGPTの一貫性評価、BECEL: Benchmark for Consistency Evaluation of Language Models (aclanthology.org)を利用
  • ChatGPTはnegation consistencyに優れている一方でsymmetric consistencyがいまいちという結果。
  • 「ChatGPT fails to distinguish between the labels of “Neutral” and “Contradiction”.」や「Moreover, in inputorder invariant tasks, ChatGPT is likely to make a different decision when the order of the input sentences is switched.」というのも興味深い。著者らはハイリスクな用途に使うのは致命的な問題と指摘している。

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
    ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。 提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 15:46:28 GMT)
  • QAデータを用いたChatGPT(+GPT-3.5)の検証
  • データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
  • 問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insufficient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・?

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

  • Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
    本研究では,実環境における職種分類の課題について検討する。 目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 17:01:59 GMT)
  • 「Graduate Job Classification(求職が大学・入学レベルの職位に適切かどうかを判断する問題)」を例にPLMを用いた分類モデルとLLM+Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している(メトリクスによってはDeBERTa-V3の負けているが…)
  • 色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
  • プロンプトを改善していく過程も非常に参考になる。

ChatGPT関連

今週のChatGPT関連論文

  • Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [55.1]
    ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。 しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。 Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 15:50:02 GMT)
  • マルチモーダルなChatGPT、多種のFoundation Modelsを組み合わせるアプローチでPrompt ManagerがそれぞれのFoundation Modelをうまく使うようなシステムになっている。(単一のマルチモーダルモデルではない)
  • リポジトリはGitHub – microsoft/visual-chatgpt: VisualChatGPT
  • Is ChatGPT a Good NLG Evaluator? A Preliminary Study [55.1]
    ChatGPTは、計算言語学コミュニティから広く注目を集めている。 広く使われている3つのNLGメタ評価データセットについて実験を行った。 その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 16:57:20 GMT)
  • ChatGPTを評価用に使用する話
  • 機械翻訳で似た話があったがそれと同じで有望そうという結果。Hallucinate対策も同じように自己完結できるんじゃないかと思ったりする。
  • リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
  • Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.2]
    臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。 本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。 提案手法により,下流タスクの性能が大幅に向上した。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 03:56:31 GMT)
  • 合成データ作成への応用。ゼロショット(Promptのみ)より合成データを介した方が性能が高いというのはGPT-3を用いた機械翻訳(GPT-3から知識を引き出したうえで翻訳モデルを作る方がGPT-3で直接翻訳するよりも高い性能)でも近い結果が出ていたように思う。
  • Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.8]
    大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。 ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。 基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 18:44:07 GMT)
  • Foundation Modelsに関するサーベイ
  • ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification [0.0]
    ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。 本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。 その結果、ChatGPTは、どちらのモデルでもこれまで見られなかったデータセットに適用した場合、微調整されたモデルよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 8 Mar 2023 09:35:09 GMT)
  • スロベニア語というリソースの少ない言語に対してゼロショット能力が非常に高いという話。「In contrast, once the model is also prompted in the under-resourced language, the results start to deteriorate.」は日本語でも同じ気がしている。

週刊ChatGPT

今週もChatGPT関連の論文は多い。API利用が可能になったこともあり、検証関連は今後も増えそうな感じ。

  • Cross-Lingual Summarization via ChatGPT [46.0]
    言語間要約(CLS)は、異なるターゲット言語で要約を生成することを目的としている。 ChatGPTの最近の出現は、計算コミュニティから広く注目を集めている。 本稿では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイムからゼロショットCLSを実行する。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 01:27:37 GMT)
  • クロスリンガルなゼロショット要約への応用。ChatGPTはtext-davinci-003よりも優れている一方で、ROUGE、BERTScoreともにFine-tunedなmBARTモデルに及ばずという結果。ただし、「For example, as discussed by Goyal et al (2022), the news summaries generated by GPT-3 achieve lower ROUGE scores than fine-tuned methods but higher human evaluation scores.」との注釈がある。
  • Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication [2.9]
    本研究では,AIを用いたコミュニケーションにおける文レベルの提案とメッセージレベルの提案とのトレードオフについて検討する。 我々は120人の参加者を募集し、議員のオフィスからスタッフとして働きました。
    論文  参考訳(メタデータ)   (Sun, 26 Feb 2023 18:40:38 GMT)
  • 文レベルのサジェスチョンとメッセージレベルのサジェスチョンのどちらが有効か(およびユーザから見てどのような違いがあるのか)を検証した論文。当たり前かもしれないがメッセージレベルでのサジェスチョンの方がタスク完了の早期化には有効、かつユーザも満足していたとのこと。
  • 使用した生成モデルは GPT-3 (text-davinci002 modelでfine-tuningなし)
  • Large Language Models Are State-of-the-Art Evaluators of Translation Quality [7.8]
    翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
    論文  参考訳(メタデータ)   (Tue, 28 Feb 2023 12:23:48 GMT)
  • LLMを用いた翻訳品質の評価方法GEMBA(GPT Estimation Metric Based Assessment)の提案。BLEUやCOMETより優れているとのこと。
  • プロンプトを工夫して評価させるアプローチでこれで真っ当な評価が返ってくるのはかなり意外
  • リポジトリはGitHub – MicrosoftTranslator/GEMBA: GEMBA — GPT Estimation Metric Based Assessment
  • ChatAug: Leveraging ChatGPT for Text Data Augmentation [56.0]
    本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。 我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
    論文  参考訳(メタデータ)   (Sat, 25 Feb 2023 06:58:16 GMT)
  • ChatGPTを用いたデータ拡張の提案。画像生成モデルでもトライされており、言語モデル内の知識を活用するのが有効なことはあると思う。
  • 様々なデータ拡張手法と比較して有用性を検証しているが、LLM+fewshot(or LLM + soft prompt)だとどの程度の性能になるのかは知りたいところ。

週間ChatGPT

先週もChatGPTの話題は多かった。

  • ChatGPT: Jack of all trades, master of none [4.7]
    OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 15:20:37 GMT)
  • ChatGPTのタスク別の性能
  • 概ね他の結果と同じだが、「It also provides a unique selfexplanation capability that facilitates human understanding and adaptation to the expected outcome.」という記載は特徴的。それはexplanationなのかという疑問はあるが…。
  • A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT [0.0]
    BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 20:51:09 GMT)
  • BERTからChatGPTに至るまで最近のPretrained Foundation Models (PFMs) に関する大規模なサーベイ
  • How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation [16.9]
    GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。 また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 02:11:36 GMT)
  • GPTを用いた機械翻訳、高リソースな言語に対しては非常に強力な性能でMS Translatorと拮抗しているように見える
  • 通常の機械翻訳モデルとの組み合わせも有効とのことで、通常のNMTとは似て非なるシステムになっているようにも感じた。その理由は定かではないが、文脈を読みその後を出力することが本業のGPT系モデルと(MS Translatorの実装にもよるが)単文翻訳から進化し文脈考慮は後で進化したNMTの違いだったりすると面白いなと思う。
  • Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.6]
    大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:46:42 GMT)
  • LLMによる機械翻訳では辞書の併用に効果があるとする報告
  • 確かに効果はあるのだろうがどのように使いやすくしていくかという点が悩ましい
  • Zero-Shot Information Extraction via Chatting with ChatGPT [56.8]
    ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。 大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。 ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 12:57:12 GMT)
  • ゼロショットでの知識抽出タスクへのChatGPTの応用
  • 2段階のフレームワークとすることで性能が上がったとのこと。このあたり使い方でカバーしていくのが最近という気がする
  • リポジトリはhttps://github.com/cocacola-lab/ChatIEとのことだが、現時点では404、https://github.com/cocacola-lab/GPT4IEはtext-davinci-003を使っているよう?
  • Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.6]
    チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。 そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 12:29:33 GMT)
  • BERT / RoBERTa vs ChatGPTをGLUEで検証、タスクによって結果は様々でChatGPTは推論系タスクでは高い性能を発揮する一方でparaphrase 、similarity tasksが弱いとのこと。平均値ではBERT-baseレベルに若干足りない程度でRoBERTや-largeモデルには負けている感じ。これを高いとみるか低いとみるかは感覚が分かれるだろうが、fine tuningがいらない使いやすさを考えると高い性能と受け止める人が多そうな気がする。
  • On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
    本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。 以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Feb 2023 11:01:20 GMT)
  • ChatGPTをRobustnessの観点で検証、Microsoftの論文
  • GPT-3, GPT-3.5, ChatGPTともにRobustnessさが優れているとの検証結果で機械翻訳ではGPT-Xが有利、adversarial classificationではChatGPTが有利という結果になっている
  • データセット構築の狙いなど考慮点は多そうではあるが、大規模言語モデルの方が堅牢というのはありそうな結果だと思う

今週のChatGPT

今週のChatGPT。

  • Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
    GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。 最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。 実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 04:41:30 GMT)
  • 要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional fine-tuning methods in terms of Rouge scores」とのこと。
  • この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through finetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。
  • Can GPT-3 Perform Statutory Reasoning? [37.7]
    我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。 我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 04:56:11 GMT)
  • StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
  • リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning
  • Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
    大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。 近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 17:46:20 GMT)
  • ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、fine-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」

ChatGPTの評価(NLPベンチマーク、失敗事例、エッセイ)

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題(Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp))かもしれない。にしても低すぎという感覚はある…

  • A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
    我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。 また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

  • A Categorical Archive of ChatGPT Failures [47.6]
    OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。 それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。 しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
    論文  参考訳(メタデータ)   (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

  • Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
    本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。 影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。 結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 10:04:18 GMT)

ChatGPTの分析

ChatGPTの分析が複数出ていた。一つ目は数学的能力の検証で今までも指摘されている通りよろしくない結果となっている(改善バージョンが最近出ているのでどうなっているかも興味がある)。もう一つは倫理的側面で過去のモデルに対しての改善はみられるものの、なかなか厳しい指摘がなされている。

  • Mathematical Capabilities of ChatGPT [35.7]
    我々は、ChatGPTの数学的能力について、公開データセットや手作りデータセットで検証し、その性能をMinervaのような数学的コーパスで訓練された他のモデルと比較することで検討する。 また,ChatGPTの数学能力は,平均的な数学の大学院生の数学能力よりも有意に劣っていると結論づけた。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:59:03 GMT)
  • リポジトリはGitHub – friederrr/science-GHOSTS
  • Exploring AI Ethics of ChatGPT: A Diagnostic Analysis [19.9]
    大きな言語モデル(LLM)は要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えている。 観察の結果、LSMは社会的偏見と毒性を示し、無責任な結果の倫理的および社会的危険を生じさせる可能性が示唆された。
    論文  参考訳(メタデータ)   (Mon, 30 Jan 2023 13:20:48 GMT)