GPTScore

  • GPTScore: Evaluate as You Desire [40.1]
    本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。 4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 16:17:29 GMT)
  • 要約におけるBARTScoreのようにGPTシリーズを評価に使おうという試み。ROUGEのような単純な手法よりはるかに良く、BARTScoreのようなDeepベースの手法とも競合可能な結果。
  • このタスクだとGPT3-text-davinci-003よりもGPT3-text-davinci-001の方が性能が良いとのことで興味深い。
  • リポジトリはGitHub – jinlanfu/GPTScore: Source Code of Paper “GPTScore: Evaluate as You Desire”

今週のChatGPT

今週のChatGPT。

  • Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
    GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。 最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。 実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 04:41:30 GMT)
  • 要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional fine-tuning methods in terms of Rouge scores」とのこと。
  • この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through finetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。
  • Can GPT-3 Perform Statutory Reasoning? [37.7]
    我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。 我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 04:56:11 GMT)
  • StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
  • リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning
  • Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
    大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。 近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 17:46:20 GMT)
  • ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、fine-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」

Theory of Mind May Have Spontaneously Emerged in Large Language Models

  • Theory of Mind May Have Spontaneously Emerged in Large Language Models [0.1]
    心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。 以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。 これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
    論文  参考訳(メタデータ)   (Sat, 4 Feb 2023 03:50:01 GMT)
  • 人間用のTheory of mindテストを大規模言語モデルに適用、近年のモデルでは一定のれべるにあると指摘する論文。GPT-3.5 (text-davinci-003)では9歳の子供のレベルであると指摘していて、ほんまかいなと思わなくもない。
  • 近年のモデルではこの手のタスクを解く能力が強化されているのは確かなのだろうが、leakの疑いもなくはなく正しい評価は非常に難しいと思う。

ChatGPTの分析

ChatGPTの分析が複数出ていた。一つ目は数学的能力の検証で今までも指摘されている通りよろしくない結果となっている(改善バージョンが最近出ているのでどうなっているかも興味がある)。もう一つは倫理的側面で過去のモデルに対しての改善はみられるものの、なかなか厳しい指摘がなされている。

  • Mathematical Capabilities of ChatGPT [35.7]
    我々は、ChatGPTの数学的能力について、公開データセットや手作りデータセットで検証し、その性能をMinervaのような数学的コーパスで訓練された他のモデルと比較することで検討する。 また,ChatGPTの数学能力は,平均的な数学の大学院生の数学能力よりも有意に劣っていると結論づけた。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:59:03 GMT)
  • リポジトリはGitHub – friederrr/science-GHOSTS
  • Exploring AI Ethics of ChatGPT: A Diagnostic Analysis [19.9]
    大きな言語モデル(LLM)は要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えている。 観察の結果、LSMは社会的偏見と毒性を示し、無責任な結果の倫理的および社会的危険を生じさせる可能性が示唆された。
    論文  参考訳(メタデータ)   (Mon, 30 Jan 2023 13:20:48 GMT)

ExaRanker

  • ExaRanker: Explanation-Augmented Neural Ranker [67.5]
    本研究は,ニューラルランカーが説明の恩恵を受けることを示す。 我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 11:03:04 GMT)
  • 大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
  • リポジトリはGitHub – unicamp-dl/ExaRanker

DetectGPT

  • DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature [143.5]
    学生は、大きな言語モデル(LLM)を使用して、書面の課題を完成させることができ、インストラクターは生徒の学習を正確に評価することができない。 まず、LLMからサンプリングされたテキストがモデルのログ確率関数の負の曲率領域を占める傾向があることを示す。 次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:44:06 GMT)
  • 機械が生成されたテキストを検出する手法の提案
  • 「minor rewrites of model-generated text tend to have lower log probability under the model than the original sample, while minor rewrites of human-written text may have higher or lower log probability than the original sample.」というシンプルな仮定で強力な性能を実現している
  • プロジェクトサイトはDetectGPT (ericmitchell.ai)

ChatGPTと翻訳

  • Is ChatGPT A Good Translator? A Preliminary Study [39.2]
    翻訳能力を高めるためにChatGPTが推奨するプロンプトを採用する。 多くのベンチマークテストセットを評価することで、ChatGPTは商用翻訳製品と競争的に機能することがわかった。 ChatGPTは、生物医学の要約やRedditのコメントに関する商業システムのようには機能しない。
    論文  参考訳(メタデータ)   (Fri, 20 Jan 2023 08:51:36 GMT)
  • ChatGPTの翻訳性能を評価した論文。一般的にリソースが多いといわれている言語ペア(おそらくChatGPTの学習データに多い言語)についてはかなりの性能だが、そうでない言語は苦手としているよう。また、頑健性の意味でもイマイチな結果となっている。
  • とはいえ、Promptのみでの機械翻訳だと考えればかなり性能が高いという評価もできそう

 HC3 (Human ChatGPT Comparison Corpus) dataset

  • How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
    ChatGPTは、幅広い人間の質問に効果的に反応できる。 人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。 本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 15:23:25 GMT)
  • ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約4万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
  • 本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため(と思われる)」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
  • リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

Large Language Models as Corporate Lobbyist、GPT Takes the Bar Exam

  • Large Language Models as Corporate Lobbyists [0.0]
    自己回帰的な大きな言語モデルは、提案されたアメリカ合衆国議会法案が特定の公共企業に関連するかどうかを決定する。 モデルが関連するものとみなす法案について、モデルは、提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 16:55:35 GMT)
  • AIを使ってロビー活動ができるのかを検討した報告。やろうと思えばそれっぽいことが可能になってきていると感じる。
  • (正当な目的にも使えるとはいえ)SPAMといえばSPAMのような気はするが、どう扱うかは悩ましい問題。
  • GitHub – JohnNay/llm-lobbyist: Code for the paper: “Large Language Models as Corporate Lobbyists” (2023).
  • GPT Takes the Bar Exam [0.0]
    GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。 最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 18:19:43 GMT)
  • GPT-3(3.5)を米国の弁護士試験に適用してみたとの報告。2つのカテゴリでは合格水準にあるとのこと。

SparseGPT

  • Massive Language Models Can Be Accurately Pruned in One-Shot [29.3]
    大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。 これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 17:48:56 GMT)
  • one-shotなpruning手法の報告。OPTを対象にした実験では50%程度はあまり性能を落とさずにpruningできるよう。より大きなモデルのほうがスパース化しやすいという指摘も興味深い。