DetectGPT

  • DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature [143.5]
    学生は、大きな言語モデル(LLM)を使用して、書面の課題を完成させることができ、インストラクターは生徒の学習を正確に評価することができない。 まず、LLMからサンプリングされたテキストがモデルのログ確率関数の負の曲率領域を占める傾向があることを示す。 次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:44:06 GMT)
  • 機械が生成されたテキストを検出する手法の提案
  • 「minor rewrites of model-generated text tend to have lower log probability under the model than the original sample, while minor rewrites of human-written text may have higher or lower log probability than the original sample.」というシンプルな仮定で強力な性能を実現している
  • プロジェクトサイトはDetectGPT (ericmitchell.ai)

ChatGPTと翻訳

  • Is ChatGPT A Good Translator? A Preliminary Study [39.2]
    翻訳能力を高めるためにChatGPTが推奨するプロンプトを採用する。 多くのベンチマークテストセットを評価することで、ChatGPTは商用翻訳製品と競争的に機能することがわかった。 ChatGPTは、生物医学の要約やRedditのコメントに関する商業システムのようには機能しない。
    論文  参考訳(メタデータ)   (Fri, 20 Jan 2023 08:51:36 GMT)
  • ChatGPTの翻訳性能を評価した論文。一般的にリソースが多いといわれている言語ペア(おそらくChatGPTの学習データに多い言語)についてはかなりの性能だが、そうでない言語は苦手としているよう。また、頑健性の意味でもイマイチな結果となっている。
  • とはいえ、Promptのみでの機械翻訳だと考えればかなり性能が高いという評価もできそう

 HC3 (Human ChatGPT Comparison Corpus) dataset

  • How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
    ChatGPTは、幅広い人間の質問に効果的に反応できる。 人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。 本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 15:23:25 GMT)
  • ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約4万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
  • 本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため(と思われる)」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
  • リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

Large Language Models as Corporate Lobbyist、GPT Takes the Bar Exam

  • Large Language Models as Corporate Lobbyists [0.0]
    自己回帰的な大きな言語モデルは、提案されたアメリカ合衆国議会法案が特定の公共企業に関連するかどうかを決定する。 モデルが関連するものとみなす法案について、モデルは、提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 16:55:35 GMT)
  • AIを使ってロビー活動ができるのかを検討した報告。やろうと思えばそれっぽいことが可能になってきていると感じる。
  • (正当な目的にも使えるとはいえ)SPAMといえばSPAMのような気はするが、どう扱うかは悩ましい問題。
  • GitHub – JohnNay/llm-lobbyist: Code for the paper: “Large Language Models as Corporate Lobbyists” (2023).
  • GPT Takes the Bar Exam [0.0]
    GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。 最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 18:19:43 GMT)
  • GPT-3(3.5)を米国の弁護士試験に適用してみたとの報告。2つのカテゴリでは合格水準にあるとのこと。

SparseGPT

  • Massive Language Models Can Be Accurately Pruned in One-Shot [29.3]
    大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。 これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 17:48:56 GMT)
  • one-shotなpruning手法の報告。OPTを対象にした実験では50%程度はあまり性能を落とさずにpruningできるよう。より大きなモデルのほうがスパース化しやすいという指摘も興味深い。

ChatGPTとtext-davinci-003

  • ChatGPT: Optimizing Language Models for Dialogue (openai.com)
  • 極めて強力な対話用の言語モデル。Google検索か!?というレベルで回答をしてくれる。(間違っている場合も多いが…)
  • Reinforcement Learning from Human Feedback (RLHF)を用いており、GPT-3.5をfine tuningしているとのこと。
  • 11/29に出たtext-davinci-003もGPT-3.5シリーズのモデルでInstructGPT(code-davinci-002)ベースのtext-davinci-002を改善したものとのことで、こちらも性能が高い。NLPを変える可能性を感じている。
  • Model index for researchers – OpenAI API