今週のGPT周辺

GPT関連の論文はとても多い。

オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。

Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – (英語Stability AI

GitHub – FreedomIntelligence/LLMZoo: ⚡LLM Zoo is a project that provides data, models, and evaluation benchmark for large language models.⚡

  • ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
    放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。 近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。 これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 17:13:42 GMT)
  • radiology report summarizationタスクにおけるGPT系モデルの利用
  • 動的なプロンプト作成など実利用でも参考になるかも
  • Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
    複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。 我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。 その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 17:48:43 GMT)
  • ChatGPTの間違い分析
  • 外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる
  • Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
    ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。 姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。 この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 08:08:12 GMT)
  • ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。
  • LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
    本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。 以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。 分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
    論文  参考訳(メタデータ)   (Tue, 18 Apr 2023 15:35:43 GMT)
  • LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。
  • Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
    この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。 我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。 実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 15:25:44 GMT)
  • logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
  • ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも(ReClorを除き)人間のパフォーマンスとは大きな差がある。「However, the performance drops significantly when handling newly released and out-of-distribution datasets.」という指摘が印象的(leak…?)。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
  • ベンチマークが公開されている GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models
  • GPT-NER: Named Entity Recognition via Large Language Models [50.7]
    GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 16:17:26 GMT)
  • 苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
  • GitHub – ShuheWang1998/GPT-NER

Toolを使うFoundation Model、Tool-AugmentedなLLM

  • Tool Learning with Foundation Models [114.3]
    基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 15:16:10 GMT)
  • ツールを使用する基盤モデルに関するサーベイ
  • 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
  • リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

  • API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
    本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 14:05:32 GMT)
  • LLMのためのAPI利用ベンチマーク
  • データやコードは公開されているのだろうか?論文中にはリンクがなさそう。