今週のGPT周辺

GPT関連の論文はとても多い。

オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。

Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – (英語Stability AI

GitHub – FreedomIntelligence/LLMZoo: ⚡LLM Zoo is a project that provides data, models, and evaluation benchmark for large language models.⚡

  • ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
    放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。 近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。 これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 17:13:42 GMT)
  • radiology report summarizationタスクにおけるGPT系モデルの利用
  • 動的なプロンプト作成など実利用でも参考になるかも
  • Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
    複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。 我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。 その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 17:48:43 GMT)
  • ChatGPTの間違い分析
  • 外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる
  • Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
    ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。 姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。 この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 08:08:12 GMT)
  • ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。
  • LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
    本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。 以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。 分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
    論文  参考訳(メタデータ)   (Tue, 18 Apr 2023 15:35:43 GMT)
  • LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。
  • Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
    この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。 我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。 実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 15:25:44 GMT)
  • logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
  • ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも(ReClorを除き)人間のパフォーマンスとは大きな差がある。「However, the performance drops significantly when handling newly released and out-of-distribution datasets.」という指摘が印象的(leak…?)。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
  • ベンチマークが公開されている GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models
  • GPT-NER: Named Entity Recognition via Large Language Models [50.7]
    GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
    論文  参考訳(メタデータ)   (Thu, 20 Apr 2023 16:17:26 GMT)
  • 苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
  • GitHub – ShuheWang1998/GPT-NER

Toolを使うFoundation Model、Tool-AugmentedなLLM

  • Tool Learning with Foundation Models [114.3]
    基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 15:16:10 GMT)
  • ツールを使用する基盤モデルに関するサーベイ
  • 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
  • リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

  • API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
    本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 14:05:32 GMT)
  • LLMのためのAPI利用ベンチマーク
  • データやコードは公開されているのだろうか?論文中にはリンクがなさそう。

Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data 

  • Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.5]
    合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。 合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
    論文  参考訳(メタデータ)   (Fri, 7 Apr 2023 16:38:40 GMT)
  • 利用が注目されている合成データに関する報告、サーベイ
  • プライバシー保護やデータ収集の手間など良い面はありつつ、そもそも生成できるのかなど課題は多い。

SportsMOT

  • SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes [44.5]
    本稿では,emphSportsMOTと呼ばれる多種多様なスポーツシーンにおける大規模多目的追跡データセットを提案する。 240のビデオシーケンス、150Kフレーム以上、およびバスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから収集された1.6M以上のバウンディングボックスで構成されている。 本稿では,emphMixSortと呼ばれる新しい多対象追跡フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 12:23:36 GMT)
  • スポーツを対象としたマルチオブジェクトトラッキングデータセット
  • 動きが激しく、見た目での区別がつきそうでつかないという難しそうなデータだという印象
  • SportsMOT Dataset – DeeperAction

セキュリティ分野におけるグラフ分析のサーベイ

  • Graph Mining for Cybersecurity: A Survey [60.8]
    マルウェア、スパム、侵入などのサイバー攻撃の爆発的な増加は、社会に深刻な影響をもたらした。 従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。 グラフマイニング技術の普及に伴い、サイバーエンティティ間の相関を捉え、高いパフォーマンスを達成するために、多くの研究者がこれらの手法を研究している。
    論文  参考訳(メタデータ)   (Sun, 2 Apr 2023 08:43:03 GMT)
  • サイバーセキュリティにおけるグラフマイニング活用のサーベイ
  • ネットワークなどセキュリティに関わる要素とグラフ構造は相性が良いので活用が期待される(というかよく活用されている)分野

Fairness in Graph Mining

  • Fairness in Graph Mining: A Survey [36.3]
    グラフマイニングアルゴリズムは、人間中心のアプリケーションで悪用された場合、特定の人口に対する差別につながる可能性がある。 グラフ上の公平性の概念の新たな分類法を提案し,その関係や相違点に光を当てる。 本稿では,グラフマイニングにおける公正性を促進する既存手法について概説する。
    論文  参考訳(メタデータ)   (Tue, 11 Apr 2023 05:55:09 GMT)
  • 利用が広がっているグラフマイニングにおける公平性サーベイ
  • グラフ構造分析の実応用ではSNSなどセンシティブなデータを持つものが想定されFairness関連の研究は重要

ESPnet-ST-v2

  • ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.5]
    ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。 本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
    論文  参考訳(メタデータ)   (Tue, 11 Apr 2023 17:44:53 GMT)
  • ESPnetのバージョン2
  • GitHub – espnet/espnet: End-to-End Speech Processing Toolkit

MoocRadar

Segment Everything Everywhere All at Once

ゼロショットなビデオ編集

  • Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
    ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。 我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 07:34:11 GMT)
  • vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
  • GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI