LLMの拡張、テーブルデータを併用した推論への応用

GPT-#で大規模言語モデルが話題になっているが、その拡張を行う研究も非常に盛ん。

  • mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [55.7]
    mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。 トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 13:27:01 GMT)
  • LLMのマルチモーダル化、まずVisual Encoder/Visual AbstractorをLLMを凍結して事前学習、その後LoRAを用いてLLMのInstruction tuning
  • リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl🦉: Modularization Empowers Large Language Models with Multimodality
  • Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning [45.0]
    大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。 巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。 我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:24:10 GMT)
  • Table データを併用した推論へのLLM適用、 Decompose evidence And questions for effective Table-basEd Reasoning (DATER)提案、優れた性能を達成。初めてTabFactで人間のパフォーマンスを超えたとのこと。
  • テーブルデータの分解、質問の分解、SQLクエリへの変換・実行、 in-context prompting とLLM関連のテクニックが高度に使われている印象で問題の解き方がとても参考になる