Text-to-SQLタスクのサーベイ

  • A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7]
    リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
    論文  参考訳(メタデータ)   (Sun, 21 Jul 2024 14:48:23 GMT)
  • 実用的にも重要なSQL生成タスクのサーベイ
  • LLMの影響は大きい

LAMBDA: A Large Model Based Data Agent

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa