2024年8月2日 – arXiv最新論文の紹介

Text-to-SQLタスクのサーベイ

A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7]
リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
論文参考訳（メタデータ） (Sun, 21 Jul 2024 14:48:23 GMT)
実用的にも重要なSQL生成タスクのサーベイ
LLMの影響は大きい

LAMBDA: A Large Model Based Data Agent [7.2]
LAMBDAは、オープンソースのコードフリーマルチエージェントデータ分析システムである。複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。 LAMBDAは、さまざまな機械学習データセットで強力なパフォーマンスを示している。
論文参考訳（メタデータ） (Wed, 24 Jul 2024 06:26:36 GMT)
マルチエージェントなデータ分析システム
リポジトリはGitHub – Stephen-SMJ/LAMBDA: This is the offical repository of paper “LAMBDA: A large Model Based Data Agent”. https://www.polyu.edu.hk/ama/cmfai/lambda.html

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (Fri, 12 Jul 2024 16:37:59 GMT)
科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
リポジトリはGitHub – google/spiqa