GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning 

  • GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.7]
    PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。 本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。 本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
    論文  参考訳(メタデータ)   (Fri, 5 Jul 2024 14:16:47 GMT)
  • タイトルそのままGPT vs RETRO。

Case2Code: Learning Inductive Reasoning with Synthetic Data

  • Case2Code: Learning Inductive Reasoning with Synthetic Data [105.9]
    プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。 まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。 実験結果から,このような帰納的学習は,Case2Codeの性能だけでなく,学習用LLMの各種符号化能力の向上にも寄与することがわかった。
    論文  参考訳(メタデータ)   (Wed, 17 Jul 2024 11:35:00 GMT)
  • 解くのが難しい「Case2Code is a program synthesis task that targets the reconstruction of unknown programs based on observations of the program behaviors.」というタスクのため合成データを作成、一般的なLLMではスコアが低いことを検証。次に合成データを使ったfine tuningの有効性を示した論文。いまいち納得感が薄いが「We believe synthetic Case2Code is a promising way to continue improving the LLMs when human-generated data is exhausted.」というのが結論であればそれは示せているのか・・・?
  • リポジトリはGitHub – choosewhatulike/case2code

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

  • Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
    我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 17:54:37 GMT)
  • マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
  • 「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
  • リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?