Text-to-SQLタスクのサーベイ

  • A Survey on Employing Large Language Models for Text-to-SQL Tasks [7.7]
    リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。
    論文  参考訳(メタデータ)   (Sun, 21 Jul 2024 14:48:23 GMT)
  • 実用的にも重要なSQL生成タスクのサーベイ
  • LLMの影響は大きい

LAMBDA: A Large Model Based Data Agent

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism

  • Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.8]
    大規模言語モデル(LLM)は、テキスト内学習能力に優れる。 最近の研究は、ICLに関する2つの矛盾する見解を示している。 両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
    論文  参考訳(メタデータ)   (Wed, 24 Jul 2024 05:26:52 GMT)
  • ICLの重要な要素である「タスク認識」と「近い事例情報の供給」についてマトリクスで検証した論文。

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Very Large-Scale Multi-Agent Simulation in AgentScope 

  • Very Large-Scale Multi-Agent Simulation in AgentScope [115.8]
    我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。 高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。 多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供する。
    論文  参考訳(メタデータ)   (Thu, 25 Jul 2024 05:50:46 GMT)
  • マルチエージェントシミュレーションを想定したフレームワークの提案、Apache 2ライセンスとOSS。使いやすそうなのと「Users only need to simply specify the distributions of the population from several aspects, a large number of agents with detailed and diverse characteristics can be effortlessly generated accordingly.」といった機能があるのも特徴的。
  • リポジトリはGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.

A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication

  • A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.9]
    深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。 これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。 本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 09:46:02 GMT)
  • 「This survey provides a comprehensive overview of research on proactive and passive defenses against AI-generated visual media, covering the mainstream defense tasks of detection, disruption, and authentication, as well as their trustworthiness.」というサーベイ

OpenDevin

  • OpenDevin: An Open Platform for AI Software Developers as Generalist Agents [109.9]
    私たちは、人間の開発者と同様の方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenDevinを紹介します。 プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
    論文  参考訳(メタデータ)   (Tue, 23 Jul 2024 17:50:43 GMT)
  • ソフトウエア構築の自動化を目指すCognition | Introducing Devin, the first AI software engineerのオープン版。様々なベンチマークでの評価や他手法との比較も興味深い。ベースモデルとしてはClaude 3.5 sonnetの優秀さが目立ち、Claude 3.5 Opusに期待大。
  • リポジトリはGitHub – OpenDevin/OpenDevin: 🐚 OpenDevin: Code Less, Make More

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

  • DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
    本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 13:17:42 GMT)
  • 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
  • リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

KAN or MLP: A Fairer Comparison

  • KAN or MLP: A Fairer Comparison [63.8]
    本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。 パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。 我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
    論文  参考訳(メタデータ)   (Tue, 23 Jul 2024 17:43:35 GMT)
  • 以前話題にあったKAN: Kolmogorov-Arnold Networks – arXiv最新論文の紹介 (devneko.jp)とMLPの比較、「We found that KAN can be seen as a special type of MLP, with its uniqueness stemming from the use of learnable B-spline functions as activation functions.」、「Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN.」と評価。