Two are better than one: Context window extension with multi-grained self-injection

WorldSimBench: Towards Video Generation Models as World Simulators

  • WorldSimBench: Towards Video Generation Models as World Simulators [79.7]
    我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。 WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。 我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 17:56:11 GMT)
  • ビデオ生成を通して世界をシミュレーションできるのでは?という主張があるが、そのベンチマーク。ものにもよるが厳しそうな印象。「Finally, based on the overall Explicit Perceptual Evaluationand Implicit Manipulative Evaluationresults, we conclude that current video generation models still fail to effectively capture many physical rules, indicating significant improvements are needed before they can function as true World Simulators.」という記載も。
  • リポジトリはWorldSimBench: Towards Video Generation Models as World Simulators

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

Improving Causal Reasoning in Large Language Models: A Survey、LLM-based Optimization of Compound AI Systems: A Survey

因果推論や最適化の分野でもLLMが活用されつつある。

  • LLM-based Optimization of Compound AI Systems: A Survey [64.4]
    複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。 近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。 本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 18:06:25 GMT)

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

  • JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
    JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 17:59:56 GMT)
  • MMMUの日本語版
  • リポジトリはJMMMU

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions 

  • AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [47.7]
    AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。 データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。 AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
    論文  参考訳(メタデータ)   (Sun, 27 Oct 2024 12:44:25 GMT)
  • Kaggleのようなデータ分析の自動化。対象としているタスク(分析フェーズ)は「background understanding, preliminary exploratory data analysis, data cleaning (DC), in-depth exploratory data analysis, feature engineering (FE), and model building, validation, and prediction (MBVP).」で通常のAutoMLより広い、対象データはテーブルデータのよう。
  • 「As our analysis relies on GPT-4o, which is trained on data available until October 2023, it includes most of the Classic Kaggle competitions.To evaluate the generalization capabilities of AutoKaggle, we therefore focus on competitions initiated after 2024.」とLeakには気を使っているとはいえ、「Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.」という言いきりは凄い。もっとも、今のLLMの性能からして適切なパイプラインを組めば解けそうな問題であるという感覚はある。
  • リポジトリはGitHub – multimodal-art-projection/AutoKaggle

Survey of User Interface Design and Interaction Techniques in Generative AI Applications 

  • Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.6]
    我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。 また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
    論文  参考訳(メタデータ)   (Mon, 28 Oct 2024 23:10:06 GMT)
  • 生成AIを使うアプリケーションのUIについてまとめたサーベイ
  • 珍しいサーベイ

Evaluating Cultural and Social Awareness of LLM Web Agents

  • Evaluating Cultural and Social Awareness of LLM Web Agents [113.5]
    CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。 提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。 実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:35:44 GMT)
  • 「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。
  • エージェント設計時の注意が必要なことが分かる。

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

  • StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.3]
    Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。 本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。 実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 12:18:37 GMT)
  • タスクに応じた構造化を行うことによりRAGの性能を改善、GraphRAGと比べても優れた性能で計算コストも低い。
  • リポジトリはGitHub – Li-Z-Q/StructRAG: StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Foundation Models for Remote Sensing and Earth Observation: A Survey

  • Foundation Models for Remote Sensing and Earth Observation: A Survey [101.8]
    本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。 モチベーションと背景の概要から始まり、続いて基本概念が導入された。 その後、データセットや技術貢献を含む既存のRSFM研究を分類し、レビューする。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 01:08:21 GMT)
  • Remote Sensing (RS) Foundation Modelのサーベイ