Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge 

  • Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.7]
    CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。 CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 04:41:12 GMT)
  • 「In CHAIC, the goal is for an embodied agent equipped with egocentric observations to assist a human who may be operating under physical constraints—e g , unable to reach high places or confined to a wheelchair—in performing common household or outdoor tasks as efficiently as possible.」というタスク・ベンチマークの提案。このようなチャレンジが現実的になってきたことにAIの急速な進化を感じる。
  • リポジトリはGitHub – UMass-Foundation-Model/CHAIC: [NeurIPS D&B Track 2024] Source code for the paper “Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge”

On the Surprising Effectiveness of Attention Transfer for Vision Transformers

  • On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.8]
    従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。 予備学習で学んだ特徴や表現は必須ではない。
    論文  参考訳(メタデータ)   (Thu, 14 Nov 2024 18:59:40 GMT)
  • 「Surprisingly, using only the attention patterns from pre-training (i.e., guiding how information flows between tokens) is sufficient for models to learn high quality features from scratch and achieve comparable downstream performance.」というほんまかいなという報告。「Our key finding is that the attention patterns (inter-token operations) are the key factor behind much of the effectiveness of pre-training – our Attention Distillation method completely matches fine-tuning on ImageNet-1K.」という結果とのことで面白い。
  • リポジトリはalexlioralexli/attention-transfer · GitHub(現状ではコードはアップロードされていない)

Gemini-Exp-1114, Alpha Fold 3, Frontier Math

先週の大きなニュースは業界標準になりつつあるhttps://lmarena.ai/?leaderboardで、Geminiの最新バージョン(試験運用版モデル  |  Gemini API  |  Google AI for Developers)が一位をとったこと、Alpha Fold 3が公開されたこと(AlphaFold – Google DeepMindGitHub – google-deepmind/alphafold3: AlphaFold 3 inference pipeline.)だったと思う。やはり、Google, DeepMindは凄い。

そのほか。極めて難しい数学的問題を集めたFrontierMathベンチマークの登場も興味深かった。もはや人でも相当の専門家以外は扱えない問題になっているがこれらをLeakなく解くモデルが現れるのはいつになるのだろうか。(意外と近い将来な気もしていて期待と不安がある)

  • FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.1]
    FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。 現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
    論文  参考訳(メタデータ)   (Thu, 14 Nov 2024 16:26:03 GMT)
  • 「Current state-of-the-art AI models solve under 2% of problems」という極めてチャレンジングな問題。

SPARTAN: SPARse TrANsformer World model

  • SPARTAN: A Sparse Transformer Learning Local Causation [63.3]
    因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。 本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。 オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
    論文  参考訳(メタデータ)   (Mon, 11 Nov 2024 11:42:48 GMT)
  • 「Conceptually, we argue that in order to perform efficient adaptation, world models should be structured to reflect the underlying sparse causal structure of the observed dynamics, and that these structures should be local.」のもと、「we propose SPARTAN, a structured world model that jointly performs dynamics model learning and causal discovery.」とのこと。
  • Language Models as Causal Effect Generators [44.8]
    制御可能な因果構造を持つ大規模言語モデル(LLM)に基づくデータ生成のためのフレームワークを提案する。 我々は、任意の言語モデルと有向非巡回グラフ(DAG)をシーケンス駆動構造因果モデル(SD-SCM)に変換する手順を定義する。
    論文  参考訳(メタデータ)   (Tue, 12 Nov 2024 18:50:35 GMT)
  • こちらはLLM+DAGでsequence-driven structural causal modelを作るアプローチ

因果グラフ+LLMという話はとても興味深い。

Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding 

  • Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.8]
    トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
    論文  参考訳(メタデータ)   (Wed, 13 Nov 2024 11:02:04 GMT)
  • 大規模なテーブルデータを推論するために木構造を用いるアプローチの提案
  • 「Starting with a large-scale input table, the process selectively condenses the data, emphasizing task-relevant information. Subsequently, the decomposed elements are methodically reorganized into a Table-Tree, a hierarchical structure designed to streamline and guide the subsequent reasoning process.」ということがプロンプトベースで可能なのも凄いなと思う。効果はありそう。

WorkflowLLM

  • WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.5]
    ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。 最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
    論文  参考訳(メタデータ)   (Fri, 08 Nov 2024 09:58:02 GMT)
  • エージェント開発において重要となるワークフロー生成に関するベンチマークの提案とLLMの構築。
  • (1) Data Collection、(2) Query Expansion、(3) Workflow Generation、合成データを用いたWorkflowBenchの作成、fine-tuneによる WorkflowLlamaの構築と合成データを併用する一般的な手順ではあるが、GPT-4o w/ICLを完全にoutperformしているのが興味深い。
  • リポジトリはGitHub – OpenBMB/WorkflowLLM

MedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

  • Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
    医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
    論文  参考訳(メタデータ)   (Sun, 03 Nov 2024 17:57:00 GMT)
  • 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
  • プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

  • Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective [31.5]
    本稿では、最近の進歩を概観し、自己回帰的視覚基盤モデルの将来的な方向性について論じる。 我々は,次世代の視覚基礎モデルのトレンドを提示し,視覚タスクの理解と生成を統一する。 我々は、自己回帰的視覚基盤モデルを、その視覚トークン化剤と自己回帰バックボーンから分類する。
    論文  参考訳(メタデータ)   (Tue, 29 Oct 2024 16:48:22 GMT)
  • テキスト分野だけではなく画像においてもさらには画像生成においても存在感を増すAutoregressionモデル、autoregressive vision foundation modelのサーベイ
  • リポジトリはGitHub – EmmaSRH/ARVFM: Awesome autoregressive vision foundation models

How Far is Video Generation from World Model: A Physical Law Perspective

  • How Far is Video Generation from World Model: A Physical Law Perspective [101.2]
    OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。 しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。 本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 18:53:05 GMT)
  • 世界シミュレータとしても期待されるビデオ生成についての詳細な評価。「Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit “case-based” generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape.」とのことで、なかなか厳しい評価に思える。さらには「The findings indicate that scaling alone cannot address the OOD problem, although it does enhance performance in other scenarios.」とのことで、簡単な問題ではないことが分かる。
  • 論文中にも「ニュートンが運動の3法則を定式化するのに何世紀もかかった」という記載と「一方で子供でも直観的な予測は可能」との記載があるが、この手の能力がAIに実現できるかはいろいろと興味深い。
  • プロジェクトサイトはHow Far is Video Generation from World Model: A Physical Law Perspective

Artificial Intelligence of Things: A Survey

  • Artificial Intelligence of Things: A Survey [14.2]
    IoT(Internet of Things)とAI(Modern Artificial Intelligence)の統合により、AIoT(Artificial Intelligence of Things)と呼ばれる新しいパラダイムが生まれました。 我々は,センサ,コンピューティング,ネットワークおよび通信に関連するAIoT文献について検討する。 これらの分野での進歩に加えて、さまざまな重要なアプリケーションドメイン用に設計されたドメイン固有のAIoTシステムについてもレビューする。
    論文  参考訳(メタデータ)   (Fri, 25 Oct 2024 22:45:58 GMT)
  • IoTからAIoTへ。
  • 割と古くからある概念らしいが、最近の発展は凄い。