AssistantBench

  • AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
    言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 15:18:45 GMT)
  • WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
  • プロジェクトサイトはAssistantBench

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

  • MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [90.3]
    MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:46:51 GMT)