Benchmarking Large Language Models As AI Research Agents

  • Benchmarking Large Language Models As AI Research Agents [105.7]
    我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。 我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。 長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 04:06:12 GMT)
  • データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
  • リポジトリはGitHub – snap-stanford/MLAgentBench

SCALE: Specialized Translation Models (STMs) + general-purpose Large Language Models (LLMs)

  • SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.9]
    本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。 実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 08:46:38 GMT)
  • 特化型の翻訳モデルと汎用的なLLMを併用する機械翻訳
  • STMからの翻訳草案をLLMでrefineするイメージ(?)、低リソースな言語に対して特に有効とのこと。