Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level [73.1] 我々は、エンドツーエンドの自律データサイエンスエージェントであるAgent K v1.0を紹介する。 経験から学ぶことによって、データサイエンスのライフサイクル全体を管理する。 キー情報を選択的に保存して検索することで、長期記憶と短期記憶を最適化する。 論文参考訳(メタデータ) (Tue, 05 Nov 2024 23:55:23 GMT)
「our results indicate that Agent K v1.0 has reached a performance level equivalent to Kaggle Grandmaster, with a record of 6 gold medals, 3 silver medals, and 7 bronze medals」とKaggleのグランドマスター並みを主張するエージェントシステムの提案。
パイプライン構成やプロンプトなど参考になる点は多いが、「However, because this assessment relies on a custom split of the training data rather than the competition’s actual private test set, it remains uncertain whether an agent’s high ranking in this context would align with results on the original Kaggle leaderboard.」という記載やLeakの可能性など「ほんまかいな」という疑問点はなくはない。