2024年6月11日 – arXiv最新論文の紹介

Tool Learning with Large Language Models: A Survey

Tool Learning with Large Language Models: A Survey [60.7]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文参考訳（メタデータ） (Tue, 28 May 2024 08:01:26 GMT)
複雑な問題を解くためにToolを扱うアプローチに関するサーベイ。流行っている分野であり整理された情報はとても参考になる。リポジトリがあるのもありがたい。
リポジトリはGitHub – quchangle1/LLM-Tool-Survey: This is the repository for the Tool Learning survey.

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.5]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。
論文参考訳（メタデータ） (Wed, 05 Jun 2024 23:23:54 GMT)
強力なはずのLLMが単純な問題「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」に回答できないという指摘。MMLUの結果との乖離が大きい。
- Leakを含め色々な問題があるんだろうと思うけど、「We also noticed during early experimentation that depending on choice of N and M and also the ordering of brothers and sisters in the sentence, the rate of correct responses may vary substantially.」は面白い。
リポジトリはGitHub – LAION-AI/AIW: Alice in Wonderland code base for experiments and raw experiments data

なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 17:22:08 GMT)
メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
論文参考訳（メタデータ） (Tue, 04 Jun 2024 23:36:08 GMT)
主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ（シーケンシャルな通信を含む）、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。