コンテンツへスキップ
- TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision [32.2]
大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。 本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。 TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。 そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
論文 参考訳(メタデータ) (Sun, 10 Mar 2024 13:58:38 GMT)
- 現時点で有効そうなアプローチを多く盛り込んだように見えるフレームワーク。「Furthermore, TRAD has been deployed in real-world scenarios of a global business insurance company and improves the success rate of robotic process automation.」というのは凄い。
- リポジトリはSkyRiver-2000/TRAD-Official: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision (github.com)
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.4]
MLLM(Performant Multimodal Large Language Models)を構築する。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:51:32 GMT)
- AppleのMultimodal Large Language Model。Appleがこの手の成果を公表するのは珍しい気がする。
- apple/axlearn (github.com)を使っているとのこと。
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.2]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。 本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。 私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (Wed, 6 Mar 2024 07:29:57 GMT)
- LLMを扱う上で大問題になるメモリ効率を高めたトレーニング手法の提案。NVIDIA RTX 4090 RAM 24GBで7Bモデルを事前学習可能とのこと。
- Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [49.0]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。 本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。 本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (Thu, 7 Mar 2024 01:22:38 GMT)
- Chatbot Arenaの論文、論文化されていなかったことに驚き。なかなか評価の難しいLLM界隈において重要な貢献だと思う。
- プロジェクトサイトはChat with Open Large Language Models (lmsys.org)
- Large Multimodal Agents: A Survey [78.8]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (Fri, 23 Feb 2024 06:04:23 GMT)
- 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
- リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)
- A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 18:54:35 GMT)
- データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
- この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。