TRAD: Thought Retrieval and Aligned Decision

  • TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision [32.2]
    大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。 本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。 TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。 そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 13:58:38 GMT)
  • 現時点で有効そうなアプローチを多く盛り込んだように見えるフレームワーク。「Furthermore, TRAD has been deployed in real-world scenarios of a global business insurance company and improves the success rate of robotic process automation.」というのは凄い。
  • リポジトリはSkyRiver-2000/TRAD-Official: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision (github.com)

MM1

  • MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.4]
    MLLM(Performant Multimodal Large Language Models)を構築する。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 17:51:32 GMT)
  • AppleのMultimodal Large Language Model。Appleがこの手の成果を公表するのは珍しい気がする。
  • apple/axlearn (github.com)を使っているとのこと。

GaLore: Low-Rank Projection

  • GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.2]
    LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。 本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。 私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
    論文  参考訳(メタデータ)   (Wed, 6 Mar 2024 07:29:57 GMT)
  • LLMを扱う上で大問題になるメモリ効率を高めたトレーニング手法の提案。NVIDIA RTX 4090 RAM 24GBで7Bモデルを事前学習可能とのこと。

ProMoAI: Process Modeling with Generative AI

  • ProMoAI: Process Modeling with Generative AI [45.1]
    ProMoAIは、LLM(Large Language Models)を利用して、テキスト記述からプロセスモデルを自動的に生成する新しいツールである。 また、高度なプロンプトエンジニアリング、エラーハンドリング、コード生成技術も組み込まれている。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 08:48:04 GMT)
  • LLMを使ったプロセスモデリング。計画作成がLLMでできる以上、実現できることに不思議はないが、Process Modelingのハードルが下がるのであれば面白いと思う。
  • リポジトリはProMoAI/app.py at main · humam-kourani/ProMoAI (github.com)。デモサイトもあるProMoAI · Streamlit

Chatbot Arena

  • Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [49.0]
    人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。 本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。 本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 01:22:38 GMT)
  • Chatbot Arenaの論文、論文化されていなかったことに驚き。なかなか評価の難しいLLM界隈において重要な貢献だと思う。
  • プロジェクトサイトはChat with Open Large Language Models (lmsys.org)

Datasets for Large Language Models 

  • Datasets for Large Language Models: A Comprehensive Survey [37.2]
    この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。 この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。 調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 04:35:51 GMT)
  • LLM向けデータセットのサーベイ。日本語を含むものはあれど、日本語をターゲットに作られたものは少ない。
  • リポジトリはlmmlzn/Awesome-LLMs-Datasets: Summarize existing representative LLMs text datasets. (github.com)

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral

Vision-RWKV

  • Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.2]
    本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。 スパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。 画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
    論文  参考訳(メタデータ)   (Mon, 4 Mar 2024 18:46:20 GMT)
  • RWKVの画像分野への応用。Vision Transformerと比べ性能的には同等、メモリ・速度の効率は大幅に優れているように見える。
  • リポジトリはOpenGVLab/Vision-RWKV: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures (github.com)

Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)

A Survey on Data Selection for Language Models

  • A Survey on Data Selection for Language Models [151.6]
    データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 18:54:35 GMT)
  • データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
  • この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。