OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル(リポジトリ:allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス)で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル(リポジトリ:mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス)、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

  • OLMoE: Open Mixture-of-Experts Language Models [180.2]
    OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 17:08:20 GMT)
  • Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
    トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。 我々は「反射チューニング」と呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 05:13:47 GMT)
  • Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
    最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。 この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 20:23:21 GMT)
  • リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

Image Segmentation in Foundation Model Era: A Survey 

  • Image Segmentation in Foundation Model Era: A Survey [99.2]
    イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。 本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。 現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
    論文  参考訳(メタデータ)   (Fri, 23 Aug 2024 10:07:59 GMT)
  • 画像におけるセグメンテーションのサーベイ
  • 「Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer.」、「With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e g , CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e g , SAM).
    」とのことでこの分野も激変している。

From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents 

  • From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.2]
    MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。 中国一の大学である清華大学で予備的な実験を行う。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 13:22:51 GMT)
  • 「MOOC (Massive Open Online Course)」から「MAIC (Massive AI-empowered Course)」へ、と教育へのAI導入に関する整理と実践例、使い方など非常に参考になる。
  • 「These initial findings suggest that highly personalized classrooms built with new AI-assisted learning technologies can achieve high quality, and student behavior demonstrates the effectiveness of the teaching process.」と有効性が示唆されている。(ただ、清華大学のようにリテラシーが極めて高い学生での検証結果が一般化できるかはやや謎ではある。)

xLAM: A Family of Large Action Models to Empower AI Agent Systems / ToolACE: Winning the Points of LLM Function Calling

  • xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.6]
    AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。 xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 03:22:22 GMT)
  • Salesforce AI Researchによるエージェント動作に適したモデルの提案。データセットの統合・拡張で合成データ関連の手法をうまく活用している。ソースコードはApache-2ライセンス。モデルは公開されているが商用利用不可のCC-BY-NC。性能は「Our experimental results demonstrate that xLAM consistently delivers exceptional performance across multiple agent ability benchmarks, notably securing the 1st position on the Berkeley Function-Calling Leaderboard, outperforming GPT-4, Claude-3, and many other models in terms of tool use.」とのこと。「The insights we learned from training these models highlight the importance of rigorous data processing and the potential of data synthesis in developing capable AI agents.」という記載もあり、合成データの活用について重要性が上がっているように見える。
  • リポジトリはGitHub – SalesforceAIResearch/xLAMxLAM models – a Salesforce Collection (huggingface.co)

Berkeley Function-Calling Leaderboardについては下記論文も発表されている。こちらも合成データを用いるアプローチ

  • ToolACE: Winning the Points of LLM Function Calling [139.1]
    ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。 我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
    論文  参考訳(メタデータ)   (Mon, 02 Sep 2024 03:19:56 GMT)
  • the Berkeley Function-Calling Leaderboardへの「Tool Self-evolution Synthesis (TSS), Multi-Agent Interactive Dialog Generation (MAI), and Dual-Layer Validation Process (DLV).」からなるパイプライン構成(Agenticな)データ合成による対応
  • リポジトリはTeam-ACE (Team-ACE) (huggingface.co)