From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents 

  • From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.2]
    MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。 中国一の大学である清華大学で予備的な実験を行う。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 13:22:51 GMT)
  • 「MOOC (Massive Open Online Course)」から「MAIC (Massive AI-empowered Course)」へ、と教育へのAI導入に関する整理と実践例、使い方など非常に参考になる。
  • 「These initial findings suggest that highly personalized classrooms built with new AI-assisted learning technologies can achieve high quality, and student behavior demonstrates the effectiveness of the teaching process.」と有効性が示唆されている。(ただ、清華大学のようにリテラシーが極めて高い学生での検証結果が一般化できるかはやや謎ではある。)

xLAM: A Family of Large Action Models to Empower AI Agent Systems / ToolACE: Winning the Points of LLM Function Calling

  • xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.6]
    AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。 xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 03:22:22 GMT)
  • Salesforce AI Researchによるエージェント動作に適したモデルの提案。データセットの統合・拡張で合成データ関連の手法をうまく活用している。ソースコードはApache-2ライセンス。モデルは公開されているが商用利用不可のCC-BY-NC。性能は「Our experimental results demonstrate that xLAM consistently delivers exceptional performance across multiple agent ability benchmarks, notably securing the 1st position on the Berkeley Function-Calling Leaderboard, outperforming GPT-4, Claude-3, and many other models in terms of tool use.」とのこと。「The insights we learned from training these models highlight the importance of rigorous data processing and the potential of data synthesis in developing capable AI agents.」という記載もあり、合成データの活用について重要性が上がっているように見える。
  • リポジトリはGitHub – SalesforceAIResearch/xLAMxLAM models – a Salesforce Collection (huggingface.co)

Berkeley Function-Calling Leaderboardについては下記論文も発表されている。こちらも合成データを用いるアプローチ

  • ToolACE: Winning the Points of LLM Function Calling [139.1]
    ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。 我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
    論文  参考訳(メタデータ)   (Mon, 02 Sep 2024 03:19:56 GMT)
  • the Berkeley Function-Calling Leaderboardへの「Tool Self-evolution Synthesis (TSS), Multi-Agent Interactive Dialog Generation (MAI), and Dual-Layer Validation Process (DLV).」からなるパイプライン構成(Agenticな)データ合成による対応
  • リポジトリはTeam-ACE (Team-ACE) (huggingface.co)

A Practitioner’s Guide to Continual Multimodal Pretraining 

  • A Practitioner’s Guide to Continual Multimodal Pretraining [83.6]
    マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。 モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。 本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 17:59:01 GMT)
  • 継続的な学習、特にマルチモーダルなモデルに対するものベンチマーク及びガイドラインの提案。ベンチマークはFoMo-in-Flux (Foundation-Models-in-Flux)と呼ばれるデータセットで広範。
  • リポジトリはGitHub – ExplainableML/fomo_in_flux

SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery

  • SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery [55.7]
    Generalized Category Discoveryは、新しいカテゴリーを同時に発見し、既知のカテゴリを正確に分類することを目的としている。 自己超越と対照的な学習に強く依存する伝統的な手法は、細かなカテゴリーを区別する場合にしばしば不足する。 モデルが微妙な違いを認識し、未知のカテゴリを明らかにする能力を高める。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:53:50 GMT)
  • 新たなカテゴリを見つけるための手法として「self-expertise」を提案。Semi-Supervised Kmeansの後、疑似ラベル内でのunsupervised self-expertise、疑似ラベルを用いた supervised self-expertiseでクラスタを生成。
  • リポジトリはGitHub – SarahRastegar/SelEx

SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

  • SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
    大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:30:05 GMT)
  • Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
  • リポジトリはMulti-SWE-bench

Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

  • Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
    本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Sun, 25 Aug 2024 15:17:43 GMT)
  • マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
  • 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。

Symbolic Working Memory Enhances Language Models for Complex Rule Application

  • Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.3]
    大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。 本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。 当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
    論文  参考訳(メタデータ)   (Sat, 24 Aug 2024 19:11:54 GMT)
  • LLMが苦手とするルールを適用していく多段推論に対応するため作業領域を用いる手法の提案。「We implement this working memory to store rules and facts in both natural language and their symbolic forms (i.e., in Prolog), thus supporting precise symbolic reference.」とPrologのような形式を併用するのが特徴的。
    • 人でもこの手の疑似コードを使うことを考えると、他のタスクでも有効かもしれない。
  • リポジトリはGitHub – SiyuanWangw/RuleApplication

Controllable Text Generation for Large Language Models: A Survey 

  • Controllable Text Generation for Large Language Models: A Survey [27.1]
    本稿では,大規模言語モデルにおける制御可能なテキスト生成の最近の進歩を体系的にレビューする。 我々はCTGタスクをコンテンツ制御と制御の2つの主要なタイプに分類する。 現在の研究における重要な課題には、流用率の低減や実用性といった課題に対処する。
    論文  参考訳(メタデータ)   (Thu, 22 Aug 2024 17:59:04 GMT)
  • Controllable Text Generationのサーベイ、LLM全般としても良い資料で広範な内容。サーベイの構造はCTGSurvey/figures/framework.png at main · IAAR-Shanghai/CTGSurvey · GitHub
  • リポジトリはGitHub – IAAR-Shanghai/CTGSurvey

Can Unconfident LLM Annotations Be Used for Confident Conclusions? 

  • Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.2]
    大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。 信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
    論文  参考訳(メタデータ)   (Tue, 27 Aug 2024 17:03:18 GMT)
  • LLMと人間が手分けしてアノテーションをする状況下で、LLMのアノテーション及びLLMの信頼度を使って人間がやるべきアノテーションを選択する手法の提案。「We demonstrate the effectiveness of CONFIDENCE-DRIVEN INFERENCE over baselines in statistical estimation tasks across three CSS settings—text politeness, stance, and bias—reducing the needed number of human annotations by over 25% in each.」とのこと。
  • リポジトリはGitHub – kristinagligoric/confidence-driven-inference

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling 

  • Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2]
    強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 17:32:35 GMT)
  • 合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
  • 「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。