General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

  • mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.1]
    本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。 同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 11:09:00 GMT)
  • 「Multimodel Large Language Models(MLLMs) have achieved promising OCRfree Document Understanding performance by increasing the supported resolution of document images.」から始まる論文で、High-resolution DocCompressorモジュールによって処理を簡略化・高速化とのこと。最初の主張には同意できる部分とできない部分があるが、Document UnderstandingタスクにおいてMLLMが強力なのは確か。
  • リポジトリはGitHub – X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル(リポジトリ:allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス)で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル(リポジトリ:mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス)、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

  • OLMoE: Open Mixture-of-Experts Language Models [180.2]
    OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 17:08:20 GMT)
  • Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
    トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。 我々は「反射チューニング」と呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 05:13:47 GMT)
  • Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
    最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。 この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 20:23:21 GMT)
  • リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

Image Segmentation in Foundation Model Era: A Survey 

  • Image Segmentation in Foundation Model Era: A Survey [99.2]
    イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。 本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。 現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
    論文  参考訳(メタデータ)   (Fri, 23 Aug 2024 10:07:59 GMT)
  • 画像におけるセグメンテーションのサーベイ
  • 「Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer.」、「With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e g , CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e g , SAM).
    」とのことでこの分野も激変している。

From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents 

  • From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.2]
    MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。 中国一の大学である清華大学で予備的な実験を行う。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 13:22:51 GMT)
  • 「MOOC (Massive Open Online Course)」から「MAIC (Massive AI-empowered Course)」へ、と教育へのAI導入に関する整理と実践例、使い方など非常に参考になる。
  • 「These initial findings suggest that highly personalized classrooms built with new AI-assisted learning technologies can achieve high quality, and student behavior demonstrates the effectiveness of the teaching process.」と有効性が示唆されている。(ただ、清華大学のようにリテラシーが極めて高い学生での検証結果が一般化できるかはやや謎ではある。)

xLAM: A Family of Large Action Models to Empower AI Agent Systems / ToolACE: Winning the Points of LLM Function Calling

  • xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.6]
    AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。 xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 03:22:22 GMT)
  • Salesforce AI Researchによるエージェント動作に適したモデルの提案。データセットの統合・拡張で合成データ関連の手法をうまく活用している。ソースコードはApache-2ライセンス。モデルは公開されているが商用利用不可のCC-BY-NC。性能は「Our experimental results demonstrate that xLAM consistently delivers exceptional performance across multiple agent ability benchmarks, notably securing the 1st position on the Berkeley Function-Calling Leaderboard, outperforming GPT-4, Claude-3, and many other models in terms of tool use.」とのこと。「The insights we learned from training these models highlight the importance of rigorous data processing and the potential of data synthesis in developing capable AI agents.」という記載もあり、合成データの活用について重要性が上がっているように見える。
  • リポジトリはGitHub – SalesforceAIResearch/xLAMxLAM models – a Salesforce Collection (huggingface.co)

Berkeley Function-Calling Leaderboardについては下記論文も発表されている。こちらも合成データを用いるアプローチ

  • ToolACE: Winning the Points of LLM Function Calling [139.1]
    ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。 我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
    論文  参考訳(メタデータ)   (Mon, 02 Sep 2024 03:19:56 GMT)
  • the Berkeley Function-Calling Leaderboardへの「Tool Self-evolution Synthesis (TSS), Multi-Agent Interactive Dialog Generation (MAI), and Dual-Layer Validation Process (DLV).」からなるパイプライン構成(Agenticな)データ合成による対応
  • リポジトリはTeam-ACE (Team-ACE) (huggingface.co)

A Practitioner’s Guide to Continual Multimodal Pretraining 

  • A Practitioner’s Guide to Continual Multimodal Pretraining [83.6]
    マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。 モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。 本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 17:59:01 GMT)
  • 継続的な学習、特にマルチモーダルなモデルに対するものベンチマーク及びガイドラインの提案。ベンチマークはFoMo-in-Flux (Foundation-Models-in-Flux)と呼ばれるデータセットで広範。
  • リポジトリはGitHub – ExplainableML/fomo_in_flux

SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery

  • SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery [55.7]
    Generalized Category Discoveryは、新しいカテゴリーを同時に発見し、既知のカテゴリを正確に分類することを目的としている。 自己超越と対照的な学習に強く依存する伝統的な手法は、細かなカテゴリーを区別する場合にしばしば不足する。 モデルが微妙な違いを認識し、未知のカテゴリを明らかにする能力を高める。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:53:50 GMT)
  • 新たなカテゴリを見つけるための手法として「self-expertise」を提案。Semi-Supervised Kmeansの後、疑似ラベル内でのunsupervised self-expertise、疑似ラベルを用いた supervised self-expertiseでクラスタを生成。
  • リポジトリはGitHub – SarahRastegar/SelEx

SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

  • SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
    大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:30:05 GMT)
  • Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
  • リポジトリはMulti-SWE-bench

Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

  • Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
    本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Sun, 25 Aug 2024 15:17:43 GMT)
  • マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
  • 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。