Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

  • Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
    視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 17:59:48 GMT)
  • マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
  • リポジトリはCantor (ggg0919.github.io)

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

AI Competitions and Benchmarks: Dataset Development

  • AI Competitions and Benchmarks: Dataset Development [42.2]
    本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。 データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。 次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
    論文  参考訳(メタデータ)   (Mon, 15 Apr 2024 12:01:42 GMT)
  • データセット作成のための実践的な解説
  • このような視点の論文はあまりなく、とても参考になる。

TinyChart

  • TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.6]
    本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 14:23:24 GMT)
  • チャート理解のためのMLLM。3Bと小型。学習時に「 Program-of-Thoughts learning method that trains the model to generate Python programs to answer questions」という工夫を行っている。
  • リポジトリはmPLUG-DocOwl/TinyChart at main · X-PLUG/mPLUG-DocOwl · GitHub