コンテンツへスキップ
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.6]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 14:23:24 GMT)
- チャート理解のためのMLLM。3Bと小型。学習時に「 Program-of-Thoughts learning method that trains the model to generate Python programs to answer questions」という工夫を行っている。
- リポジトリはmPLUG-DocOwl/TinyChart at main · X-PLUG/mPLUG-DocOwl · GitHub