コンテンツへスキップ
- ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 22:16:40 GMT)
- PaliGemmaのチャート対応バージョン
- リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404
- Eliminating Position Bias of Language Models: A Mechanistic Approach [119.3]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。 因果的注意は一般的に、モデルが遠方のコンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは近くのものを好む。 本研究では,異なる入力セグメント順序(例えばLM-as-a-judgeのオプション,QAの検索文書)によって生じる位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 09:06:57 GMT)
- 位置バイアスを除去する手法の提案。アテンションスコアの類似性を使って位置情報を割り当てなおすアプローチのよう(?)、トレーニングフリーだが計算コストは高めに思える。
- 位置バイアスは「Further, our empirical study on object detection reveals that position bias is also present in vision-language models (VLMs).」とMLLMでも影響ありとのこと。
- リポジトリはGitHub – wzq016/PINE: Offcial Repo of Paper “Eliminating Position Bias of Language Models: A Mechanistic Approach””
- WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (Sun, 16 Jun 2024 20:53:25 GMT)
- Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
- プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision
- An Introduction to Vision-Language Modeling [128.6]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (Mon, 27 May 2024 15:01:23 GMT)
- VLMのサーベイ、であり、教科書的な内容
- PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。 我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。 複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (Mon, 29 May 2023 18:58:38 GMT)
- PaLI: Pathways Language and Image – arXiv最新論文の紹介 (devneko.jp)の新バージョン(?)、Vision-Languageなタスクで優れた性能を達成
- モデルアーキテクチャはViT 22B + UL2 32B?
- Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。 本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 18:54:59 GMT)- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。
- Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。 本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
論文 参考訳(メタデータ) (Mon, 28 Jun 2021 04:42:48 GMT)- マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERやSOHOを上回る性能を出したとのこと。