MLLMs are Deeply Affected by Modality Bias [158.6] MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。 本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。 論文参考訳(メタデータ) (Sat, 24 May 2025 11:49:31 GMT)
「Modality bias arises when certain modalities dominate the learning process, while others are underutilized or contribute less effectively」というモダリティバイアスの検証。
「From a model learning perspective, [49] identifies the differing convergence rates of modalities as a core cause of modality bias. The varying levels of difficulty in fitting category labels across different modalities contribute to this disparity.」というのは直観的にもそうだと思いつつ、解消するのは大変そう。「百聞は一見に如かず」とかいうが人間はどうやって対応しているんだろう。