EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

  • EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
    EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
    論文  参考訳(メタデータ)   (Fri, 15 Mar 2024 15:08:39 GMT)
  • MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
  • 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
  • リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

A Survey of Graph Neural Networks in Real world: Imbalance, Noise, Privacy and OOD Challenges

  • A Survey of Graph Neural Networks in Real world: Imbalance, Noise, Privacy and OOD Challenges [75.4]
    本稿では,既存のグラフニューラルネットワーク(GNN)を体系的にレビューする。 まず、既存のGNNが直面している4つの重要な課題を強調し、現実のGNNモデルを探究する道を開く。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 13:10:37 GMT)
  • GNN活用のサーベイ。imbalance, noise, privacy, OODを課題の軸として整理されている。内容は良いが、不思議な整理軸だなと思わなくもない。

Knowledge Conflictのサーベイ

  • Knowledge Conflicts for LLMs: A Survey [20.5]
    調査では、コンテキストメモリ、コンテキスト間、メモリ内コンフリクトの3つのカテゴリに焦点が当てられている。 これらの対立は、大規模言語モデルの信頼性と性能に大きな影響を及ぼす可能性がある。
    論文  参考訳(メタデータ)   (Wed, 13 Mar 2024 08:02:23 GMT)
  •  context-memory conflict, inter-context conflict, intra-memory conflictといったKnowledge Conflictsのサーベイ
  • サーベイはあまり見ないが、応用面で重要なもの。