X-Align++ 

  • X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation [44.6]
    X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
    論文  参考訳(メタデータ)   (Tue, 6 Jun 2023 15:52:55 GMT)
  • カメラとLiDARデータの融合(ゆえにクロスモーダル)によるBird’s-eye-viewセグメンテーション手法の提案、nuScenesでのSoTAを主張。

M3Exam 

  • M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
    M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。 我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 13:21:29 GMT)
  • マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
  • リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”