Causal Evaluation of Language Models 

  • Causal Evaluation of Language Models [33.3]
    言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 16:43:21 GMT)
  • LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
  • プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)

AI Competitions and Benchmarks: Dataset Development

  • AI Competitions and Benchmarks: Dataset Development [42.2]
    本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。 データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。 次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
    論文  参考訳(メタデータ)   (Mon, 15 Apr 2024 12:01:42 GMT)
  • データセット作成のための実践的な解説
  • このような視点の論文はあまりなく、とても参考になる。

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

  • Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
    CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
    論文  参考訳(メタデータ)   (Tue, 16 Apr 2024 14:20:55 GMT)
  • 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
  • リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

AUG: Aerial Image Urban Scene Graph Generation データセット

  • AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.1]
    本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。 AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。 複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 14:29:30 GMT)
  • aerial image urban scene graph generation (AUG) datasetとモデルの提案。空撮画像から画像からの物体及び複雑な関係の理解を行う必要があり、とても難しそうなタスク。
  • リポジトリはLPG-SGG: locality-preserving graph convolutional network (LPG) (gitee.com)

A diverse Multilingual News Headlines Dataset from around the World

  • A diverse Multilingual News Headlines Dataset from around the World [57.4]
    Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。 言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 12:08:39 GMT)
  • 「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。
  • リポジトリはfelixludos/babel-briefings · Datasets at Hugging Face ライセンスはCC BY-NC-SA 4.0と商用利用は禁止されている。

m3P: Multimodal Multilingual neural Machine Translation

  • m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
    マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 10:04:24 GMT)
  • 「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
  • データセットが公開されているのも凄い CSJianYang/InstrMulti102 · Datasets at Hugging Face

CoIN: Continual Instruction tuNing

  • CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
    逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。 従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
    論文  参考訳(メタデータ)   (Wed, 13 Mar 2024 08:54:31 GMT)
  • マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
  • リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

CLIcK: Cultural and Linguistic Intelligence in Korean

  • CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [19.6]
    韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
    論文  参考訳(メタデータ)   (Mon, 11 Mar 2024 03:54:33 GMT)
  • 韓国の文化的・言語的理解を評価するデータセット、日本語版が必要そうに思う。
  • リポジトリはrladmstn1714/CLIcK: CLIcK: Evaluation of Cultural and Linguistic Intelligence in Korean (github.com)

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

  • EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
    EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
    論文  参考訳(メタデータ)   (Fri, 15 Mar 2024 15:08:39 GMT)
  • MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
  • 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
  • リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

Editing Conceptual Knowledge for Large Language Models

  • Editing Conceptual Knowledge for Large Language Models [67.8]
    本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。 本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。 実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 16:57:10 GMT)
  • 概念を対象とした知識編集手法ができるか検証した論文。事実の編集よりも対象が大きく、既存手法で一定程度可能ではあるが限界もあるよう。ベンチマークデータが公開されていて「 To maintain the quality of our data, we manually review all the descriptions we gathered, replacing any unclear or ambiguous.」とのこと。。。
  • リポジトリはEditing Conceptual Knowledge for Large Language Models (zjukg.org)、データはzjunlp/ConceptEdit · Datasets at Hugging Face