CoIN: Continual Instruction tuNing

  • CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
    逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。 従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
    論文  参考訳(メタデータ)   (Wed, 13 Mar 2024 08:54:31 GMT)
  • マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
  • リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

CLIcK: Cultural and Linguistic Intelligence in Korean

  • CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [19.6]
    韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
    論文  参考訳(メタデータ)   (Mon, 11 Mar 2024 03:54:33 GMT)
  • 韓国の文化的・言語的理解を評価するデータセット、日本語版が必要そうに思う。
  • リポジトリはrladmstn1714/CLIcK: CLIcK: Evaluation of Cultural and Linguistic Intelligence in Korean (github.com)

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

  • EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
    EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
    論文  参考訳(メタデータ)   (Fri, 15 Mar 2024 15:08:39 GMT)
  • MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
  • 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
  • リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

Editing Conceptual Knowledge for Large Language Models

  • Editing Conceptual Knowledge for Large Language Models [67.8]
    本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。 本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。 実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 16:57:10 GMT)
  • 概念を対象とした知識編集手法ができるか検証した論文。事実の編集よりも対象が大きく、既存手法で一定程度可能ではあるが限界もあるよう。ベンチマークデータが公開されていて「 To maintain the quality of our data, we manually review all the descriptions we gathered, replacing any unclear or ambiguous.」とのこと。。。
  • リポジトリはEditing Conceptual Knowledge for Large Language Models (zjukg.org)、データはzjunlp/ConceptEdit · Datasets at Hugging Face

Datasets for Large Language Models 

  • Datasets for Large Language Models: A Comprehensive Survey [37.2]
    この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。 この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。 調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 04:35:51 GMT)
  • LLM向けデータセットのサーベイ。日本語を含むものはあれど、日本語をターゲットに作られたものは少ない。
  • リポジトリはlmmlzn/Awesome-LLMs-Datasets: Summarize existing representative LLMs text datasets. (github.com)

A Survey on Data Selection for Language Models

  • A Survey on Data Selection for Language Models [151.6]
    データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 18:54:35 GMT)
  • データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
  • この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。

ANIM-400K

Sports-QA

  • Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
    スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 02:22:34 GMT)
  • スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい(実践的な)QAとなっているとのこと。
  • The data and codes will be released.とのこと。

UniHuman

  • UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
    実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 05:00:30 GMT)
  • 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

The Earth is Flat? Unveiling Factual Errors in Large Language Models

  • The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
    ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。 それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 14:02:27 GMT)
  • WIkidataをベースに 3種類(Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問))のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
  • 「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い(が、この評価を解釈するのは難しそう…)、コード等公開予定とのこと。