コンテンツへスキップ
- EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
論文 参考訳(メタデータ) (Fri, 15 Mar 2024 15:08:39 GMT)
- MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
- 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
- リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark
- Editing Conceptual Knowledge for Large Language Models [67.8]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。 本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。 実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (Sun, 10 Mar 2024 16:57:10 GMT)
- 概念を対象とした知識編集手法ができるか検証した論文。事実の編集よりも対象が大きく、既存手法で一定程度可能ではあるが限界もあるよう。ベンチマークデータが公開されていて「 To maintain the quality of our data, we manually review all the descriptions we gathered, replacing any unclear or ambiguous.」とのこと。。。
- リポジトリはEditing Conceptual Knowledge for Large Language Models (zjukg.org)、データはzjunlp/ConceptEdit · Datasets at Hugging Face
- A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。 ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。 広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 18:54:35 GMT)
- データ選択(クレンジング含む)に関するサーベイ。40ページ超と分量が多い。
- この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。
- Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (Wed, 3 Jan 2024 02:22:34 GMT)
- スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい(実践的な)QAとなっているとのこと。
- The data and codes will be released.とのこと。
- UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (Fri, 22 Dec 2023 05:00:30 GMT)
- 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。
- The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。 それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (Mon, 1 Jan 2024 14:02:27 GMT)
- WIkidataをベースに 3種類(Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問))のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
- 「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い(が、この評価を解釈するのは難しそう…)、コード等公開予定とのこと。