データセット – ページ 6 – arXiv最新論文の紹介

A diverse Multilingual News Headlines Dataset from around the World

A diverse Multilingual News Headlines Dataset from around the World [57.4]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 12:08:39 GMT)
「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。
リポジトリはfelixludos/babel-briefings · Datasets at Hugging Face　ライセンスはCC BY-NC-SA 4.0と商用利用は禁止されている。

m3P: Multimodal Multilingual neural Machine Translation

m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文参考訳（メタデータ） (Tue, 26 Mar 2024 10:04:24 GMT)
「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
データセットが公開されているのも凄い　CSJianYang/InstrMulti102 · Datasets at Hugging Face

CoIN: Continual Instruction tuNing

CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文参考訳（メタデータ） (Wed, 13 Mar 2024 08:54:31 GMT)
マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

CLIcK: Cultural and Linguistic Intelligence in Korean

CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [19.6]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (Mon, 11 Mar 2024 03:54:33 GMT)
韓国の文化的・言語的理解を評価するデータセット、日本語版が必要そうに思う。
リポジトリはrladmstn1714/CLIcK: CLIcK: Evaluation of Cultural and Linguistic Intelligence in Korean (github.com)

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。質問は7つの言語ファミリーから11の言語で行われます。
論文参考訳（メタデータ） (Fri, 15 Mar 2024 15:08:39 GMT)
MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)＋画像キャプション（GPT-4V）を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

Editing Conceptual Knowledge for Large Language Models

Editing Conceptual Knowledge for Large Language Models [67.8]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文参考訳（メタデータ） (Sun, 10 Mar 2024 16:57:10 GMT)
概念を対象とした知識編集手法ができるか検証した論文。事実の編集よりも対象が大きく、既存手法で一定程度可能ではあるが限界もあるよう。ベンチマークデータが公開されていて「 To maintain the quality of our data, we manually review all the descriptions we gathered, replacing any unclear or ambiguous.」とのこと。。。
リポジトリはEditing Conceptual Knowledge for Large Language Models (zjukg.org)、データはzjunlp/ConceptEdit · Datasets at Hugging Face

Datasets for Large Language Models

Datasets for Large Language Models: A Comprehensive Survey [37.2]
この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
論文参考訳（メタデータ） (Wed, 28 Feb 2024 04:35:51 GMT)
LLM向けデータセットのサーベイ。日本語を含むものはあれど、日本語をターゲットに作られたものは少ない。
リポジトリはlmmlzn/Awesome-LLMs-Datasets: Summarize existing representative LLMs text datasets. (github.com)

A Survey on Data Selection for Language Models

A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (Mon, 26 Feb 2024 18:54:35 GMT)
データ選択（クレンジング含む）に関するサーベイ。40ページ超と分量が多い。
この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。

ANIM-400K

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video [3.3]
Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
論文参考訳（メタデータ） (Wed, 10 Jan 2024 18:32:38 GMT)
アニメーションビデオのデータセット、日本語と英語のデータでautomated dubbingでの活用を想定
リポジトリはDavidMChan/Anim400K: Anim400K: A dataset designed from the ground up for automated dubbing of video (github.com)

Sports-QA

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 02:22:34 GMT)
スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい（実践的な）QAとなっているとのこと。
The data and codes will be released.とのこと。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31