データセット – ページ 2 – arXiv最新論文の紹介

A Survey on Data Selection for Language Models

A Survey on Data Selection for Language Models [151.6]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (Mon, 26 Feb 2024 18:54:35 GMT)
データ選択（クレンジング含む）に関するサーベイ。40ページ超と分量が多い。
この処理が重要であることはよく知られているが、あまり発表されることがない。非常に貴重な資料だと思う。

ANIM-400K

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video [3.3]
Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
論文参考訳（メタデータ） (Wed, 10 Jan 2024 18:32:38 GMT)
アニメーションビデオのデータセット、日本語と英語のデータでautomated dubbingでの活用を想定
リポジトリはDavidMChan/Anim400K: Anim400K: A dataset designed from the ground up for automated dubbing of video (github.com)

Sports-QA

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 02:22:34 GMT)
スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい（実践的な）QAとなっているとのこと。
The data and codes will be released.とのこと。

UniHuman

UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文参考訳（メタデータ） (Fri, 22 Dec 2023 05:00:30 GMT)
人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

The Earth is Flat? Unveiling Factual Errors in Large Language Models

The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 14:02:27 GMT)
WIkidataをベースに 3種類（Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問)）のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い（が、この評価を解釈するのは難しそう…）、コード等公開予定とのこと。

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。また、解決を保障する科学的、技術的課題も検討している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 10:46:53 GMT)
自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

Ego-Exo4D

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.5]
多様な大規模マルチモーダルビデオデータセットとベンチマークチャレンジであるEgo-Exo4Dを提案する。Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。世界の13都市から800人以上の参加者が131の異なる自然シーンでこれらの活動を行った。
論文参考訳（メタデータ） (Thu, 30 Nov 2023 05:21:07 GMT)
マルチモーダル認識のための基礎データセットの提案、1400時間超と大規模
プロジェクトサイトはEgo-Exo4D (ego-exo4d-data.org)

INSTRUSUM

Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [136.2]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (Wed, 15 Nov 2023 18:25:26 GMT)
制御されたテキスト要約のベンチマーク。GPT-4であれば可能なのかと思うところだが「We found that several LLMs have already shown promising performance in generating ins-controllable summaries.」であるものの「However, they lack robust holistic capabilities for this task since they still make a considerable amount of errors in their summaries and they can not reliability evaluate the different candidate summaries for the same data example」と難しいよう。（もとから簡単なタスクではないではないものの）LLMであれば対応可能と言い切れないのは興味深い結果。
リポジトリはGitHub – yale-nlp/InstruSum

VidChapters-7M

VidChapters-7M: Video Chapters at Scale [110.2]
VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。 VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。 VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
論文参考訳（メタデータ） (Mon, 25 Sep 2023 08:38:11 GMT)
ビデオチャプタ生成を対象としたデータセット
プロジェクトサイトはVidChapters-7M: Video Chapters at Scale (antoyang.github.io)

Fin-Fact

Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
論文参考訳（メタデータ） (Fri, 15 Sep 2023 22:24:00 GMT)
金融分野のファクトチェッキング用データセット＆ベンチマーク
リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

2024年5月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31