データセット – ページ 10 – arXiv最新論文の紹介

TheoremQA

TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (Tue, 23 May 2023 22:35:20 GMT)
定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset

Multi-lingual and Multi-cultural Figurative Language Understanding

Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (Thu, 25 May 2023 15:30:31 GMT)
多言語（多文化）な比喩表現（figurative language）のデータセット。
面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA

XTREME-UP

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (Wed, 24 May 2023 06:09:28 GMT)
非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
リポジトリはGitHub – google-research/xtreme-up

DLUE: Document Language Understanding Evaluation

DLUE: Benchmarking Document Language Understanding [32.6]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。新しい評価フレームワークでは、新しいタスクスイートである DLUE の Document Language Understanding Evaluation を提案する。
論文参考訳（メタデータ） (Tue, 16 May 2023 15:16:24 GMT)
文書読解タスクのベンチマーク。document classiﬁcation、document structure analysis、document information extraction、document transcriptionが対象。
プロジェクトサイトはDLUE – Coming Soon (dluebenchmark.com)

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.1]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (Thu, 11 May 2023 03:21:56 GMT)
地理的情報を含めた自然言語処理ベンチマーク、Geo-POI Searching、 GeoSequence Tagging、Geo-Text Classiﬁcationがタスク。実用性が高そうなタスクという印象。
リポジトリは地理语义理解能力评测基准 · 数据集 (modelscope.cn)

Huatuo-26M

Huatuo-26M, a Large-scale Chinese Medical QA Dataset [29.1]
本稿では,2600万対のQAペアを用いた医療質問応答(QA)データセットをリリースする。検索と生成の両方の観点から、データセットの既存のアプローチをベンチマークします。このデータセットは、医学研究に貢献するだけでなく、患者と臨床医の両方にも役立ちます。
論文参考訳（メタデータ） (Tue, 2 May 2023 15:33:01 GMT)
2600万QAペアと非常に大規模な医療ドメインのQAデータセット、言語は中国語
リポジトリはGitHub – FreedomIntelligence/Huatuo-26M: The Largest-scale Chinese Medical QA Dataset： with 26,000,000 question answer pairs.

Multimodal C4

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。我々はMultimodal C4 (mmc4) をリリースした。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 06:17:46 GMT)
非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

SportsMOT

SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes [44.5]
本稿では,emphSportsMOTと呼ばれる多種多様なスポーツシーンにおける大規模多目的追跡データセットを提案する。 240のビデオシーケンス、150Kフレーム以上、およびバスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから収集された1.6M以上のバウンディングボックスで構成されている。本稿では,emphMixSortと呼ばれる新しい多対象追跡フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 12:23:36 GMT)
スポーツを対象としたマルチオブジェクトトラッキングデータセット
動きが激しく、見た目での区別がつきそうでつかないという難しそうなデータだという印象
SportsMOT Dataset – DeeperAction

MoocRadar

MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs [39.2]
MoocRadarは,2,513のエクササイズ質問,5,600の知識概念,1200万以上の行動記録からなる,きめ細かい多面的知識リポジトリである。具体的には,詳細な概念や認知ラベルの高品質かつ包括的アノテーションを保証する枠組みを提案する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 03:36:40 GMT)
MOOCに関連するデータセット。14,226人の学生のデータでもあり、この量が公開されているのはびっくり。
リポジトリはGitHub – THU-KEG/MOOC-Radar: The data and source code for the paper “MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs”

GOAL: knowledgeGrounded videO cAptioning benchmark for reaLtime soccer commentary generation

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [42.0]
我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
論文参考訳（メタデータ） (Sun, 26 Mar 2023 08:43:36 GMT)
かなり無理やり感のある略称のベンチマークデータセット。規模が大きく面白いものではあるが、略称が（以下略）
KGVC: knowledgegrounded video captioningタスクとしてかなり難しいデータであるとのこと（そもそもこのタスクは相当困難な気はする）
Our dataset will be publicly available after reviewらしい

2026年1月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31