データセット – ページ 14 – arXiv最新論文の紹介

Multilingual Grade School Math (MGSM) ベンチマーク

Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 17:03:34 GMT)
- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い（そして翻訳を介するのがもっとの性能が高いのも…）
- リポジトリはgoogle-research/url-nlp (github.com)

MEDFAIR: 医療画像処理の公平性ベンチマーク

MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 16:30:47 GMT)
- 医療画像解析における公平性ベンチマーク。特定グループで性能差がないなどのベンチマークが可能。
- リポジトリはys-zong/MEDFAIR: MEDFAIR: Benchmarking Fairness for Medical Imaging (github.com)

WikiDes: Wikipediaベースの概要データセット

WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs [66.9]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。データセットは、6987のトピックに関する80K以上の英語サンプルで構成されている。本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文参考訳（メタデータ） (Tue, 27 Sep 2022 01:28:02 GMT)
- Wikipediaの最初の段落とWikidataの説明を関連付けしたデータセット。平均的なドキュメントサイズが小さめで段落をさらに短く説明するようなデータになっている。
- リポジトリはdeclare-lab/WikiDes: A Wikipedia-based summarization dataset (github.com)

TabMWP: Tabular Math Word Problem

Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 08:01:04 GMT)
- 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。
- リポジトリはTabMWP

DRAMA(Driving Risk Assessment Mechanism with A Casting Module) Dataset

DRAMA: Joint Risk Localization and Captioning in Driving [23.1]
本稿では,運転場面における共同リスクローカライゼーションの新たな研究方向と,その自然言語記述としてのリスク説明を提案する。標準ベンチマークの欠如により、我々は大規模データセットDRAMA (Driving Risk Assessment Mechanism with A Casting Module) を収集した。我々のデータセットは、視覚的キャプションの目標を達成するために、関連する重要なオブジェクトによるリスクの駆動に関するビデオおよびオブジェクトレベルの質問に適合する。
論文参考訳（メタデータ） (Thu, 22 Sep 2022 03:53:56 GMT)
- 運転中のビデオとその説明、QAを含むデータセット。17,785シナリオと規模も大きい。「We make this data available to the community for further research.」とあるものの、データ利用にはプロジェクトサイトからメールで問い合わせが必要そう。
- プロジェクトサイトはDRAMA – Honda Research Institute USA (honda-ri.com)

TempoWiC

TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文参考訳（メタデータ） (Fri, 16 Sep 2022 16:54:46 GMT)
- SNSにおける意味の変化も考慮したベンチマークの提案。super GLUEに取り入れられているWiC同様、単語の意味が同じかに注目したものになっている。
- リポジトリはcardiffnlp/TempoWiC (github.com)

SQA(Science Question Answering)、SCIENCEQAベンチマーク

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (Tue, 20 Sep 2022 07:04:24 GMT)
- 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 ＆ chain-of-thought (CoT)で正解率75.17%とのこと。
  - 既に低くないのでは？と思わなくもない。
- プロジェクトサイトはScienceQA

HAPI(History of APIs): 大手企業APIの時系列データセット

HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文参考訳（メタデータ） (Sun, 18 Sep 2022 01:52:16 GMT)
- 様々な商用APIの予測結果をまとめたデータセット。2020年～2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
- API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…

WildQA

WildQA: In-the-Wild Video Question Answering [22.1]
本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 13:54:07 GMT)
- 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
- プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

SPACE-3: タスク指向の会話理解と生成

SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。幅広いダウンストリームダイアログタスクを効果的に微調整できる。その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 14:17:57 GMT)
- 大規模（AnPreDial ラベル付き3M、UnPreDial ラベル無し19M）な会話コーパスを用いたsemi-supervised pre-trained conversation modelの提案。バックボーンのモデルアーキテクチャはUniLMとのこと。
- リポジトリはDAMO-ConvAI/space-3 at main · AlibabaResearch/DAMO-ConvAI (github.com)

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31