コンテンツへスキップ
- RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
論文 参考訳(メタデータ) (Tue, 28 Sep 2021 22:35:31 GMT)- 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
- ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
- Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
- NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
- OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
- Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
- Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
- Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
- TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
- Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
- TweetEval Hate (TEH): ヘイトスピーチの検出タスク
- Twitter complaints (TC): tweetに苦情を含むかを判別
- プロジェクトサイトはhttps://raft.elicit.org/