コンテンツへスキップ		
		
		
	
		
		
			
			
	
	
	
	
		
- StoryDB: Broad Multi-language Narrative Dataset [0.3]
 StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
 論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)- 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
- https://wandb.ai/altsoph/projects が検証結果のよう
 
 
	
	
	
	
	
		
- CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
 対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。 これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
 論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 30 Sep 2021 08:12:21 GMT)- 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。
 
 
	
	
	
	
	
		
- VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
 我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
 論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 23:01:51 GMT)
 
	
	
	
	
	
		
- RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
 RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
 論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)- 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。- ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
- Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
- NeurIPS impact statement risks (NIS):  論文が有害なアプリケーションに言及しているか
- OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
- Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
- Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
- Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
- TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
- Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
- TweetEval Hate (TEH): ヘイトスピーチの検出タスク
- Twitter complaints (TC): tweetに苦情を含むかを判別
 
- プロジェクトサイトはhttps://raft.elicit.org/
 
 
	
	
	
	
	
		
- OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
 より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
 論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 28 Sep 2021 15:15:57 GMT)
 
	
	
	
	
	
		
- Paradigm Shift in Natural Language Processing [66.6]
 ディープラーニングの時代、ほとんどのNLPタスクのモデリングは、いくつかの主流パラダイムに収束した。 近年, パラダイムシフトが増加傾向にあり, 一つのNLPタスクを別のタスクとして再構成することで解決している。 これらのパラダイムのいくつかは、多数のNLPタスクを統合する大きな可能性を示しており、多様なタスクを処理する単一のモデルを構築することができる。
 論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:55:23 GMT)
 
	
	
	
	
	
		
- Unsolved Problems in ML Safety [45.8]
 研究の準備ができている4つの問題、すなわち、ハザードを克服し、ハザードを特定し、MLシステムを操り、MLシステムの扱い方に対するリスクを低減する。 それぞれの問題のモチベーションを明確にし、具体的な研究指針を提供する。
 論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 17:59:36 GMT)- 機械学習利用時の問題を「Robustness: 敵対攻撃、異常な状況、レアなイベントに対する頑健性」「Monitoring: 悪意のある利用の検知、予測の監視、予期せぬ動きの検出」「Alignment:正しい (人間的な)目的の設定と安全な最適化」「External safety: サイバー攻撃への対策などMLシステム利用時のリスク低減」に分けて整理した論文。Appendix部分を含めてとても良い。
 
 
	
	
	
	
	
		
- PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
 本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
 論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 27 Sep 2021 17:59:39 GMT)
 
	
	
	
	
	
		
- FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
 本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
 論文  参考訳(メタデータ)   (Mon, 27 Sep 2021 00:57:30 GMT)
 
	
	
	
	
	
		
- XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
 言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
 論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:46:20 GMT)- 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。