コンテンツへスキップ
- VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文 参考訳(メタデータ) (Tue, 28 Sep 2021 23:01:51 GMT)
- RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
論文 参考訳(メタデータ) (Tue, 28 Sep 2021 22:35:31 GMT)- 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
- ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
- Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
- NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
- OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
- Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
- Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
- Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
- TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
- Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
- TweetEval Hate (TEH): ヘイトスピーチの検出タスク
- Twitter complaints (TC): tweetに苦情を含むかを判別
- プロジェクトサイトはhttps://raft.elicit.org/
- OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 28 Sep 2021 15:15:57 GMT)
- Paradigm Shift in Natural Language Processing [66.6]
ディープラーニングの時代、ほとんどのNLPタスクのモデリングは、いくつかの主流パラダイムに収束した。 近年, パラダイムシフトが増加傾向にあり, 一つのNLPタスクを別のタスクとして再構成することで解決している。 これらのパラダイムのいくつかは、多数のNLPタスクを統合する大きな可能性を示しており、多様なタスクを処理する単一のモデルを構築することができる。
論文 参考訳(メタデータ) (Sun, 26 Sep 2021 11:55:23 GMT)
- Unsolved Problems in ML Safety [45.8]
研究の準備ができている4つの問題、すなわち、ハザードを克服し、ハザードを特定し、MLシステムを操り、MLシステムの扱い方に対するリスクを低減する。 それぞれの問題のモチベーションを明確にし、具体的な研究指針を提供する。
論文 参考訳(メタデータ) (Tue, 28 Sep 2021 17:59:36 GMT)- 機械学習利用時の問題を「Robustness: 敵対攻撃、異常な状況、レアなイベントに対する頑健性」「Monitoring: 悪意のある利用の検知、予測の監視、予期せぬ動きの検出」「Alignment:正しい (人間的な)目的の設定と安全な最適化」「External safety: サイバー攻撃への対策などMLシステム利用時のリスク低減」に分けて整理した論文。Appendix部分を含めてとても良い。
- PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 27 Sep 2021 17:59:39 GMT)
- FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (Mon, 27 Sep 2021 00:57:30 GMT)
- XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (Sun, 26 Sep 2021 11:46:20 GMT)- 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。
- AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
論文 参考訳(メタデータ) (Fri, 24 Sep 2021 03:49:38 GMT)- Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
- 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
- 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。
- CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。 総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (Fri, 24 Sep 2021 08:07:29 GMT)- 「画像中の参照領域を特定の色で塗りつぶす」+「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現(論文の図を見るのが分かりやすい)。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
- データとコードが公開されるとのことで詳細はそれを確認したい。