2021年10月4日 – arXiv最新論文の紹介

StoryDB: 多言語なストーリーのデータセットとタスク

StoryDB: Broad Multi-language Narrative Dataset [0.3]
StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
論文参考訳（メタデータ） (Wed, 29 Sep 2021 12:59:38 GMT)
- 42言語の物語のストーリー（概略）のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの（マルチラベルな）タグ分類」「Task B: クロスリンガルな設定のTask A（ある言語で学習した結果のゼロショット）」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
- https://wandb.ai/altsoph/projects　が検証結果のよう

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
論文参考訳（メタデータ）参考訳（全文） (Thu, 30 Sep 2021 08:12:21 GMT)
- 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文参考訳（メタデータ） (Tue, 28 Sep 2021 23:01:51 GMT)
- 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA（に近い性能）、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
- リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404