2022年5月30日 – arXiv最新論文の紹介

Inception Transformer [151.9]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (Thu, 26 May 2022 17:18:32 GMT)
- Transfomerは長距離の関係を捉える能力は高いがローカルの情報を捉える能力が低い。Inception TransformerはInception mixerとfrequency ramp structureを導入することでパラメータ効率を高めているとのこと。
  - Inception mixer: 複数のモジュール（高周波成分の抽出を狙ったものと低周波成分を狙ったもの）を並列につなげる構造
  - frequency ramp structure: 4ステージの中で高周波成分と低周波成分のトレードオフ（ローカルな構造を捉えるため下位層は高周波優先など）が可能な構造。
- リポジトリはGitHub – sail-sg/iFormer: iFormer: Inception Transformer

SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 17:02:07 GMT)
- 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
- リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data

日: 2022年5月30日