CLIP-It!: 言葉でのクエリを用いたビデオ要約

  • CLIP-It! Language-Guided Video Summarization [96.7]
    この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。 本モデルは教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 1 Jul 2021 17:59:27 GMT)
    • ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。

機械学習・MLOpsに関するアンチパターン

  • Using AntiPatterns to avoid MLOps Mistakes [14.7]
    アンチパターンは、欠陥のあるプラクティスや方法論の情報を提供する。 いくつかのアンチパターンは技術的な誤りによるものであり、他のパターンは周囲の文脈について十分な知識を持っていないためである。 アンチパターンのカタログ化に加えて、ソリューション、ベストプラクティス、MLOpsの成熟に向けた今後の方向性について説明します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 30 Jun 2021 20:00:52 GMT)
    • アンチパターンが9つ紹介されている。実用上重要・実務で見かけるものも多いなーと思うとともに、アカデミックな研究で見られるパターンもある。
    • 設計に関わるアンチパターン
      • Data Leakage: 不適切データの使用、不適切なデータ拡張
      • Tuning-under-the-Carpet: ハイパーパラメータの不適切な管理
    • 性能評価に関わるアンチパターン
      • PEST(Perceived Empirical SuperioriTy): 実証的な検証が不十分
      • Bad Credit Assignment: パフォーマンス向上の理由が不明確
      • Grade-Your-own-Exam: モデル開発中の最終テスト用データへのアクセス
    • デプロイ・メンテナンスに関わるアンチパターン
      • Act Now, Reflect Never: モデルのモニタリングをせずそのまま使い続ける
      • Set & Forget: 環境変化(concept driftのようなもの)への対応をしない
      • Communicate with Ambivalence: モデルの不確実性(uncertainty)を把握・共有しない
      • Data Crisis as a Service: データ抽出や処理の手順を記録・管理しない

AutoFormer: Transformerのアーキテクチャサーチ

  • AutoFormer: Searching Transformers for Visual Recognition [97.6]
    本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。 AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。 我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のtop-1精度を達成したことを示す。
    論文  参考訳(メタデータ)   (Thu, 1 Jul 2021 17:59:30 GMT)
    • 画像を対象としたTransformerで効率的なアーキテクチャサーチを行うという論文。少ないパラメータで優れた性能を出せる。
    • コード等はhttps://github.com/microsoft/automlから参照可能なるとのこと。