視線情報を併用したNLPのサーベイ

  • A Survey on Using Gaze Behaviour for Natural Language Processing [35.8]
    本稿では,自然言語処理(NLP)における異なるタスクをテスト時に記録することなく,目視行動を用いて解く方法について論じる。我々は複数の言語で異なる視線追跡コーパスについて言及し、これは現在利用可能であり、自然言語処理で使用することができる。 本稿は、ドメイン — 教育 — における応用と、複雑な単語識別と自動エッセイグレーディングの課題を解決する上で、視線行動の学習がいかに役立つかを議論することによって、論文を締めくくる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 3 Jan 2022 12:58:53 GMT)

空中監視タスクのサーベイ

  • The State of Aerial Surveillance: A Survey [62.2]
    本稿では、コンピュータビジョンとパターン認識の観点から、空中監視タスクの概要を概観する。 主な対象は人間であり、単体または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される。
    論文  参考訳(メタデータ)   (Sun, 9 Jan 2022 20:13:27 GMT)
    • ドローン等を用いて空中から人を監視するタスクのサーベイ。対象のタスクはdetection, tracking, identification, action recognition。データセットの概要やモデル、難しさ(課題)など非常に参考になる。
      • 未解決の課題は画像処理分野一般に言えることだと思うが、撮像時の解像度の低さや環境ノイズの多さのカバーやOnboard computingの重要性などはこの分野で特徴的なのかなと思った。

「Related Work」の自動生成に関するサーベイ

  • Automatic Related Work Generation: A Meta Study [5.0]
    自然言語処理では、通常「関連作業」という節で文献レビューが行われる。 自動作業生成の課題は, 「関連作業」 セクションを自動生成することである。 本稿では,問題定式化,データセット収集,方法論的アプローチ,性能評価,今後の展望の観点から,関連作業生成に関する既存の文献をメタスタディで比較する。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 01:16:38 GMT)
    • 論文にだいたいある「Related works」を自動生成することを目的とした研究のサーベイ。有用そう&今であれば出来そうな気もしつつ難しそうな気もするタスクであるが、サーベイからは発展途上との印象をうける。

LSeg: 言語駆動型のセマンティックセグメンテーション

  • Language-driven Semantic Segmentation [88.2]
    本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。 エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
    論文  参考訳(メタデータ)   (Mon, 10 Jan 2022 18:59:10 GMT)
    • BackboneとなるVisionのモデル(ViT or ResNet)にCLIPを組み合わせることでゼロショットでの(ラベルを任意に設定可能な)セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
    • リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

ConvNeXt: ResNetの近代化

  • A ConvNet for the 2020s [94.9]
    ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。 これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 10 Jan 2022 18:59:10 GMT)

PAEG(Phrase-level Adversarial Example Generation) を用いた機械翻訳モデルの頑健性向上

  • Phrase-level Adversarial Example Generation for Neural Machine Translation [75.0]
     エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 11:00:49 GMT)
    • フェーズレベルの置き換えを用いたAdversarial Exampleを作成、その活用でモデルの頑健性向上を確認とのこと。生成にはBERTを活用。

Artの定量化、AI(言語モデル)の利用

  • Formal Analysis of Art: Proxy Learning of Visual Concepts from Style Through Language Models [10.9]
    本稿では,美術の視覚的要素と原理を用いて絵画を定量化する機械学習システムを提案する。 本稿では,絵画の視覚概念を学習する手法として,プロキシ学習(プロキシラーニング)を提案する。
    論文  参考訳(メタデータ)   (Wed, 5 Jan 2022 21:03:29 GMT)
    • 言語モデル(BERT, glove)を用いた芸術の視覚的要素の定量化に関する研究。アノテーションの少なさを補うために言語モデルを活用、芸術用のBERTを学習しなおしているなど手法も興味深い。

(DeepLearningな)手話生成に関するサーベイ

  • All You Need In Sign Language Production [50.4]
    手話の認識と生成のためには、いくつかの重要な課題に対処する必要があります。本稿ではSLP( Sign Language Production)のバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。 最後に、SLPと性能評価のための一般的なフレームワーク、およびSLPの最近の発展、利点、限界に関する議論について、今後の研究の行程についてコメントする。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 18:10:58 GMT)
    • 深層学習を中心とした手話に関するサーベイ。その中でもSign Language Productionに焦点を当てており、題名の通り包括的なサーベイの印象。Sign Language Recognition (SLR)とSign Language Production (SLP)の問題の違いなどが参考になった。

TableParser: PDFや画像からの表構造解析

EKG(Event Knowledge Graph)に関するサーベイ

  • What is Event Knowledge Graph: A Survey [46.6]
    本稿では、歴史、オントロジー、例、アプリケーションビューからイベントナレッジグラフ(EKG)を包括的に調査する。 EKGは、インテリジェント検索、質問回答、レコメンデーション、テキスト生成など、多くの機械学習および人工知能アプリケーションにおいて、ますます重要な役割を担っている。
    論文  参考訳(メタデータ)   (Fri, 31 Dec 2021 03:42:55 GMT)
    • イベントの概念を追加されたナレッジグラフに関するサーベイ。「イベント」ノードの追加、「イベント-イベント」と「イベント-エンティティ」の関係(エッジ)の追加がされ表現力が強化、検索等で重要な概念になることがサーベイされている。色々な取り組みがあってとても参考になる。