TransTab: テーブルデータの埋め込み

  • TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
    タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である 異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 19 May 2022 05:34:46 GMT)
    • テーブルデータを埋め込み表現にすることで列が異なるテーブルにも対応可能という論文。
      • 列名を含めて扱えばできそうという感覚と、やっぱり簡単ではないのではという感覚があってやや疑念がある。XGBoostがLogistic Regressionに完全に負けているのもやや違和感。コードが公開されているのでそのうち試してみたい。
    • リポジトリはGitHub – RyanWangZf/transtab: TransTab: A flexible tabular prediction model

Gato: 汎用エージェント

  • A Generalist Agent [89.9]
    Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 16:03:26 GMT)
    • DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
    • 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。

VQGAN & Transformerによるビデオ生成

  • Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
    本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。 評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 7 Apr 2022 17:59:02 GMT)

UFO (Unified Framework for Co-Object Segmentation)

DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

  • DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
    自己教師付き文書画像変換モデルであるDiTを提案する。 さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。 実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
    論文  参考訳(メタデータ)   (Fri, 4 Mar 2022 15:34:46 GMT)
    • Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classification、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。

DeepNet: 1000層のTransformer

  • DeepNet: Scaling Transformers to 1,000 Layers [106.3]
    トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
    論文  参考訳(メタデータ)   (Tue, 1 Mar 2022 15:36:38 GMT)

医療画像におけるTransformerのサーベイ

  • Transformers in Medical Image Analysis: A Review [46.7]
    本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。 具体的には、まず、Transformerや他の基本的なコンポーネントに組み込まれたアテンションメカニズムのコア概念について概説する。 第2に,医療画像の応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 24 Feb 2022 16:04:03 GMT)
    • 医療画像解析を対象にしたTransformerベースのモデルのサーベイ。すでに多くの事例があるが、多くの場合他分野のアーキテクチャを医療用に直接応用しており、高度な解析やモデルの問題(parallelization, interpretability, quantification and safetyが挙げられている)に焦点を当てたものは少ないとのこと。
      • ドメイン特化型のアーキテクチャは少ない?

SCRIPT(StruCtural RelatIve Position): ソースコードの要約

  • Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
    ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。 近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
    論文  参考訳(メタデータ)   (Mon, 14 Feb 2022 07:34:33 GMT)
    • ソースコードの要約(ソースコードに対して短い自然言語の記述を生成)にTransformer型の構造を適用、優れた性能を達成。
      • (略称は無理やり感があるが)有用な研究、様々なアプローチがあり興味深い。
    • リポジトリはGitHub – GoneZ5/SCRIPT

WebFormer: WEBページからの情報抽出

  • WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
    構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。 本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
    論文  参考訳(メタデータ)   (Tue, 1 Feb 2022 04:44:02 GMT)
    • Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

VRT(Video Restoration Transformer)

  • VRT: A Video Restoration Transformer [126.8]
    ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 17:54:43 GMT)