効率的な顔認識のサーベイ

  • Detect Faces Efficiently: A Survey and Evaluations [13.1]
    顔認識、表情認識、顔追跡、頭部推定を含む多くの応用は、画像中の顔の位置と大きさの両方が知られていると仮定する。 ディープラーニング技術は、かなりの計算量の増加と共に、対面検出に驚くべきブレークスルーをもたらした。 本稿では, 代表的な深層学習手法を紹介し, 精度と効率性の観点から, 深く, 徹底的な分析を行う。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Dec 2021 08:39:40 GMT)
    • Deep Learningの応用先としても有力な顔認識に関するサーベイ。主要なモデルを振り返るうえで非常に参考になる。

Transformer + scratchpad: 事前学習モデル+スクラッチパッドを用いた処理

  • Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
    大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。 これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。 特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 21:32:46 GMT)
    • 中間ステップをスクラッチパッド(バッファ)に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
      • 人がやる事っぽく面白い結果。

Dream Fields: テキスト表現からの3Dオブジェクト生成

  • Zero-Shot Text-Guided Object Generation with Dream Fields [111.1]
    ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。 提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。 実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Dec 2021 17:53:55 GMT)
    • テキストから3次元オブジェクト生成するモデルの提案。論文の通りNeRF(Neural Radiance Fields) とCLIPをつかってできそうな気はするものの、プロジェクトサイトにある結果を見ると非常に面白い。
    • プロジェクトサイトはZero-Shot Text-Guided Object Generation with Dream Fields (ajayj.com)

CLIPstyler: テキストを用いた画像スタイル変換

  • CLIPstyler: Image Style Transfer with a Single Text Condition [34.2]
    既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。 そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 1 Dec 2021 09:48:53 GMT)
    • テキストの指示を用いて画像のスタイルを変換する研究。「画像」+「Fireというテキスト」を与えると炎で包まれているような画像が生成される。サンプルが面白い。

SEAL(Self-supervised Embodied Active Learning) : 3D空間で行動・知覚・学習

  • SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency [122.2]
    本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。 インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。 我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Dec 2021 06:26:38 GMT)

Donut: OCRを用いないドキュメント理解

  • Donut: Document Understanding Transformer without OCR [17.4]
    我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 18:55:19 GMT)
    • OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。

Metaverceと芸術のサーベイ

  • When Creators Meet the Metaverse: A Survey on Computational Arts [19.4]
    本論では, 仮想現実をブレンドした新しいアートワークについて, 計算芸術に関する包括的調査を行う。 メタバースサイバースペースの拡張された地平線における斬新な創造のいくつかの顕著なタイプが反映されている。 計算芸術の民主化,デジタルプライバシ,メタバースアーティストの安全,デジタルアートの所有権認識,技術的課題など,いくつかの研究課題を提案する。
    論文  参考訳(メタデータ)   (Fri, 26 Nov 2021 13:24:37 GMT)
    • 仮想現実とアートに関するサーベイ。読み物としても非常に面白く刺激的。

Point-BERT: 点群処理のためのBERT

  • Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
    BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。 提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
    論文  参考訳(メタデータ)   (Mon, 29 Nov 2021 18:59:03 GMT)

言語モデルは世界に対する信念を持っているか?

  • Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs [76.6]
    Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。 本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
    論文  参考訳(メタデータ)   (Fri, 26 Nov 2021 18:33:59 GMT)
    • 言語モデルに信念があるか調査し、その度合いを改善する手法を提案
      • 信念を測るために一貫性をもとにしたスコアを利用しているようで面白い研究。言語モデルが内包する道徳的な問題を改善するための利用を想定とのことで、社会実装においても重要になると思う。

IMBENS: クラス不均衡なデータに対する学習