言語モデルは世界に対する信念を持っているか?

  • Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs [76.6]
    Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。 本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
    論文  参考訳(メタデータ)   (Fri, 26 Nov 2021 18:33:59 GMT)
    • 言語モデルに信念があるか調査し、その度合いを改善する手法を提案
      • 信念を測るために一貫性をもとにしたスコアを利用しているようで面白い研究。言語モデルが内包する道徳的な問題を改善するための利用を想定とのことで、社会実装においても重要になると思う。

IMBENS: クラス不均衡なデータに対する学習

PolyViT: 複数種類のデータを一元的に扱うTransformer

  • PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
    我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。 共同学習はシンプルで実践的であることを示す。
    論文  参考訳(メタデータ)   (Thu, 25 Nov 2021 10:01:05 GMT)
    • パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classification, video-classification, audio-classificationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
      • Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

効果的なfine-tuningデータの選択戦略

  • Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.1]
    対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。 近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。 本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 24 Nov 2021 06:18:32 GMT)
    • 近しいデータ(鳥画像分類データセットであるCUBにImageNetの鳥類を加えるなど)をfine tuningで使用すると最終性能を上げられることがある。ラベルがあればそれを利用すればよいが、ラベルがない場合は対象データに近いデータセット(サブセット)を選択する必要がある。この論文ではこの問題をunbalanced optimal transport (UOT) 問題として解く手法を提案、効果を検証している。
      • 自然言語処理な分野でも最適輸送を使った機械学習系の論文をちょくちょく見る気がする。とても興味深い。

TWEETSUMM : 対話要約データセット

PeCo(Perceptual Codebook)によるBERTスタイルな画像事前学習の改善

  • PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
    本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
    論文  参考訳(メタデータ)   (Wed, 24 Nov 2021 18:59:58 GMT)
    • Masked Autoencoders – arXiv最新論文の紹介 (devneko.jp)のようなBERTライクな事前学習にVQ-VAEを利用、視覚情報(画像)を離散的な情報(コードブック)に変換して扱う事で性能が向上したとの報告。
      • 見た物体に名前を付けていくことで学習を進めていく生物のような機構だなーと感じて面白さと気持ち悪さを感じる。
    • リポジトリはGitHub – microsoft/PeCo

PhysFormer: RPPG(Remote Photoplethysmography/顔動画からの生体情報取得)で有効なモデル

  • PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
    近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
    論文  参考訳(メタデータ)   (Tue, 23 Nov 2021 18:57:11 GMT)

CaPE(Calibrated Probability Estimation): Deep Learningモデルと確率推定

  • Deep Probability Estimation [14.7]
    深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。 この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。 合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
    論文  参考訳(メタデータ)   (Sun, 21 Nov 2021 03:55:50 GMT)
    • (Deep Learningに限らず)通常はモデル出力は確率として使うことはできない。キャリブレーションする方法は様々提案されているが、ここでは学習時のloss関数を変更することで有望な結果を得ているとのこと。

敵対的攻撃と防御のサーベイ

  • A Review of Adversarial Attack and Defense for Classification Methods [78.5]
    本稿では,敵対的事例の生成と保護に焦点をあてる。 この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
    論文  参考訳(メタデータ)   (Thu, 18 Nov 2021 22:13:43 GMT)
    • ディープ系モデルに対する敵対的攻撃とその防御に関するサーベイ、数式多めだが分かりやすい。
    • リポジトリはGitHub – liyao880/revew_adv_defense