CLIPasso(CLIP-guided Semantically-Aware Object Sketching): 抽象度の異なるスケッチ生成

  • CLIPasso: Semantically-Aware Object Sketching [34.5]
    本稿では,幾何学的および意味的単純化によって導かれる抽象レベルが異なるオブジェクトスケッチ手法を提案する。 スケッチをB’ezier曲線の集合として定義し、CLIPに基づく知覚的損失に対して曲線のパラメータを直接最適化するために微分器を使用する。
    論文  参考訳(メタデータ)   (Fri, 11 Feb 2022 18:35:25 GMT)
    • 抽象度(≒ストローク数)の異なるスケッチを自動生成する手法の提案。スケッチデータ(画像/スケッチのペアデータ)を必要とせずCLIPを活用しているのが特徴。プロジェクトサイトにある画像が面白い。
      • CLIPassoって略称があっていない気もするが・・・
    • プロジェクトサイトはCLIPasso: Semantically-Aware Object Sketching

MBCT(Multiple Boosting Calibration Trees): 確率キャリブレーションのためのbinning framework

  • MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty Calibration [29.8]
    ほとんどの機械学習分類器は分類精度のみを気にするが、特定の応用(医学診断、気象予測、計算広告など)では、校正推定と呼ばれる真の確率を予測するためにモデルを必要とする。 従来の研究では、予測器の出力を処理後、ビンニングやスケーリング法などの校正値を得るためのいくつかの校正法を開発した。我々はMultiple Boosting Trees (MBCT)と呼ばれる特徴認識型バイナリフレームワークを提案する。 本手法はキャリブレーション誤差と順序精度の両方で競合するモデルよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 9 Feb 2022 08:59:16 GMT)

LNT(Local Neural Transformations) : 時系列データからの異常検知

GPTスタイルのモデルに対するニューロンタイプの同定とROME(Rank-One Model Editing)による編集

  • Locating and Editing Factual Knowledge in GPT [32.3]
    我々は,モデルの事実予測を変更可能なニューロン活性化を同定するための因果的介入を開発する。 大きなGPTスタイルのモデルでは、我々が仮定する2つの異なるニューロンの集合(抽象的な事実を知る、具体的な言葉を言う)と一致している。 この洞察は、モデル重みに格納された事実を編集する新しい方法であるROMEの開発を刺激する。
    論文  参考訳(メタデータ)   (Thu, 10 Feb 2022 18:59:54 GMT)

TopClus: PLMを用いたトピッククラスタリング

SuperGen: 言語モデルからのデータ生成

センサーデータからのメンタルストレス検出のサーベイ

  • Mental Stress Detection using Data from Wearable and Non-wearable Sensors: A Review [11.1]
    ヒトのストレス反応を測定する方法は、ウェアラブルと非ウェアラブルセンサーのデータを用いて観察された主観的アンケートと客観的マーカーを含むことができる。 各種情報源からの関連データを利用して, ストレス検出手法が人工知能の恩恵を受ける方法について検討する。
    論文  参考訳(メタデータ)   (Mon, 7 Feb 2022 09:48:46 GMT)
    • ウェアラブル(脳波や筋電、心拍など)、非ウェアラブル(瞳孔、音声、熱など)センサーからストレス反応を検出できるかのサーベイ。本文だけで67ページと広範な内容。

NEWSKVQA: ニュースビデオに対するVQAデータセット

  • NEWSKVQA: Knowledge-Aware News Video Question Answering [5.7]
    我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。 我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。 本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
    論文  参考訳(メタデータ)   (Tue, 8 Feb 2022 17:31:31 GMT)
    • ニュースビデオに対するVQA。12Kビデオクリップ、1M QAと非常に大規模なデータ。
    • 論文中にデータセットへのリンク(Google Driveへのリンク)が存在

JaQuAD: 日本語のSQuADデータ

DALL-Eval: 画像生成モデルを評価するデータセットと評価ツールキットPAINTSKILLS

  • DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
    マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。 興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。 本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。 近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 8 Feb 2022 18:36:52 GMT)