WikiDes: Wikipediaベースの概要データセット

  • WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs [66.9]
    ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。 データセットは、6987のトピックに関する80K以上の英語サンプルで構成されている。 本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
    論文  参考訳(メタデータ)   (Tue, 27 Sep 2022 01:28:02 GMT)
    • Wikipediaの最初の段落とWikidataの説明を関連付けしたデータセット。平均的なドキュメントサイズが小さめで段落をさらに短く説明するようなデータになっている。

TabMWP: Tabular Math Word Problem

  • Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
    数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 08:01:04 GMT)
    • 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。

GPT-3時代の要約

  • News Summarization and Evaluation in the Era of GPT-3 [73.5]
    我々は,0ショットGPT-3が,大規模な要約データセット上で訓練された微調整モデルと比較した。 我々は,人間はGPT-3要約を圧倒的に好んでいるだけでなく,現実性に乏しいようなデータセット固有の問題に悩まされていることも示している。
    論文  参考訳(メタデータ)   (Mon, 26 Sep 2022 01:04:52 GMT)
    • 機械要約において(機械的評価とは乖離して)人間はGPT-3による要約を好むという報告。通常の要約だけでなくCTRLSumが行うようなキーワードベースの手法でもGPT-3の方が好まれるとのこと。
      • 特化系のモデルが(Promptがあるとはいえ)汎用のモデルに勝てない時代…
    • リポジトリはtagoyal/factuality-datasets (github.com)

Passau-SFCH: マルチモーダルなユーモア検出データセット

  • Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [58.8]
    ユーモアは人間の感情と認知の重要な要素である。 ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、’現実世界’のアプリケーションには不十分である。 約11時間の録音を含むPassau-Spontaneous Football Coach Humourデータセットについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Sep 2022 17:36:47 GMT)
    • ユーモア検出データセットの提案、表情が有力な特徴量だったとのこと。
      • 論文中に紹介されていたユーモアの分類も面白かった
    • リポジトリはEIHW/passau-sfch (github.com)

大規模言語モデルのバイアス(CoDaを用いた検証)

Dataset distillationを用いた医療画像共有

  • Dataset Distillation for Medical Dataset Sharing [38.7]
    データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成するように、小さなデータセットを合成することができる。 新型コロナウイルスの胸部X線画像データセットによる実験結果から,胸部X線画像が不足していても高い検出性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 07:49:20 GMT)
    • Dataset Distillationを医療画像のようなプライバシーが重要な分野に適用するという論文。プライバシー保護とコスト低減を両立できそうな点が面白い
      • 各種攻撃への耐性に興味津々

同じグループからデータセット蒸留法も提案されている。

  • Dataset Distillation using Parameter Pruning [38.7]
    データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等に高いパフォーマンスを達成するように、小さなデータセットを合成することができる。 提案手法は, より堅牢な蒸留データセットを合成し, 蒸留プロセスにおいて, 難解なパラメータを抽出することにより蒸留性能を向上させる。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 07:58:32 GMT)

Can Large Language Models Truly Understand Prompts?

  • Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts [19.4]
    これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。 本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
    論文  参考訳(メタデータ)   (Mon, 26 Sep 2022 14:05:10 GMT)
    • プロンプトの表現を否定形で逆にした場合の動作はどうなるか検証した論文。結果、モデルサイズによらず大規模言語モデルは否定的なプロンプトを解釈できていないように見えるとのこと。
      • この手のモデルを「指示を出せるAI」と表現はできなさそうな結果でプロンプトは「解こうとしているモノ」を雰囲気で指定しているにすぎなさそう(人間でもひっかけ問題で同様の間違いをすることはあるので発展途上なだけかもだが)
    • リポジトリはjoeljang/negated-prompts-for-llms: Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts (github.com)

SAP: Sequential Autoregressive Prompting

  • Bidirectional Language Models Are Also Few-shot Learners [54.4]
    SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。 SAPは質問応答と要約に有効であることを示す。 この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 01:35:57 GMT)
    • Promptを用いるモデルのほとんどが単方向モデルだが、双方向モデルでもpromptを実現するフレームワークを提案、少ないパラメータでzero/few shotでの優れた性能を確認とのこと。
    • 面白い結果である一方で(論文でも触れられている通り)計算コストが凄そう…
      • 双方向だと穴埋めがベースなのでしょうがないとも思いつつ、パラメータが少ないけど計算量が莫大って本当に少ないパラメータで済んでいるのだろうか…?

DreamFusion

  • DreamFusion: Text-to-3D using 2D Diffusion [52.5]
    テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 17:50:40 GMT)

Text-to-Video without Text-Video Data

  • Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
    Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 13:59:46 GMT)
    • テキストからの動画作成。text2imageモデルをベースに動画データ+教師無し学習で構築されたモデルで動画への補間を行っているよう
    • プロジェクトサイトはhttps://make-a-video.github.io