Text-to-SQL Parsingのサーベイ

  • A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.9]
    テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語(SQL)に変換することである。 ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 14:24:13 GMT)
    • Text-to-SQLの研究についてのサーベイ。データ作成、ベンチマーク、モデルを整理、コンテキスト依存か否かが大きな整理軸になっている。引用数が100を超えており様々な手法が提案されていることが分かる。

MotionDiffuse: 拡散モデルでのモーション生成

  • MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.3]
    MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。 複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。 体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 17:58:54 GMT)
    • テキストで指示可能なモーション作成、Diffusionモデルを活用しているとのこと。(ややニッチかもだが)画像生成の次に流行ったりするのだろうか。

MAPLE: Masked Pseudo-Labeling autoEncoder 

  • MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition [160.5]
    本稿では,Pseudo-Labeling autoEncoder (MAPLE) フレームワークを提案する。 特に、MAPLEのバックボーンとして、新規で効率的なDecoupled spatial-temporal TransFormer(DestFormer)を設計する。 MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
    論文  参考訳(メタデータ)   (Thu, 1 Sep 2022 12:32:40 GMT)

NLPコミュニティの予測

  • What Do NLP Researchers Believe? Results of the NLP Community Metasurvey [43.8]
    NLP Community Metasurveyの結果を報告する。 この調査は議論を呼んだ問題に関する意見を提起した。 コミュニティの予測が現実と一致しない誤った社会学的信念を見出す。
    論文  参考訳(メタデータ)   (Fri, 26 Aug 2022 19:45:51 GMT)
    • AGIや倫理などについてNLPコミュニティで調査した論文。2022年5月に調査を行い480名から回答を得たとのこと。うち327名が2019-2022で少なくとも2つのACL publicationsを出しているそうで専門家向けの調査になっている。
    • 「Recent progress is moving us toward AGI」で57%が肯定的な見解を持っている、ベンチマークに過度に依存している疑念が強い、倫理的課題がデータやカバレッジ・精度向上で解決できると思っていない、など多方面で興味深い結果になっている。

Visual Prompting

  • Visual Prompting via Image Inpainting [105.0]
    そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。 事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
    論文  参考訳(メタデータ)   (Thu, 1 Sep 2022 17:59:33 GMT)

Fraud Dataset Benchmark

  • FDB: Fraud Dataset Benchmark [17.5]
    フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットの集大成である。 FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。 FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 22:20:42 GMT)

Out-of-Distribution Dataの価値

  • The Value of Out-of-Distribution Data [28.9]
    実際のデータセットは、アウト・オブ・ディストリビューション(OOD)データを含むことができる。 このような問題に対する反直観的な現象を実証する。 いずれのサンプルがOODであるかを知ると、重み付けされた目的を用いることで、一般化誤差が単調に減少することを示す。
    論文  参考訳(メタデータ)   (Tue, 23 Aug 2022 13:41:01 GMT)
    • 直感的にはOut-of-Distributionなデータは汎化のために有効であるが一定以上あると有害になりうる。その関係を調べた論文。
    • Out-of-Distributionなデータの認識ができれば適切な学習が可能という(直感に反しない)結果
      • すぐに使えるわけではない(実運用では未知な情報があるという現実と論文における各種定義の対比が必要)とはいえ、この手の研究は面白い

大規模言語モデルにおけるショートカットのサーベイ

  • Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
    大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 03:51:39 GMT)
    • 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
    • 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
      • 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。

ImageNet-1kの問題

  • Bugs in the Data: How ImageNet Misrepresents Biodiversity [99.0]
    ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。 多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。 また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 24 Aug 2022 17:55:48 GMT)
    • 非常に良く用いられているImageNet-1kに問題のあるクラス付けがあるという指摘。12%はモデル品質に影響を与えるレベルに思う。このような検証はとても大事。

半教師あり、教師なしなDeep Visual Learningのサーベイ

  • Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.3]
    半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。 本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
    論文  参考訳(メタデータ)   (Wed, 24 Aug 2022 04:26:21 GMT)