A Compact Pretraining Approach for Neural Language Models

  • A Compact Pretraining Approach for Neural Language Models [21.8]
    事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。 抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。 我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 00:54:42 GMT)
    • 要約結果&重要なキーワードの組み合わせにより全データ&ランダムマスクな方針よりも高速に学習(ターゲットドメインへの適合)ができるとの報告
      • ドメインを合わせるために重要な部分のみを使うというのは直感的には良さそうな方針に思えるがBART要約 & KeyBERTで作ってそうなるのかはどうなんだろう。実験結果ではランダムマスクに勝っているのでうまく動いているっぽいが。。。

Efficient Methods for Natural Language Processing: A Survey

  • Efficient Methods for Natural Language Processing: A Survey [48.1]
    結果を改善するためにスケールのみを使用するということは、リソース消費もスケールすることを意味します。 本研究は,NLPにおけるこれらの効率性における方法と知見を関連づけ,合成するものである。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 20:32:35 GMT)
    • 自然言語処理の効率化について、データ、モデル設計、学習、推論・圧縮の面でーサーベイした論文。

CounTR:  Counting TRansformer

  • CounTR: Transformer-based Generalised Visual Counting [94.5]
    我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 17:02:45 GMT)

Expert systemとニューラルネットの組み合わせによる音楽生成

  • MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks [146.6]
    MeloFormは、エキスパートシステムとニューラルネットワークを使用して、音楽形式でメロディを生成するシステムである。 詩やコーラス形式、ロンド形式、変奏形式、ソナタ形式など、様々な形式をサポートすることができる。
    論文  参考訳(メタデータ)   (Tue, 30 Aug 2022 15:44:15 GMT)
    • エキスパートシステムとニューラルネットと新旧の技術を組み合わせたという印象もある音楽生成フレームワーク。楽式の制御はエキスパートシステムで行い、表現力の向上をTransformer系のモデルで行っているよう。
      • 実務上(問題や場所によっては)ルールベースが有効なことは多いので音楽生成のような分野でもそういうことがあるのだろうと感じた。

Text-to-SQL Parsingのサーベイ

  • A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.9]
    テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語(SQL)に変換することである。 ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 14:24:13 GMT)
    • Text-to-SQLの研究についてのサーベイ。データ作成、ベンチマーク、モデルを整理、コンテキスト依存か否かが大きな整理軸になっている。引用数が100を超えており様々な手法が提案されていることが分かる。

MotionDiffuse: 拡散モデルでのモーション生成

  • MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.3]
    MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。 複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。 体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 17:58:54 GMT)
    • テキストで指示可能なモーション作成、Diffusionモデルを活用しているとのこと。(ややニッチかもだが)画像生成の次に流行ったりするのだろうか。

MAPLE: Masked Pseudo-Labeling autoEncoder 

  • MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition [160.5]
    本稿では,Pseudo-Labeling autoEncoder (MAPLE) フレームワークを提案する。 特に、MAPLEのバックボーンとして、新規で効率的なDecoupled spatial-temporal TransFormer(DestFormer)を設計する。 MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
    論文  参考訳(メタデータ)   (Thu, 1 Sep 2022 12:32:40 GMT)

NLPコミュニティの予測

  • What Do NLP Researchers Believe? Results of the NLP Community Metasurvey [43.8]
    NLP Community Metasurveyの結果を報告する。 この調査は議論を呼んだ問題に関する意見を提起した。 コミュニティの予測が現実と一致しない誤った社会学的信念を見出す。
    論文  参考訳(メタデータ)   (Fri, 26 Aug 2022 19:45:51 GMT)
    • AGIや倫理などについてNLPコミュニティで調査した論文。2022年5月に調査を行い480名から回答を得たとのこと。うち327名が2019-2022で少なくとも2つのACL publicationsを出しているそうで専門家向けの調査になっている。
    • 「Recent progress is moving us toward AGI」で57%が肯定的な見解を持っている、ベンチマークに過度に依存している疑念が強い、倫理的課題がデータやカバレッジ・精度向上で解決できると思っていない、など多方面で興味深い結果になっている。

Visual Prompting

  • Visual Prompting via Image Inpainting [105.0]
    そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。 事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
    論文  参考訳(メタデータ)   (Thu, 1 Sep 2022 17:59:33 GMT)

Fraud Dataset Benchmark

  • FDB: Fraud Dataset Benchmark [17.5]
    フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットの集大成である。 FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。 FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
    論文  参考訳(メタデータ)   (Wed, 31 Aug 2022 22:20:42 GMT)