ポッドキャスト書き起こしの要約

  • Towards Abstractive Grounded Summarization of Podcast Transcripts [33.3]
    ポッドキャストの書き起こしの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益である。 これは、コンシューマーがポッドキャストを聴くかどうかを素早く判断し、要約を書くためのコンテンツプロバイダの負荷を減らすのに役立つ。 しかし、ポッドキャストの要約は、入力に関する事実上の矛盾を含む重大な課題に直面している。
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 02:44:39 GMT)

XTREME-S: クロスリンガルな音声表現ベンチマーク

  • XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
    XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 21 Mar 2022 06:50:21 GMT)
    • speech recognition、speech classification、speech translation、speech retrievalのタスクに対する多言語データセット
    • Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

SciNLI:科学に関連するテキストのNLI

文書を並び替えてのMulti-Document News Summarization

  • Read Top News First: A Document Reordering Approach for Multi-Document News Summarization [27.3]
    本稿では,文書を連結・要約する前に,文書の相対的重要性に応じて並べ替える簡単な手法を提案する。 並べ替えにより、要約モデルで学習しやすくなる。
    論文  参考訳(メタデータ)   (Sat, 19 Mar 2022 06:01:11 GMT)
    • 複数の文書を要約するタスクにおいて、要約モデル適用前に適切な順番に並び替えることで性能が向上するとの報告。

句レベルの画像表現を用いたニューラル機械翻訳

  • Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
    既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。 提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。 実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
    論文  参考訳(メタデータ)   (Sat, 19 Mar 2022 11:21:13 GMT)

StyleBabel: アートのタグとキャプション

  • StyleBabel: Artistic Style Tagging and Captioning [38.8]
    StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 11 Mar 2022 08:51:33 GMT)
    • アート作品のキャプションやタグを集めたデータセットの提案。
    • データ等はCC BY 4.0で公開予定とのことでAIによる創作のために有用なデータになりそう。

ToxiGen: 機械作成された13のグループに対するHate Speech検出(有毒/良性文)のデータセット

  • ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
    ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 17 Mar 2022 17:57:56 GMT)
    • GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い(検出の難しい)文を生成とのこと。

REINA(REtrieving from the traINing datA): 学習データからの検索がモデル性能を改善

  • Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.9]
    検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。 意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。 実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
    論文  参考訳(メタデータ)   (Wed, 16 Mar 2022 17:37:27 GMT)
    • 学習データを対象に検索的手法を用いることで性能が向上するとの報告(3ページの図が分かりやすい)。要約タスクでREINA+BART-baseがBART-largeに匹敵とのこと。非常にパラメータ数の多いモデルであっても学習データを完全に覚えることはできないので、リマインド的に検索結果をつなげると性能が向上するのでは?というのが面白い。
      • とはいえ(特に機械翻訳は)学習したドメインにover fittingしそうな予感がする。それはそれで使いどころはありそうではあるが。。。

CodeReviewer: AIによるコードレビュー

  • CodeReviewer: Pre-Training for Automating Code Review Activities [36.4]
    本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。 私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。 コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
    論文  参考訳(メタデータ)   (Thu, 17 Mar 2022 05:40:13 GMT)
    • コードレビューのため「Code Change Quality Estimation」「Code Review Generation」「Code Refinement 」という3つのタスクを提案、データセットを作成、モデル構築・評価を実施したとのこと。1つ1つが簡単ではないタスクのように思えるが、自動化できるととても有用そう。
    • コードやデータは公開予定とのこと

Delta Tuning: 事前学習モデルの効率的なチューニング

  • Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2]
    標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。 近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Mon, 14 Mar 2022 07:56:32 GMT)