Lyra: Turducken-Styleのコード生成ベンチマーク

  • Lyra: A Benchmark for Turducken-Style Code Generation [15.8]
    ソフトウェア開発では、あるプログラミング言語が別のプログラミング言語に埋め込まれることが多い。 本稿では、自然言語のコメントを前提として、組み込み言語でプログラムを生成することを目的とした新しいコード生成タスクを定義する。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 27 Aug 2021 07:22:55 GMT)
    • Pythonコードの中にSQLが入るなど、あるプログラミング言語の中に別のプログラミング言語のコードが入っているスタイルを Turducken-Styleと呼び、その生成タスクとデータセットを提案している。 400時間かけて作った中国語と英語のコメントに対応する2,000件のスニペットが含まれるということで価値のあるデータだと思う。
    • リポジトリはhttps://github.com/LIANGQINGYUAN/Lyra

SummerTime: 要約のためのツールキット

  • SummerTime: Text Summarization Toolkit for Non-experts [23.0]
    SummerTimeは、さまざまなモデル、データセット、評価メトリクスを含む、テキスト要約のための完全なツールキットである。 SummerTimeはNLP研究者向けに設計されたライブラリと統合されており、使いやすいAPIをユーザに提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 29 Aug 2021 03:24:48 GMT)
    • モデル、データセット、評価方法が入ったツールキット。Multi documentやQuery basedなものまでまとめて入るのは素晴らしいと思う。
      • モデル:
        • Single-doc: BartModel, LexRankModel, LongformerModel, PegasusModel, TextRankModel
        • Multi-doc: MultiDocJointModel, MultiDocSeparateModel
        • Dialogue-based: HMNetModel
        • Query-based:BM25SummModel, TFIDFSummModel
      • データセット: ArXiv, CNN/DM(3.0.0), MlsumDataset, Multi-News, SAMSum, Pubmedqa, QMSum, ScisummNet, SummScreen, XSum
      • 評価方法: BERT Score, BLEU, ROUGE

DART(DifferentiAble pRompT ): 言語モデルを効率的に拡張するアプローチ

  • Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
    本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。 小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。 標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 12:29:25 GMT)
    • 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。(プロンプトの)テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト(相当の入力)を探るアプローチ(と思われる)。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
    • GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル(P-tuningの場合はLSTM)が不要。

N15News: マルチモーダルなデータセット

  • N15News: A New Dataset for Multimodal News Classification [7.8]
    我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。 融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 15:46:09 GMT)
  • マルチモーダル(画像+テキスト)なデータセットの提案。200kと大規模でありリアルなニュースであることから有用性が高いと思われる。著者らの実験ではマルチモーダルなデータの利用が精度を改善するとのこと。
  • データはPDFからGoogle driveで共有されている。

AutoML vs 人間によるモデル構築

  • Man versus Machine: AutoML and Human Experts’ Role in Phishing Detection [4.1]
    本稿では,10種類のフィッシングデータセット上での6つの最先端AutoMLフレームワークのパフォーマンスを比較した。 以上の結果から,AutoMLベースのモデルでは,複雑な分類タスクにおいて,手作業で開発した機械学習モデルよりも優れていることが示唆された。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 09:26:20 GMT)
    • AutoMLと手作業で作成したモデルを比較、AutoMLの方が優れていた…という報告。なのだが、手作業のモデルはAutoMLと同じデータ(1 Tableのデータ)でscikit-learnの手法(Logistic Regression, SVM, KNN, Decision Tree, Random Forest, Multi-layer Perceptron, Gaussian Naive Bayes)+手作業でハイパーパラメータをランダムサーチでチューニングしただけ。比較方法がイマイチな気がする。
    • 手作業というからには特徴量作成部分がキーになるはずだし、比較対象にはLightGBMやXGB辺りは入れるべきと思う。複数テーブルのデータに対してドメイン知識に基づいて特徴量作れば挙げられたAutoMLには負けないのではないかと思う。
      • 複数テーブルを扱えるAutoMLの実装は多くなくこれはこれでフェアじゃないかもだが。(放置しているけど)筆者が作っているFuguMLは複数テーブルを扱える実装になっていて未だにテーブル結合に対応した実装が少ないのは謎。
    • 色々言いたいことはあるが、AutoMLの実装によって精度に意外な差があるのが面白い。ドメイン知識を持つ専門家がパイプラインのループに不可欠であるという指摘はその通りだと思う。

機械学習における再現性の確保ガイド

  • A Guide to Reproducible Research in Signal Processing and Machine Learning [9.7]
    2016年にNature誌が行った調査によると、研究者の50%が自身の実験を再現できなかった。 我々は,再現可能な計算実験を生成する上での障害の多くを軽減するための,実用的なツールと戦略のセットを,信号処理研究者に提供することを目的とする。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 16:42:32 GMT)
    • 再現性を確保するためのガイド。データとコードだけあれば再現できる、、、わけではなく正しいやり方で正しいツールを使うことを推奨している。書かれているのは「最低限やるべきこと」というイメージでもっと流行りのアプローチもあるような気がするが、重要な指摘であることには違いない。

AVATAR (jAVA-pyThon progrAm tRanslation): Java/Pythonのパラレルコーパス

  • AVATAR: A Parallel Corpus for Java-Python Program Translation [37.0]
    我々は8,475のプログラミング問題とその解決策をJavaとPythonという2つの人気のある言語で記述したコーパスを提示する。 我々は、スクラッチからトレーニングされたモデルや大規模なソースコードコレクションで事前訓練されたモデルを含む、いくつかのベースラインを提示する。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 05:44:20 GMT)
    • JAVA/Pythonのパラレルコーパスを収集、このデータを用いて言語間変換を行うという論文。構文やデータフローを正確に変換するのは簡単ではないとのこと。
      • 構文が厳格なプログラミング言語とそうでない自然言語のどちらの変換が容易かは謎で興味深い。
    • リポジトリはhttps://github.com/wasiahmad/AVATAR

BID(Blind Image Decomposition)タスクのベンチマーク

  • Blind Image Decomposition [53.8]
    本稿では,Blind Image Decomposition (BID)について述べる。 雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。 本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
    論文  参考訳(メタデータ)   (Wed, 25 Aug 2021 17:37:19 GMT)
    • 雨や靄など重ねあった画像を分離するタスクの提案。プロジェクトサイトの画像が分かりやすい。この論文では「Mixed image decomposition across multiple domains(ドメインの異なる画像を混ぜたものからの分解)」「Real-scenario deraining(CityScapeデータセットの画像に雨や水滴、雪のマスクを適用したものを分解)」「Joint shadow/reflection/watermark removal(SRDISTDをベースとしてreflectionを適用、watermark部分はLVW)」と3つのタスクを提案、BIDeNというベースラインを構築している。
    • プロジェクトサイトはhttps://junlinhan.github.io/projects/BID.html、リポジトリはhttps://github.com/JunlinHan/BID

ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

  • LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
    ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 05:52:32 GMT)
    • 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
    • ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
      • FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

自動Fact-Checkingのサーベイ

  • A Survey on Automated Fact-Checking [18.3]
    本稿では,自然言語処理によるファクトチェックの自動化について検討し,関連する課題や規律との関係について考察する。 既存のデータセットとモデルを概観し、与えられた様々な定義を統一し、共通の概念を識別することを目的としている。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 16:34:51 GMT)
    • ファクトチェックに関する要素を分析、関連するデータセットを一覧化、モデル構築のアプローチを整理している。この分野の歴史を振り返るうえで優れた資料。Research Challenges のところは自然言語処理一般に言える難しさも多い。
    • 本文は12ページとサーベイにしては短め。