Klarna Product Page Dataset:現実に近いWEBページのデータセット

  • The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
    本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 12:13:52 GMT)
    • 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
    • リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

Fairnessな機械学習へのテクニック

  • Modeling Techniques for Machine Learning Fairness: A Survey [17.9]
    近年,機械学習モデルのバイアスを軽減するため,様々な手法が開発されている。 本稿では,プロセス内バイアス軽減技術の現状を概観する。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 17:17:26 GMT)
    • 公平性の実現、バイアスの除去・軽減技術に関するサーベイ。
    • 決定的な方法はない分野でもあり、整理軸も概観も非常に参考になる。

大規模事前学習による自然言語処理のサーベイ

  • Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey [67.8]
    BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。 本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
    論文  参考訳(メタデータ)   (Mon, 1 Nov 2021 20:08:05 GMT)
    • 事前学習モデルを用いたNLPのサーベイ、本文30ページ。「事前学習+Fine-tuning」「Prompt-based learning 」「テキスト生成への帰着」の3つのパラダイムで整理している。加えてPLMによるデータ生成も扱われており非常に勉強になる。

RSA(Relational Self-Attention): 時空間の関係をリッチにとらえる構造

  • Relational Self-Attention: What’s Missing in Attention for Video Understanding [52.4]
    リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。 我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 15:36:11 GMT)
    • コンテンツ間の関連を予測するRelational kernelとコンテンツ間の関連のパターンを提供するRelational contextを組み込んだ構造を用いてビデオ理解タスクでSoTAを主張。

EfficientZero: 高効率な強化学習

  • Mastering Atari Games with Limited Data [73.6]
    我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。 提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。 アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
    論文  参考訳(メタデータ)   (Sat, 30 Oct 2021 09:13:39 GMT)
  • DQNが2億フレームで到達する性能を、その500分の1のフレーム数で達成できる強化学習のアルゴリズム。
  • リポジトリはhttps://github.com/YeWR/EfficientZero/

人間の注意を併用する学習

  • Human Attention in Fine-grained Classification [38.7]
    我々は,人間の注意が分類などの意思決定プロセスに有用な情報を含んでいることを検証した。まずデータセットCUBに対して人間の視線データを収集し,CUB-GHA(Gaze-based Human Attention)を構築する。次に人間の視線を分類モデルに統合するために、GAT(Gaze Augmentation Training)とKFN(Knowledge Fusion Network)を提案する。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 14:41:11 GMT)

事前学習モデルへのバックドアと下流タスクでの有効性

  • Backdoor Pre-trained Models Can Transfer to All [33.7]
    そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
    論文  参考訳(メタデータ)   (Sat, 30 Oct 2021 07:11:24 GMT)
    • 幅広い下流タスクで有効なバックドア攻撃。事前学習モデルを外部に依存することが多い状況下では脅威となる結果。

文書スタイルの転送に関するサーベイ

  • From Theories on Styles to their Transfer in Text: Bridging the Gap with a Hierarchical Survey [10.8]
    スタイル転送は、既存のテキストを書き換え、望ましいスタイル特性を示すパラフレーズを作成することを目的としている。 少数の調査では、この分野の方法論的な概要が示されているが、研究者が特定のスタイルにフォーカスするのを支援していない。 それらを階層に整理し、それぞれの定義の課題を強調し、現在の研究状況のギャップを指摘します。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 15:53:06 GMT)
    • 文体の転送に関するサーベイで58ページと大規模。整理軸や分野の状況を概観するのに役立つ。

Masked Language Modelを用いたタンパク質表現学習

  • Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
    タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。 提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 04:01:32 GMT)
    • 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。

金融分野における倫理的なAI

  • On the Current and Emerging Challenges of Developing Fair and Ethical AI Solutions in Financial Services [1.9]
    我々は、高レベルの原則と具体的なデプロイされたAIアプリケーションとのギャップについて、実践的な考察をいかに示すかを示す。 我々は、高レベルの原則と具体的なデプロイされたAIアプリケーションとのギャップについて、実践的な考察をいかに示すかを示す。
    論文  参考訳(メタデータ)   (Tue, 2 Nov 2021 00:15:04 GMT)
    • 金融分野のAI活用で考えるべき倫理などをまとめた論文。ガイドラインの整理などが参考になるとともに現実とのギャップが理解できる内容。
    • 解決策が提示されているわけではないが「Without regulations it is really difficult to reach any ethics goals in the financial services industry.」はその通りだと思う。