Measuring Causal Effects of Data Statistics on Language Model’s `Factual’ Predictions

  • Measuring Causal Effects of Data Statistics on Language Model’s `Factual’ Predictions [59.3]
    大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。 トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。 我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
    論文  参考訳(メタデータ)   (Thu, 28 Jul 2022 17:36:24 GMT)
    • 言語モデルにおいて[MASK]の中を共起関係(相関)で予測しているのか、意味的な背景があって予測しているのかは不明瞭である。因果推論のフレームワークで妥当に推測ができているの確認可能という報告。

ALBench: Active Learningのベンチマーク

  • ALBench: A Framework for Evaluating Active Learning in Object Detection [102.8]
    本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。 自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
    論文  参考訳(メタデータ)   (Wed, 27 Jul 2022 07:46:23 GMT)

回転によるバックドア埋め込み

  • Just Rotate it: Deploying Backdoor Attacks via Rotation Transformation [48.2]
    回転に基づく画像変換により,高い効率のバックドアを容易に挿入できることが判明した。 私たちの研究は、バックドア攻撃のための、新しく、シンプルで、物理的に実現可能で、非常に効果的なベクターに焦点を当てています。
    論文  参考訳(メタデータ)   (Fri, 22 Jul 2022 00:21:18 GMT)

NewsStories

  • NewsStories: Illustrating articles with visual summaries [49.9]
    我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。 現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。 本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
    論文  参考訳(メタデータ)   (Tue, 26 Jul 2022 17:34:11 GMT)

RealTime QA

  • RealTime QA: What’s the Answer Right Now? [113.0]
    本稿では,動的質問応答(QA)プラットフォームであるRealTime QAを紹介する。 GPT-3は、新しく検索された文書に基づいて、しばしばその生成結果を適切に更新することができる。 検索した文書が回答を見つけるのに十分な情報を提供していない場合、GPT-3は時代遅れの回答を返す傾向にある。
    論文  参考訳(メタデータ)   (Wed, 27 Jul 2022 07:26:01 GMT)
    • QAを現実世界、実時間で評価していく取り組み。Question Answeringモデルの実運用が現実的なのか知る上でも非常に興味深い。
    • プロジェクトサイトはHome | RealTime QA

MLRIP: 軍事用テキストマイニングのための事前学習モデル

  • MLRIP: Pre-training a military language representation model with informative factual knowledge and professional knowledge base [11.0]
    現在の事前学習手順は、通常、知識マスキング、知識融合、知識置換を用いて、外部知識をモデルに注入する。 本研究では,ERNIE-Baidu が提案する知識マスキング戦略を改良した MLRIP を提案する。 包括的な分析による大規模な実験は、軍事知識駆動NLPタスクにおけるBERTモデルよりもMLRIPの方が優れていることを示している。
    論文  参考訳(メタデータ)   (Thu, 28 Jul 2022 07:39:30 GMT)
    • 軍事のように通常のテキストとは大きく異なるドメイン向けの事前学習モデルの提案。軍事関連の外部知識を取り入れるためにマスキング戦略を修正している。
    • ドメイン特化により(当然だが)性能が向上するとのこと。

データ中心の疫学予測のサーベイ

  • Data-Centric Epidemic Forecasting: A Survey [57.0]
    この調査は、様々なデータ駆動の方法論および実践的進歩を掘り下げるものである。 疫学的なデータセットと,流行予測に関連する新しいデータストリームを列挙する。 また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。
    論文  参考訳(メタデータ)   (Wed, 20 Jul 2022 05:13:18 GMT)
    • 疫学的な予測とData-Centricに関するサーベイ。統計的手法、機械学習的手法の違いなども参考になる。引用数373。

EEG2Vec

  • EEG2Vec: Learning Affective EEG Representations via Variational Autoencoders [27.3]
    我々は、感情的な刺激に反応して、潜在ベクトル空間におけるニューラルデータを表現することが、両方の感情状態を予測するのに役立つかどうかを考察する。 脳波データから生成的識別的表現を学習するための条件付き変分オートエンコーダベースのフレームワークであるEEG2Vecを提案する。
    論文  参考訳(メタデータ)   (Sat, 16 Jul 2022 19:25:29 GMT)
    • 2vec系、脳波版

データリークと再現性

  • Leakage and the Reproducibility Crisis in ML-based Science [5.1]
    データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Jul 2022 16:44:59 GMT)
    • (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
    • プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。

ELECTRAとプロンプト