WebFormer: WEBページからの情報抽出

  • WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
    構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。 本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
    論文  参考訳(メタデータ)   (Tue, 1 Feb 2022 04:44:02 GMT)
    • Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

mSLAM: multilingual Speech and LAnguage Model

競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。

機械学習モデルはバイアスを増幅するか?

  • A Systematic Study of Bias Amplification [16.2]
    近年の研究では、機械学習モデルによる予測は、トレーニングデータに存在するバイアスを増幅することができることが示唆されている。 我々は、バイアス増幅の発生時期と発生状況について、初めて体系的に制御された研究を行う。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:04:24 GMT)
    • 機械学習モデルを用いることでバイアス(偏見)が増幅してしまうのではないか?ということを検証した論文。(解釈は悩ましいが)結果として状況によってはバイアス増幅が起きるとしている。
      • 論文でも触れられているが、バイアス増幅を避ける事で他のメトリクスが悪化することはあり、難しい問題。結局は論文の締めの通り「careful design of the entire pipeline from data collection to model deployment」に尽きる。

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

COIN++(COmpression with Implicit Neural representations): DNNを用いた圧縮

  • COIN++: Data Agnostic Neural Compression [55.3]
    COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。 様々なデータモダリティを圧縮することで,本手法の有効性を示す。
    論文  参考訳(メタデータ)   (Sun, 30 Jan 2022 20:12:04 GMT)
    • 圧縮へのニューラルネットワークの応用。JPEG2000等と比べても優れた性能

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

  • IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
    画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:53:22 GMT)
    • 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
    • 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)

VRT(Video Restoration Transformer)

  • VRT: A Video Restoration Transformer [126.8]
    ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 17:54:43 GMT)

Megatron-Turing NLG: 530Bの言語モデル

  • Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
    本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 08:59:57 GMT)
    • 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調(?)にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s (16-bit precision)とすごい。

DrugOOD: AI支援創薬のためのベンチマーク

  • DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
    我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
    論文  参考訳(メタデータ)   (Mon, 24 Jan 2022 12:32:48 GMT)