- WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。 本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (Tue, 1 Feb 2022 04:44:02 GMT)- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。
投稿者: staka
mSLAM: multilingual Speech and LAnguage Model
- mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。 テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 3 Feb 2022 02:26:40 GMT)- w2v-BERT+SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。
競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI
コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。
- DeepMindが競技プログラミングを解けるレベルの自動コード生成が可能なAlphaCodeを発表
- OpenAIは数学オリンピックの問題を解く(大幅に性能向上させた)AIを発表
機械学習モデルはバイアスを増幅するか?
- A Systematic Study of Bias Amplification [16.2]
近年の研究では、機械学習モデルによる予測は、トレーニングデータに存在するバイアスを増幅することができることが示唆されている。 我々は、バイアス増幅の発生時期と発生状況について、初めて体系的に制御された研究を行う。
論文 参考訳(メタデータ) (Thu, 27 Jan 2022 18:04:24 GMT)- 機械学習モデルを用いることでバイアス(偏見)が増幅してしまうのではないか?ということを検証した論文。(解釈は悩ましいが)結果として状況によってはバイアス増幅が起きるとしている。
- 論文でも触れられているが、バイアス増幅を避ける事で他のメトリクスが悪化することはあり、難しい問題。結局は論文の締めの通り「careful design of the entire pipeline from data collection to model deployment」に尽きる。
- 機械学習モデルを用いることでバイアス(偏見)が増幅してしまうのではないか?ということを検証した論文。(解釈は悩ましいが)結果として状況によってはバイアス増幅が起きるとしている。
医療向けビデオ理解用のデータセットMedVidQA と MedVidCL
- A Dataset for Medical Instructional Video Classification and Question Answering [16.7]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。 医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。 我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 30 Jan 2022 18:06:31 GMT)- ビデオに対するQuestion Answeringと分類用データセット。医療ドメインのものは珍しいと思う。
- リポジトリはGitHub – deepaknlp/MedVidQACL: Implementation of the Benchmark Approaches for Medical Instructional Video Classification (MedVidCL) and Medical Video Question Answering (MedVidQA)
COIN++(COmpression with Implicit Neural representations): DNNを用いた圧縮
- COIN++: Data Agnostic Neural Compression [55.3]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。 様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (Sun, 30 Jan 2022 20:12:04 GMT)- 圧縮へのニューラルネットワークの応用。JPEG2000等と比べても優れた性能
IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク
- IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文 参考訳(メタデータ) (Thu, 27 Jan 2022 18:53:22 GMT)- 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)
- プロジェクトサイトはHome | IGLUE (iglue-benchmark.github.io)
VRT(Video Restoration Transformer)
- VRT: A Video Restoration Transformer [126.8]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (Fri, 28 Jan 2022 17:54:43 GMT)- ビデオの超解像技術にTrasnsformerを用いる研究。super-resolution、 deblurring、denoisingで優れた性能を達成とのこと。
- プロジェクトサイトはGitHub – JingyunLiang/VRT: VRT: A Video Restoration Transformer
Megatron-Turing NLG: 530Bの言語モデル
- Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文 参考訳(メタデータ) (Fri, 28 Jan 2022 08:59:57 GMT)- M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル – arXiv最新論文の紹介 (devneko.jp)の論文、5300億パラメータの巨大言語モデル。様々な条件でGPT-3の性能を上回る。
- 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調(?)にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s (16-bit precision)とすごい。
DrugOOD: AI支援創薬のためのベンチマーク
- DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。 我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (Mon, 24 Jan 2022 12:32:48 GMT)- AI支援創薬のためのデータセット・ベンチマークの提案であるが、34ページとサーベイのような情報量。この分野に対する情報整理にも役立つ。
- プロジェクトサイトはDrugOOD: OOD Dataset Curator and Benchmark for AI-aided Drug Discovery | DrugOOD