staka – ページ 214 – arXiv最新論文の紹介

PaLM: Pathways Language Model

PaLM: Scaling Language Modeling with Pathways [180.7]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 16:11:45 GMT)
- 540-billion parameterで780 billion tokens のデータ＆ 6144個のTPU v4 を用いて構築された大規模モデル。BIG-benchで平均的な人間のパフォーマンスを上回る。
- Discontinuous improvementsとして報告された内容が興味深く、8B→62Bパラメータへの改善と62B→540Bへの改善においてよく報告される“power law”に沿った改善ではない、非連続的な改善が見られたとのこと。
- 「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。

FairytaleQA : 物語理解のためのQAデータセット

Fantastic Questions and Where to Find Them: FairytaleQA — An Authentic Dataset for Narrative Comprehension [136.8]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。 FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文参考訳（メタデータ） (Sat, 26 Mar 2022 00:20:05 GMT)
- 物語ドメインのQAデータセット。規模はそれなりという感じだが、セクション限定を行わない場合、長めのテキストを扱う必要がありそう。
- リポジトリはGitHub – uci-soe/FairytaleQAData: A dataset of over 10000 question and answer pairs written for storybooks.

ブラックボックスモデルの頑健性向上

How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 03:23:32 GMT)
- ブラックボックスモデルに対して頑健性を向上させるという論文。とても実用的な設定ではあるが本当にできるのか？という思いもある。
- リポジトリはGitHub – damon-demon/Black-Box-Defense: Robustify Black-Box Models (ICLR’22 – Spotlight)

Deep Active Learningのサーベイ

A Comparative Survey of Deep Active Learning [76.0]
Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
論文参考訳（メタデータ） (Fri, 25 Mar 2022 05:17:24 GMT)
- Active Learningの現状を知るために良い資料。VQAでは上手くいっていないのは意外だった。特定タスク、特定ドメインでは有効そうという感じで社会実装上は重要な技術のようには思う。
- 利用ソフトウェアにGitHub – ej0cl6/deep-active-learning: Deep Active Learningが挙がっており、拡張バージョンも公開予定とのこと。

Test-time Adaptation for Automatic Speech Recognition

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 06:38:39 GMT)
- ASRの共変量シフトに対してTest-Time Adaptation を適用した報告。1回の発話に対してadaptationを行っているのが興味深い
- リポジトリはGitHub – DanielLin94144/Test-time-adaptation-ASR-SUTA

マルチモーダル& Graph Attentionによる文書理解

Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 25 Mar 2022 09:27:50 GMT)
- ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル（韓国語/英語）

Large-scale Bilingual Language-Image Contrastive Learning [17.2]
我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 03:02:03 GMT)
- 大規模なバイリンガル・マルチモーダルモデル。
- 英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
  - KELIP = Korean and English bilingual contrastive Language-Image Pre-training？
- リポジトリはGitHub – navervision/KELIP: Official PyTorch implementation of “Large-scale Bilingual Language-Image Contrastive Learning” (ICLRW 2022)　デモはKELIP – a Hugging Face Space by navervision

CodeGen: 対話によるプログラム自動生成

A Conversational Paradigm for Program Synthesis [110.9]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 17:10:30 GMT)
- 対話によるコード自動生成。リポジトリのビデオを見るのが分かりやすいが、非常に未来を感じるデモになっている。
- リポジトリはGitHub – salesforce/CodeGen: CodeGen is an open-source model for program synthesis. Trained on TPU-v4. Competitive with OpenAI Codex.

Chinchilla: 予算内で最適な巨大言語モデル

Training Compute-Optimal Large Language Models [54.0]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文参考訳（メタデータ） (Tue, 29 Mar 2022 13:38:03 GMT)
- 同じ計算予算で最適なパラメータ量や学習データ量を求める手法を用いて70BパラメータのChincillaを作成、Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)といった他の巨大モデルを上回る結果を達成。
- 「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。

M-SENA: マルチモーダルな感情分析プラットフォーム

M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 14:28:08 GMT)
- All-in-One Platform for Multimodal Sentiment Analysisとのこと。ライセンスはGPL-3.0
- リポジトリはGitHub – thuiar/M-SENA: M-SENA: All-in-One Platform for Multimodal Sentiment Analysis

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31