arXiv – ページ 183 – arXiv最新論文の紹介

Unified-IO

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文参考訳（メタデータ）参考訳（全文） (Fri, 17 Jun 2022 17:53:47 GMT)
- 非常に多様なデータ、タスクを扱えるモデルの提案。
  - META LMでも感じたが、汎用に使えるAI（しかも事前学習済み）は夢物語ではなくなりつつあると感じる。そしてマルチモーダルをつなぐのは言語なのだろうか。
- プロジェクトサイトはUnified-IO, a new general purpose model from AI2 (allenai.org)

大規模言語モデルと遺伝的プログラミング

Evolution through Large Models [15.0]
- コードを生成するために訓練された大言語モデル(LLM)は、遺伝的プログラミング(GP)プログラムに適用された突然変異演算子の有効性を大幅に改善することができる。大型モデル(ELM)による進化の広大さを強調するため、ELMとMAP-Elitesを組み合わせたメイン実験では、動作補助ロボットを出力するPythonプログラムの数十万の関数例が生成される。トレーニングデータがこれまで利用できなかったドメインにおいて、特定のコンテキストに対して適切なアーティファクトを出力できる新しいモデルをブートストラップする機能には、オープンディペンデンス、ディープラーニング、強化学習といった意味がある。
- 論文参考訳（メタデータ） (Fri, 17 Jun 2022 17:07:04 GMT)
  - 遺伝的プログラミングに大規模言語モデルを組み合わせる（Evolution through Large Models）ことで大規模言語モデルが想定しないような事例にも対応可能なコードを生成することが可能とのこと。
  - 論文にもあるようにLLMを使っていれば突然変異の範囲が限定され、より良いものが得られる可能性が高まるように思う。非常に興味深い。

Parti: Pathways Autoregressive Text-to-Image

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (Wed, 22 Jun 2022 01:11:29 GMT)
- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
  - 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。（とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…）

Deep Clusteringのサーベイ

A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions [49.0]
クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 15:05:13 GMT)
- ありそうであまり見ない気がするDeep Clusteringのサーベイ。引用数246と大規模。

Data Augmentationのサーベイ

A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
論文参考訳（メタデータ） (Tue, 14 Jun 2022 01:40:09 GMT)
- データ拡張に関するサーベイ。
  - AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。

GLIPv2: Grounded Language-Image Pre-training version 2

GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 20:31:28 GMT)
- GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル – arXiv最新論文の紹介 (devneko.jp)のver2
- GLIP-Lよりも高性能化しており、Flickr30KでSoTAなど高いパフォーマンス。
- GitHub – microsoft/GLIP: Grounded Language-Image Pre-training

Learning Imbalanced Datasets with Maximum Margin Loss

Learning Imbalanced Datasets with Maximum Margin Loss [21.3]
クラス不均衡データ学習問題を考慮した学習アルゴリズムとして,最大マージン(MM)を提案する。我々は、シフトする決定境界を通して有界なマージン一般化を最小化することで、新しい最大マージン損失関数を設計する。
論文参考訳（メタデータ） (Sat, 11 Jun 2022 00:21:41 GMT)
- 不均衡データへ対応可能な損失関数の提案。
- リポジトリはGitHub – ihaeyong/Maximum-Margin-LDAM: Learning Imbalanced Datasets With Maximum Margin Losss

YiTrans End-to-End Speech Translation System

The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [90.2]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 16:13:01 GMT)
- E2Eのスピーチ翻訳、昨年に比べて +5.2 BLEU と進化が速い。
- リポジトリはGitHub – microsoft/SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

TwiBot-22: Twitterボット検出用ベンチマーク

TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 09:05:30 GMT)
- 大規模なTwitterボット検出用データセット・ベンチマーク。マルチモーダルの利用も可能とのこと。
- リポジトリはTwiBot-22: Towards Graph-Based Twitter Bot Detection (twibot22.github.io)

MLP-3D

MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.4]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。結果は、最先端の3D CNNやビデオトランスフォーマーに匹敵する。
論文参考訳（メタデータ） (Mon, 13 Jun 2022 16:21:33 GMT)
- 動画に対する処理でもMLPがCNNやtransformerに匹敵とのこと。2次元画像でも繰り広げられた話題であるが、結局どこがポイントになっとるんだろうか。
- リポジトリはGitHub – ZhaofanQiu/MLP-3D: PyTorch implementation of CVPR2022 paper MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing.

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30