コンテンツへスキップ
- Evolution through Large Models [15.0]
- コードを生成するために訓練された大言語モデル(LLM)は、遺伝的プログラミング(GP)プログラムに適用された突然変異演算子の有効性を大幅に改善することができる。 大型モデル(ELM)による進化の広大さを強調するため、ELMとMAP-Elitesを組み合わせたメイン実験では、動作補助ロボットを出力するPythonプログラムの数十万の関数例が生成される。 トレーニングデータがこれまで利用できなかったドメインにおいて、特定のコンテキストに対して適切なアーティファクトを出力できる新しいモデルをブートストラップする機能には、オープンディペンデンス、ディープラーニング、強化学習といった意味がある。
- 論文 参考訳(メタデータ) (Fri, 17 Jun 2022 17:07:04 GMT)
- 遺伝的プログラミングに大規模言語モデルを組み合わせる(Evolution through Large Models)ことで大規模言語モデルが想定しないような事例にも対応可能なコードを生成することが可能とのこと。
- 論文にもあるようにLLMを使っていれば突然変異の範囲が限定され、より良いものが得られる可能性が高まるように思う。非常に興味深い。
- Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (Wed, 22 Jun 2022 01:11:29 GMT)- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions [49.0]
クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。 ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。 深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
論文 参考訳(メタデータ) (Wed, 15 Jun 2022 15:05:13 GMT)- ありそうであまり見ない気がするDeep Clusteringのサーベイ。引用数246と大規模。
- A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。 データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
論文 参考訳(メタデータ) (Tue, 14 Jun 2022 01:40:09 GMT)- データ拡張に関するサーベイ。
- AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。
- GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。 一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 20:31:28 GMT)
- Learning Imbalanced Datasets with Maximum Margin Loss [21.3]
クラス不均衡データ学習問題を考慮した学習アルゴリズムとして,最大マージン(MM)を提案する。 我々は、シフトする決定境界を通して有界なマージン一般化を最小化することで、新しい最大マージン損失関数を設計する。
論文 参考訳(メタデータ) (Sat, 11 Jun 2022 00:21:41 GMT)
- The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [90.2]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。 最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 16:13:01 GMT)
- TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。 さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 09:05:30 GMT)
- MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.4]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。 結果は、最先端の3D CNNやビデオトランスフォーマーに匹敵する。
論文 参考訳(メタデータ) (Mon, 13 Jun 2022 16:21:33 GMT)
- SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。 曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。 私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
論文 参考訳(メタデータ) (Thu, 16 Jun 2022 17:59:52 GMT)- 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
- プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0