コンテンツへスキップ
- Transformers without Normalization [58.8]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。 我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:06 GMT)
- 「We introduce Dynamic Tanh (DyT), an element-wise operation DyT(x) = tanh(αx), as a drop-in replacement for normalization layers in Transformers.」とのこと。知見として興味深く、「DyT improves training and inference speed, making it a candidate for efficiency-oriented network design.」と計算コスト的にも有利とのこと。
- Simulating the Real World: A Unified Survey of Multimodal Generative Models [48.4]
実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。 我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
論文 参考訳(メタデータ) (Thu, 06 Mar 2025 17:31:43 GMT)
- 生成AIが実世界をシミュレーションにつながるかは議論が分かれるが、「In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation.」というサーベイ。
- 様々な研究は進むもののハードルはかなり高い印象。
- You Only Debias Once: Towards Flexible Accuracy-Fairness Trade-offs at Inference Time [132.0]
ディープニューラルネットワークは、様々なバイアス問題に悩まされがちで、高い意思決定のための応用を危うくしている。 推論時間におけるフレキシブルな精度-公正トレードオフを実現するために,You Only Debias Once (YODO)を提案する。 YODOは、モデル精度と公平性の間の柔軟なトレードオフを、超低オーバーヘッドで達成します。
論文 参考訳(メタデータ) (Mon, 10 Mar 2025 08:50:55 GMT)
- 「Instead of pursuing one individual fixed point (fairness-optimum) in the weight space, we aim to find a “line” in the weight space that connects the accuracyoptimum and fairness-optimum points using a single model.」し、推論時にどのポイントを使うか選ぶアプローチのDebias手法の提案。
- 「After training a model f(x; ω1, ω2, α) with two sets of parameters ω1 and ω2, the prediction procedure for a test sample x is i) Choose the desired trade-off parameter α, which controls the balance between accuracy and fairness, ii) Compute the weighted combination of the two sets of trained weights, (1 − α)ω1 + αω2, to obtain the model parameters for the desired trade-off, iii) Compute the prediction function to the test sample x as f(x; (1 − α)ω1 + αω2), to obtain the predicted output.」というのできちんと動作するのが面白い。
- リポジトリはGitHub – ahxt/yodo