KAN or MLP: A Fairer Comparison

  • KAN or MLP: A Fairer Comparison [63.8]
    本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。 パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。 我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
    論文  参考訳(メタデータ)   (Tue, 23 Jul 2024 17:43:35 GMT)
  • 以前話題にあったKAN: Kolmogorov-Arnold Networks – arXiv最新論文の紹介 (devneko.jp)とMLPの比較、「We found that KAN can be seen as a special type of MLP, with its uniqueness stemming from the use of learnable B-spline functions as activation functions.」、「Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN.」と評価。

MLP-3D

MLP? CNN? Transformer?

  • Can Attention Enable MLPs To Catch Up With CNNs? [33.7]
    多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、トランスフォーマーなど、学習アーキテクチャの簡単な歴史を提供する。 新たに提案された4つのアーキテクチャの共通点について検討し、今後の研究への刺激を期待する。
    論文  参考訳(メタデータ)   (Mon, 31 May 2021 16:08:46 GMT)
    • 最近のアーキテクチャを概説する論文。Long distance interactions, Local semantic information, Residual connections, Reduced inductive biasなど重要要素の取り扱いが記載されており、新しいアーキテクチャは従来のMLPではなく大きな進歩があると結論している。

Self-attentionは重要でない?

  • Pay Attention to MLPs [84.5]
    gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。 我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。 一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
    論文  参考訳(メタデータ)   (Mon, 17 May 2021 17:55:04 GMT)
    • 「Are Pre-trained Convolutions Better than Pre-trained Transformers? (このBlogの記事)」と似たような話だが、一定規模・計算量があればTransformerだからという優位性はないのかも。