Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs 

  • Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.4]
    o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。 本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。 精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 18:55:12 GMT)
  • 「This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit.」とoverthinkingに焦点を当てた興味深い論文。

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey 

  • Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey [93.7]
    Next Token Prediction (NTP)は、機械学習タスクの多目的な学習目標である。 本調査では,マルチモーダル学習における理解と生成を一体化する包括的分類法を導入する。 提案した分類法は,マルチモーダルトークン化,MMNTPモデルアーキテクチャ,統合タスク表現,データセットと評価,オープンチャレンジの5つの重要な側面を網羅している。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 03:00:30 GMT)
  • 一般的なテクニックとなったNext token predictionのサーベイ、マルチモーダルな学習を対象にしている。
  • リポジトリはGitHub – LMM101/Awesome-Multimodal-Next-Token-Prediction: Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey