TiMoE: Time-Aware Mixture of Language Experts

  • TiMoE: Time-Aware Mixture of Language Experts [30.8]
    大規模言語モデル(LLM)は通常、Webの固定スナップショットに基づいてトレーニングされる。 我々は,2013-2024コーパスの2年スライスを分割し,TiMoEで組み合わせることで,GPTスタイルのエキスパートセットをスクラッチから事前学習することで,この問題に対処する。 推論時にTiMoEは、クエリタイムスタンプ後にトレーニングウィンドウが終了するすべての専門家をマスクし、残りのログ確率を共有スペースにマージする。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 10:36:36 GMT)
  • 「TiMoE demonstrates that partitioning pre-training data into strict time slices and blending the resulting GPT-2 experts through a causal, timestamp-aware router yields language models that stay chronologically grounded without a heavy accuracy penalty. By masking out any expert trained on data newer than the query year, TiMoE eliminates future-knowledge leakage while letting earlier specialists cooperate, cutting temporally inconsistent answers on the new 10 k-question TSQA benchmark by roughly 15%and delivering steadier accuracy across years.」というアプローチの時間情報の取り扱い。time-specific expertsを扱う面白いフレームワーク。とはいえパラメータ効率的にどうなんだろうと思わなくはない。
  • リポジトリはhttps://github.com/epfml/TiMoEとのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です