TiMoE: Time-Aware Mixture of Language Experts [30.8] 大規模言語モデル(LLM)は通常、Webの固定スナップショットに基づいてトレーニングされる。 我々は,2013-2024コーパスの2年スライスを分割し,TiMoEで組み合わせることで,GPTスタイルのエキスパートセットをスクラッチから事前学習することで,この問題に対処する。 推論時にTiMoEは、クエリタイムスタンプ後にトレーニングウィンドウが終了するすべての専門家をマスクし、残りのログ確率を共有スペースにマージする。 論文参考訳(メタデータ) (Tue, 12 Aug 2025 10:36:36 GMT)
「TiMoE demonstrates that partitioning pre-training data into strict time slices and blending the resulting GPT-2 experts through a causal, timestamp-aware router yields language models that stay chronologically grounded without a heavy accuracy penalty. By masking out any expert trained on data newer than the query year, TiMoE eliminates future-knowledge leakage while letting earlier specialists cooperate, cutting temporally inconsistent answers on the new 10 k-question TSQA benchmark by roughly 15%and delivering steadier accuracy across years.」というアプローチの時間情報の取り扱い。time-specific expertsを扱う面白いフレームワーク。とはいえパラメータ効率的にどうなんだろうと思わなくはない。