MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

  • MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.7]
    1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。 私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。 実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 17:59:03 GMT)
  • 「We present TEXTBOOKREASONING and MEGASCIENCE, two datasets that advance the frontier in the scientific domain by enabling base models to outperform official instruct models on scientific tasks when fine-tuned with our data.」
  • リポジトリはGAIR-NLP/MegaScience: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science ReasoningMegaScience (MegaScience)

OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction 

  • OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction [62.4]
    OmniTrajは、大規模な異種データセットで事前トレーニングされたトランスフォーマーベースのモデルである。 実験によると、フレームレートを明示的に条件付けすることで、OmniTrajは最先端のゼロショット転送性能を実現することができる。
    論文  参考訳(メタデータ)   (Thu, 31 Jul 2025 15:37:09 GMT)
  • 「We tackled the critical challenge of zero-shot transfer in human trajectory prediction. Our systematic investigation revealed that a simple, explicit frame-rate conditioning mechanism is a more effective solution than current data-unaware or continuous-time models.」とのことでゼロショットでの予測に効果があるアプローチの提案。フレームレートを明示的に扱えるTransformerの柔軟性に若干驚き。
  • リポジトリはvita-epfl/omnitraj