コンテンツへスキップ
- SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model [33.9]
SmolLM2は、最先端の”小” (170億のパラメータ) 言語モデルである。 我々はSmolLM2を1兆のトークンでオーバートレーニングし、Webテキストと特殊な算数、コード、命令追従データとを混合する多段階のトレーニングプロセスを用いた。 我々は、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bなど、最近の小さなLMよりも優れていることを示した。
論文 参考訳(メタデータ) (Tue, 04 Feb 2025 21:43:16 GMT)
- HuggingfaceによるSLM、「SmolLM2 advances the state-of-the-art for open small LMs through a combination of careful dataset curation and multistage training.」とのこと。「SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B.」を主張
- リポジトリはSmolLM2 – a HuggingFaceTB Collection
- PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.9]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。 本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。 以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 03:52:39 GMT)
- VLMが物理を理解しているかを測るベンチマークとAgenticな physical world understandingフレームワーク、PhysAgentの提案。
- 現状の結果は意外なことに(?) o1 > InternVL2.5-38B > InternVL2.5-78B > GPT-4o > Gemini-1.5-pro
- プロジェクトサイトはPhysBench、データセットはUSC-GVL/PhysBench · Datasets at Hugging Face