コンテンツへスキップ
- Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
論文 参考訳(メタデータ) (Tue, 27 Jun 2023 09:11:34 GMT)
- マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
- リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub
- Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step [122.6]
思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。 オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。 そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるSymbolic Chain-of-Thought Distillation (SCoTD)を紹介した。
論文 参考訳(メタデータ) (Sat, 24 Jun 2023 20:15:07 GMT)
- 小規模なモデルでもChain of Thougthが有効であること、また、それを生かすために有効な蒸留方法Symbolic Chain-of-thought Distillation (SCoTD)の提案。タスクにもよるがベンチマーク結果からはかなり有効な手法に見える。
- リポジトリはhttps://github.com/allenai/cot_distillationとのことだが、現時点では404