Kosmos-2

  • Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
    マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 09:11:34 GMT)
  • マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
  • リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub

SCoTD: Symbolic Chain-of-Thought Distillation

  • Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step [122.6]
    思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。 オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。 そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるSymbolic Chain-of-Thought Distillation (SCoTD)を紹介した。
    論文  参考訳(メタデータ)   (Sat, 24 Jun 2023 20:15:07 GMT)
  • 小規模なモデルでもChain of Thougthが有効であること、また、それを生かすために有効な蒸留方法Symbolic Chain-of-thought Distillation (SCoTD)の提案。タスクにもよるがベンチマーク結果からはかなり有効な手法に見える。
  • リポジトリはhttps://github.com/allenai/cot_distillationとのことだが、現時点では404