コンテンツへスキップ
- Large Language Model Alignment: A Survey [42.0]
大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。 この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。 また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
論文 参考訳(メタデータ) (Tue, 26 Sep 2023 15:49:23 GMT)
- LLMのAlignmentに関するサーベイ。50ページ超と包括的なサーベイ。進展が速い…
- MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
論文 参考訳(メタデータ) (Tue, 3 Oct 2023 17:57:24 GMT)
- 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。
- 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
- どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
- リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context