- TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (Tue, 23 May 2023 22:35:20 GMT) - 定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
- GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
- リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset
日: 2023年6月7日
EmbodiedGPT
- EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。 本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。 実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (Wed, 24 May 2023 11:04:30 GMT) - LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
- リポジトリはEmbodiedGPT