Multilingual Mathematical Reasoning

  • Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
    本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。 翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。 我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 06:56:14 GMT)
  • 多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。  rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
  • リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

MathCoder

  • MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [53.0]
    本稿では,オープンソース言語モデルを微調整する手法を提案する。 本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。 このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 17:52:09 GMT)
  • 数学の問題を解くためにコードを用いるアプローチ、オープンなLLMをSFTするアプローチ。
  • 大きな改変を行うにはやはりSFTで、オープンなモデルは重要だなという印象。
  • リポジトリはGitHub – mathllm/MathCoder: Family of LLMs for mathematical reasoning.

MathVista

  • MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
    大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:57:24 GMT)
  • 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。 
  • 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
  • どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
  • リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

MathGLM

  • GPT Can Solve Mathematical Problems Without a Calculator [24.1]
    大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。 また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
    論文  参考訳(メタデータ)   (Wed, 6 Sep 2023 06:18:16 GMT)
  • LLMで算術計算(多桁数、小数点数、分数)は可能という論文。妥当なデータセットが構築できればLLMでの算術計算は可能なのでは?と直感的にも思うが、可能という結論になっている。

数学的推論とDeep Learningのサーベイ

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

  • UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
    計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。 我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 04:37:51 GMT)
  • 数学問題のベンチマークとそれらを解く手法の提案
  • リポジトリはchen-judge/UniGeo (github.com)

LILA(Lilavatiより?)

  • Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
    LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。 我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 17:41:26 GMT)
    • 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。

TabMWP: Tabular Math Word Problem

  • Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
    数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 08:01:04 GMT)
    • 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。

競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。