数学 – arXiv最新論文の紹介

Probing for Arithmetic Errors in Language Models

Probing for Arithmetic Errors in Language Models [86.8]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文参考訳（メタデータ） (Wed, 16 Jul 2025 16:27:50 GMT)
「Starting with a controlled set- ting of 3-digit addition, we show that simple probes can accurately decode both the model’s predicted output and the correct an- swer from hidden states, regardless of whether the model’s output is correct.」はまぁできるだろうとして、「We then extend this analysis to a more complex setting, where the model is asked to solve math word problems only requiring addition (Cobbe et al , 2021) using a structured chain-of-thought (CoT) format (Wei et al , 2022), in which intermediate steps are expressed as equations (e g , <a+b=c>). Remarkably, we find that the same probes trained on simple arithmetic queries can be applied directly to this setting, maintaining over 80% accuracy in detecting whether the model is producing correct intermediate results.」やself correlationに役立ったりは面白い結果。

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.3]
視覚的依存を明示する多モーダル数学的推論のための総合的なベンチマークであるVCBENCHを紹介する。 VCBENCHには6つの認知領域に1,720の問題がある。我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文参考訳（メタデータ） (Tue, 29 Apr 2025 03:45:30 GMT)
Visionに依存するよう設計された数学推論ベンチマークの提案
リポジトリはBenchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Gemini-Exp-1114, Alpha Fold 3, Frontier Math

先週の大きなニュースは業界標準になりつつあるhttps://lmarena.ai/?leaderboardで、Geminiの最新バージョン（試験運用版モデル | Gemini API | Google AI for Developers）が一位をとったこと、Alpha Fold 3が公開されたこと（AlphaFold – Google DeepMind、GitHub – google-deepmind/alphafold3: AlphaFold 3 inference pipeline.）だったと思う。やはり、Google, DeepMindは凄い。

そのほか。極めて難しい数学的問題を集めたFrontierMathベンチマークの登場も興味深かった。もはや人でも相当の専門家以外は扱えない問題になっているがこれらをLeakなく解くモデルが現れるのはいつになるのだろうか。（意外と近い将来な気もしていて期待と不安がある）

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.1]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文参考訳（メタデータ） (Thu, 14 Nov 2024 16:26:03 GMT)
「Current state-of-the-art AI models solve under 2% of problems」という極めてチャレンジングな問題。

Number Cookbook: Number Understanding of Language Models and How to Improve It

Number Cookbook: Number Understanding of Language Models and How to Improve It [64.0]
大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
論文参考訳（メタデータ） (Wed, 06 Nov 2024 08:59:44 GMT)
LLMにおける numerical understanding and processing ability (NUPA)の分析と、その改善方法の検討。現状だとコード生成を介すなどツールを使うアプローチが有力だが、「1) we want to study the self-contained NUPA of LLMs,　2) calling external tools whenever encountering numbers increases the inference latency (Xu et al , 2024), and 3) we believe NUPA without tools is a necessary ability of AGI.」という点から本件ではツール利用が検討対象外となっている。
現時点では「We investigate NUPA of LLMs and introduce a comprehensive benchmark, the NUPA test, to reveal that numerical problems remain challenging for modern LLMs.」とのこと。やはり難しい問題。実用上はコード生成を介すなどして対応できなくはないが・・・。
リポジトリはGitHub – GraphPKU/number_cookbook

AlphaProof, AlphaGeometry2

AI achieves silver-medal standard solving
形式的数学推論のための新しい強化学習システムであるalphaproofと,改良されたジオメトリシステムであるalphageometry 2を提案する。これらのシステムは6つ問題のうち4つを解決し今年の国際数学オリンピック(IMO)で、初めて銀メダリストと同じレベルを達成した。IMOは、1959年以来毎年開催される若手数学者の最も古く、最も大きく、最も名高い競技である。フィールドズメダルの受賞者の多くは、数学者にとって最高の栄誉の1つであり、IMOで国を代表している。
AI achieves silver-medal standard solving International Mathematical Olympiad problems – Google DeepMind

Google DeepMindによる発表で、数学オリンピックで銀メダルに相当するAIを構築とのこと。特化したモデルとはいえ数学でトップレベルを達成したのは凄い。

Multilingual Mathematical Reasoning

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 06:56:14 GMT)
多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。 rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

MathCoder

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [53.0]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 17:52:09 GMT)
数学の問題を解くためにコードを用いるアプローチ、オープンなLLMをSFTするアプローチ。
大きな改変を行うにはやはりSFTで、オープンなモデルは重要だなという印象。
リポジトリはGitHub – mathllm/MathCoder: Family of LLMs for mathematical reasoning.

MathVista

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
論文参考訳（メタデータ） (Tue, 3 Oct 2023 17:57:24 GMT)
視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。
現時点ではMultimodal Bardが最も高いスコアを達成とのこと（GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待）いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

MathGLM

GPT Can Solve Mathematical Problems Without a Calculator [24.1]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文参考訳（メタデータ） (Wed, 6 Sep 2023 06:18:16 GMT)
LLMで算術計算（多桁数、小数点数、分数）は可能という論文。妥当なデータセットが構築できればLLMでの算術計算は可能なのでは？と直感的にも思うが、可能という結論になっている。

数学的推論とDeep Learningのサーベイ

A Survey of Deep Learning for Mathematical Reasoning [71.9]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文参考訳（メタデータ） (Tue, 20 Dec 2022 18:46:16 GMT)
研究が盛んでぼちぼちできるようになりつつある数学的推論のサーベイ。
リポジトリはGitHub – lupantech/dl4math: Reading list for research topics in mathematical reasoning and artificial intelligence

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31