数学 – ページ 2 – arXiv最新論文の紹介

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.7]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文参考訳（メタデータ） (Tue, 6 Dec 2022 04:37:51 GMT)
数学問題のベンチマークとそれらを解く手法の提案
リポジトリはchen-judge/UniGeo (github.com)

Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 17:41:26 GMT)
- 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。
- プロジェクトサイトはallenai/Lila: A unified benchmark for math reasoning (github.com)。モデルはallenai/bhaskara · Hugging Face
- 名称はバースカラ2世 – Wikipediaの著書からのよう。

Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 08:01:04 GMT)
- 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。
- リポジトリはTabMWP

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。

DeepMindが競技プログラミングを解けるレベルの自動コード生成が可能なAlphaCodeを発表
- Competitive programming with AlphaCode | DeepMind
OpenAIは数学オリンピックの問題を解く（大幅に性能向上させた）AIを発表　
- Solving (Some) Formal Math Olympiad Problems (openai.com)