LLM – ページ 42 – arXiv最新論文の紹介

Think before you speak: Training Language Models With Pause Tokens

Think before you speak: Training Language Models With Pause Tokens [78.0]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう? 私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文参考訳（メタデータ） (Tue, 3 Oct 2023 17:32:41 GMT)
pause-inference (and pause-finetuning)として推論（ファインチューニング）時に<pause> tokenを導入、pause中は出力を抑制、抑制している分だけ（<pause> token分だけ）計算経路を増加、性能が向上とのこと。

MathCoder

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [53.0]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 17:52:09 GMT)
数学の問題を解くためにコードを用いるアプローチ、オープンなLLMをSFTするアプローチ。
大きな改変を行うにはやはりSFTで、オープンなモデルは重要だなという印象。
リポジトリはGitHub – mathllm/MathCoder: Family of LLMs for mathematical reasoning.

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.8]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 TORA-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れている。
論文参考訳（メタデータ） (Fri, 29 Sep 2023 17:59:38 GMT)
Tool-integrated Reasoning Agentを実現するモデルの提案。Promptを工夫するアプローチではなくLlama-2やCodeLLaMAをfine tuningしている。結果、比較的小規模のモデルでも高い性能を達成とのこと。
リポジトリはGitHub – microsoft/ToRA: ToRA is a series of Tool-integrated Reasoning LLM Agents designed to solve challenging mathematical reasoning problems by interacting with tools.

All Languages Matter: On the Multilingual Safety of Large Language Models

All Languages Matter: On the Multilingual Safety of Large Language Models [101.3]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (Mon, 2 Oct 2023 05:23:34 GMT)
LLMへの攻撃に対するベンチマーク、「Our empirical studies show that these LLMs perform much unsafer in non-English languages than in English, calling for the development of safety alignment beyond English.」とのことでLLMが広く使われるにつれ多言語の考慮はとても重要になりそう。
リポジトリはGitHub – Jarviswang94/Multilingual_safety_benchmark: Multilingual safety benchmark for Large Language Models

Large Language Model Alignment

Large Language Model Alignment: A Survey [42.0]
大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
論文参考訳（メタデータ） (Tue, 26 Sep 2023 15:49:23 GMT)
LLMのAlignmentに関するサーベイ。50ページ超と包括的なサーベイ。進展が速い…

MathVista

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
論文参考訳（メタデータ） (Tue, 3 Oct 2023 17:57:24 GMT)
視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。
現時点ではMultimodal Bardが最も高いスコアを達成とのこと（GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待）いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

Benchmarking Large Language Models As AI Research Agents

Benchmarking Large Language Models As AI Research Agents [105.7]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 04:06:12 GMT)
データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
リポジトリはGitHub – snap-stanford/MLAgentBench

SCALE: Specialized Translation Models (STMs) + general-purpose Large Language Models (LLMs)

SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.9]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (Fri, 29 Sep 2023 08:46:38 GMT)
特化型の翻訳モデルと汎用的なLLMを併用する機械翻訳
STMからの翻訳草案をLLMでrefineするイメージ（？）、低リソースな言語に対して特に有効とのこと。

GPT-4V, LLaVA-1.5

GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
論文参考訳（メタデータ） (Fri, 29 Sep 2023 17:34:51 GMT)
GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

Improved Baselines with Visual Instruction Tuning [79.3]
LLaVAの完全接続型ビジョン指向クロスモーダルコネクタは驚くほど強力で,データ効率がよいことを示す。 11のベンチマークで最先端を達成するための、より強力なベースラインを確立します。最後の13Bチェックポイントは1.2万の公開データのみを使用し、単一の8-A100ノードで1日でフルトレーニングを終えます。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 17:59:56 GMT)
OSSのマルチモーダルモデル、LLaVA-1.5の論文。多くのベンチマークでSoTAを主張。
プロジェクトサイト、デモはLLaVA (llava-vl.github.io)、リポジトリはGitHub – haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.

Analogical Prompting

Large Language Models as Analogical Reasoners [156.0]
アナロジカル・プロンプティング(Analogical Prompting)は、大規模言語モデルの推論プロセスを自動的にガイドするように設計されている。類推的推論にインスパイアされた我々のアプローチは、文脈における関連する経験や知識を自己生成するよう言語モデルに促す。実験の結果,本手法は様々な推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。
論文参考訳（メタデータ） (Tue, 3 Oct 2023 00:57:26 GMT)
過去の経験を思い出すようにPromptを構成、高い性能を達成とのこと。5 shot CoTを超えているのに驚き。LLM内の知識はどんな量なんだろう。
「Generating relevant and diverse exemplars is important」、「 Single-pass vs. independent exemplar generation: An alternative approach is to independently generate exemplars by separately sampling them from the LLM and then re-prompt the LLM with all the exemplars.」に対し、「single-pass prompt approach achieves comparable performance」、「Through experimentation, we have found that generating K = 3 to 5 exemplars works the best」などFindingsも興味深い。

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31