Mistral 7B

LLMとFactuality

LLMとFactualityの関係は社会実装上大きな興味を持たれている。サーベイや評価フレームワークワークが立て続けに出ていた。

  • Factuality Challenges in the Era of Large Language Models [113.3]
    大規模言語モデル(LLM)は、誤った、誤った、あるいは誤解を招くコンテンツを生成する。 LLMは悪意のあるアプリケーションに利用することができる。 これは、ユーザーを欺く可能性があるという点で、社会に重大な課題をもたらす。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 03:34:46 GMT)
  • 社会実装に重きを置いた調査と提言、「Given the rapid and widespread growth in the use of LLMs, society must act quickly with appropriate regulation, education, and collaboration.」と規制より。

MPSC: Multi-Perspective Self-Consistency

  • Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [137.3]
    大規模言語モデル(LLM)のためのMPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。 MPSCは、複数の視点からの出力間での一貫性と、単一の視点内での一貫性の両方を取り入れている。 我々のフレームワークは、様々な人気のあるベンチマークのパフォーマンスを大幅に向上させます。
    論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 14:23:26 GMT)
  • LLMの複数の出力を用い、 inter- and intraconsistency を考慮して最適な出力を選択。通常のSelf consistencyな戦略を上回る性能とのこと。
  • 「Our MPSC framework significantly boosts the performance on various popular benchmarks, including HumanEval (+17.60%), HumanEval Plus (+17.61%), MBPP (+6.50%) and CodeContests (+11.82%) in Pass@1, when compared to original outputs generated from ChatGPT, and even surpassing GPT-4.」はすごい。

Think before you speak: Training Language Models With Pause Tokens

  • Think before you speak: Training Language Models With Pause Tokens [78.0]
    言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。 代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう? 私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:32:41 GMT)
  •  pause-inference (and pause-finetuning)として推論(ファインチューニング)時に<pause> tokenを導入、pause中は出力を抑制、抑制している分だけ(<pause> token分だけ)計算経路を増加、性能が向上とのこと。

MathCoder

  • MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [53.0]
    本稿では,オープンソース言語モデルを微調整する手法を提案する。 本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。 このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 17:52:09 GMT)
  • 数学の問題を解くためにコードを用いるアプローチ、オープンなLLMをSFTするアプローチ。
  • 大きな改変を行うにはやはりSFTで、オープンなモデルは重要だなという印象。
  • リポジトリはGitHub – mathllm/MathCoder: Family of LLMs for mathematical reasoning.

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

  • ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.8]
    ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 TORA-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れている。
    論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:59:38 GMT)
  •  Tool-integrated Reasoning Agentを実現するモデルの提案。Promptを工夫するアプローチではなくLlama-2やCodeLLaMAをfine tuningしている。結果、比較的小規模のモデルでも高い性能を達成とのこと。
  • リポジトリはGitHub – microsoft/ToRA: ToRA is a series of Tool-integrated Reasoning LLM Agents designed to solve challenging mathematical reasoning problems by interacting with tools.

All Languages Matter: On the Multilingual Safety of Large Language Models

  • All Languages Matter: On the Multilingual Safety of Large Language Models [101.3]
    我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。 本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 2 Oct 2023 05:23:34 GMT)
  • LLMへの攻撃に対するベンチマーク、「Our empirical studies show that these LLMs perform much unsafer in non-English languages than in English, calling for the development of safety alignment beyond English.」とのことでLLMが広く使われるにつれ多言語の考慮はとても重要になりそう。
  • リポジトリはGitHub – Jarviswang94/Multilingual_safety_benchmark: Multilingual safety benchmark for Large Language Models

Large Language Model Alignment

  • Large Language Model Alignment: A Survey [42.0]
    大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。 この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。 また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
    論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 15:49:23 GMT)
  • LLMのAlignmentに関するサーベイ。50ページ超と包括的なサーベイ。進展が速い…

MathVista

  • MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
    大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:57:24 GMT)
  • 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。 
  • 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
  • どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
  • リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

Benchmarking Large Language Models As AI Research Agents

  • Benchmarking Large Language Models As AI Research Agents [105.7]
    我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。 我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。 長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 04:06:12 GMT)
  • データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
  • リポジトリはGitHub – snap-stanford/MLAgentBench