A Careful Examination of Large Language Model Performance on Grade School Arithmetic 

Better & Faster Large Language Models via Multi-token Prediction

  • Better & Faster Large Language Models via Multi-token Prediction [29.1]
    GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。 複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Apr 2024 17:33:57 GMT)
  • 正直アイデアとしてはよく聞く予測対象の複線化、「Our experiments (up to 7B parameters and 1T tokens) show that this is increasingly useful for larger models and in particular show strong improvements for code tasks.」とのこと。実験的に示したのは重要な成果であると思う。
  • 結果の解釈も参考になる。

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

  • Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7]
    プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。 ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 17:59:35 GMT)
  • 評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。
  • リポジトリはGitHub – prometheus-eval/prometheus-eval: Evaluate your LLM’s response with Prometheus 💯

SCORE: Self-COrrection ability in REasoning tasks

  • Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.9]
    大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。 本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
    論文  参考訳(メタデータ)   (Fri, 26 Apr 2024 03:41:28 GMT)
  • 自己補正を強化するためのfine tuningプロセスの提案。学習用データをモデルに作らせるアプローチで自分自身を強化している感がある。
  • リポジトリはhttps://github.com/yunx-z/SCOREとのことだが、現在はNotFound

Weak-to-Strong Extrapolation Expedites Alignment

  • Weak-to-Strong Extrapolation Expedites Alignment [135.1]
    人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 17:39:50 GMT)
  • 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
  • リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”

KS-LLM: Knowledge Selection of Large Language Models with Evidence Document for Question Answering

  • KS-LLM: Knowledge Selection of Large Language Models with Evidence Document for Question Answering [35.9]
    大きな言語モデル(LLM)は幻覚の問題に悩まされ、知識集約的なタスクに適用した場合、重大な課題に直面します。 本稿では,証拠文書から貴重な情報を特定することを目的とした,大規模言語モデル(KS-LLM)の新たな知識選択手法を提案する。 まず、入力された質問に基づいて三つ組を生成し、次に証拠文書から三つ組に最もよく似たエビデンス文を選択し、最後に、エビデンス文と三つ組を組み合わせ、大きな言語モデルで回答を生成する。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 05:32:41 GMT)
  • トリプルを使うタイプの知識選択手法。効果は一定ありそう?

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

  • Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
    視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 17:59:48 GMT)
  • マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
  • リポジトリはCantor (ggg0919.github.io)

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

AI Competitions and Benchmarks: Dataset Development

  • AI Competitions and Benchmarks: Dataset Development [42.2]
    本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。 データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。 次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
    論文  参考訳(メタデータ)   (Mon, 15 Apr 2024 12:01:42 GMT)
  • データセット作成のための実践的な解説
  • このような視点の論文はあまりなく、とても参考になる。

TinyChart

  • TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.6]
    本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 14:23:24 GMT)
  • チャート理解のためのMLLM。3Bと小型。学習時に「 Program-of-Thoughts learning method that trains the model to generate Python programs to answer questions」という工夫を行っている。
  • リポジトリはmPLUG-DocOwl/TinyChart at main · X-PLUG/mPLUG-DocOwl · GitHub