MINT: Multi-turn INTeraction ベンチマーク

  • MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
    我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 15:25:42 GMT)
  • マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。(フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる)

ALMA: Advanced Language Model-based trAnslator

  • A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models [27.8]
    生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。 提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。 LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
    論文  参考訳(メタデータ)   (Wed, 20 Sep 2023 22:53:15 GMT)
  • Llama-2をベースとした機械翻訳手法の提案、Monolingual Data Fine-tuning( add English monolingual data during fine-tuning to prevent English knowledge forget) → High-Quality Data Fine-tuningという流れとのこと。
  • リポジトリはGitHub – fe1ixxu/ALMA: This is repository for ALMA translation models.

PDFTriage

  • PDFTriage: Question Answering over Long, Structured Documents [64.6]
    構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。 本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。 本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmentedモデルの有効性を実証するものである。
    論文  参考訳(メタデータ)   (Sat, 16 Sep 2023 04:29:05 GMT)
  • 構造化文書へについて分析し、PDFTriage(Generate document metadata → LLM-based triage → Answer using retrieved content)を提案、効果を確認。2 step目がfetch_pages, fetch_sections, fetch_table, fetch_figure, retrieveをAPI経由で呼び出す設計になっているのが面白い。
  • 「We identify a gap in question answering over structured documents with current LLM approaches, namely treating documents as plain text rather than structured objects;」はまさにその通りだと思う。PDF Triageのような手法ではなくRAGに近年のDocument understanding関連の成果を取り込むような方向性もあると思うが、早めに進化してほしいところ。

Document Understanding関連でもLLMの活用が進む

  • LMDX: Language Model-based Document Information Extraction and Localization [15.7]
    大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした 本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 22:32:56 GMT)
  • LLMを用いた文書からの情報抽出(OCRが起点)、LayoutLMv3を超えているのが凄い。

CoVe: Chain-of-Verification

  • Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
    言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。 モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。 ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
    論文  参考訳(メタデータ)   (Wed, 20 Sep 2023 17:50:55 GMT)
  • 初期回答を作成→検証計画(検証用の質問)を作成→検証(回答・合意確認)→最終回答とすることでHallucinationを防ぐ取り組み
  • 近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。

OpenBA

Baichuan 2, phi-1.5

  • Baichuan 2: Open Large-scale Language Models [50.4]
    我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 04:13:22 GMT)
  • GitHub – baichuan-inc/Baichuan2: A series of large language models developed by Baichuan Intelligent Technology のテクニカルレポート
  • ソースコードはApache-2だが、モデルは独自ライセンスとなっている。
  • Textbooks Are All You Need II: phi-1.5 technical report [55.7]
    我々は、新しい13億のパラメータモデルphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。 textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。 我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
    論文  参考訳(メタデータ)   (Mon, 11 Sep 2023 14:01:45 GMT)
  • 高品質データの重要性が分かるPhi-1.5のテクニカルレポート
  • モデルはmicrosoft/phi-1_5 · Hugging Face

DePT: Decoupled Prompt Tuning

  • DePT: Decoupled Prompt Tuning [133.7]
    この作業は、即時チューニングにおいてBase-New Tradeoff (BNT)ジレンマを突破する。 チューニングされたモデルがベースタスクに一般化されるほど、それが新しいタスクに一般化される。 提案するDecoupled Prompt Tuning (DePT) フレームワークは,プロンプトチューニング中に特徴チャネルから独立した特徴空間へベース固有の知識を分離する。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 05:45:40 GMT)
  • GitHub – Koorye/DePT: Offical implemention of paper “Decoupled Prompt Tuning”

Large Language Models for Compiler Optimization

  • Large Language Models for Compiler Optimization [22.5]
    コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。 最適化前後の命令数と最適化コード自体を予測する。 提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
    論文  参考訳(メタデータ)   (Mon, 11 Sep 2023 22:11:46 GMT)
  • コードの最適化にLLMを使う報告。コンパイオプションを生成し他の手法に比べても有望な結果とのこと。
  • 「We present a 7B-parameter transformer model trained from scratch to optimize LLVM assembly for code size.」というのはLLMと言えるのか・・・?

LLMのAgents

  • Agents: An Open-source Framework for Autonomous Language Agents [97.0]
    我々は、言語エージェントを人工知能への有望な方向と見なしている。 Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 17:18:25 GMT)
  • オープンソースの言語エージェントフレームワーク
  • リポジトリはGitHub – aiwaves-cn/agents: An Open-source Framework for Autonomous Language Agents、The Agent Hubなる取り組みも予定しているようで期待大

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

  • When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
    大量のテキストデータが大きな言語モデルの開発に大きく貢献している。 これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。 より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
    論文  参考訳(メタデータ)   (Fri, 8 Sep 2023 19:34:05 GMT)
  • Cohere for AIによるデータ品質向上に関する報告
  • パープレキシティを用いるシンプル(?)な手法が高性能とのこと