LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 

  • LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.3]
    事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
    論文  参考訳(メタデータ)   (Sat, 13 Jul 2024 07:36:49 GMT)
  • fine tuning用のデータを拡張していくフレームワークの提案。間違った部分に注目するアプローチでLlama-2-7Bを用いて有効性を検証とのこと。
  • リポジトリはGitHub – SqueezeAILab/LLM2LLM: [ACL 2024] LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

上記には要注目。公開モデルの動きも速い。

  • Qwen2 Technical Report [139.8]
    Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。 言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 12:35:42 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
  • リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.
  • Qwen2-Audio Technical Report [73.9]
    本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。 我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 14:38:09 GMT)
  • 「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
  • リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.
  • Scaling Granite Code Models to 128K Context [37.3]
    本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。 私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 17:46:02 GMT)
  • IBMのGraniteも128Kと長いコンテキストに対応
  • リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

  • Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7]
    AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。 ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 11:26:07 GMT)
  • ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。
  • 自己改善、合成データ活用の文脈でも非常に興味深い。
  • AgentInstruct: Toward Generative Teaching with Agentic Flows [12.2]
    我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。 本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。 テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 21:01:12 GMT)
  • 上記とは異なりAgenticなデータ合成アプローチも有望。

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models 

  • SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.1]
    SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 06:34:21 GMT)
  • 一般にLLMで扱いにくいスプレッドシートに対処するためのフレームワークの提案。
  • 「structural-anchor-based extraction, invertedindex translation, data-format-aware aggregation」でMarkdownライクなテキストに変換するアプローチ。さらにはテーブル認識と境界識別を分けるChain of Spreadsheet を提案、ベンチマークでのSOTAを主張
  • マイクロソフトの論文で「Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs).」と書かれると複雑な気持ちになる。

Retrieved In-Context Principles from Previous Mistakes 

  • Retrieved In-Context Principles from Previous Mistakes [55.1]
    In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。 近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。 本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 07:32:26 GMT)
  • 「a teacher-student framework designed to prevent the student model from making previous mistakes.」というフレームワークの提案。学生モデルが犯したミスを教師モデルが分析し、従うべき原則を作っていくフレームワークを提案。様々なベンチマークで効果を確認とのこと。
  • 潜在的なLeakageがないか気になるが、エージェント的動作の結果を「原則」にまとめて再利用可能にしていると考えれば効果がありそう。

Large Language Models Understand Layouts

  • Large Language Models Understand Layouts [6.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。 レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 09:03:12 GMT)
  • LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
  • リポジトリはGitHub – liweim/TextLayoutLLM

How Does Quantization Affect Multilingual LLMs? 

  • How Does Quantization Affect Multilingual LLMs? [50.9]
    量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。 量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:39:40 GMT)
  • LLMに対する量子化の影響を多言語の観点で調査した論文。「(1) Damage from quantization is much worse than appears from automatic metrics: even when not observed automatically, human evaluators notice it.」、「(2) Quantization affects languages to varying degrees, with nonLatin script languages more severely affected on automatic benchmarks.」、「(3) Challenging tasks degrade fast and severely: math performance is strikingly reduced, as are responses on realistic challenging」という結論。
  • 多言語(というか日本語)への影響は経験的にもそうだと思う。英語以外の対応にも力を入れているCohereらしい調査な気がする。

CausalScore

  • CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5]
    本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。 実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 06:08:16 GMT)
  • 「we propose a novel metric CausalScore to quantify the relevance of responses by estimating the causal strength (Janzing et al , 2013a) between utterances and responses, where causal strength measures the strength of causal relations.」という指標の提案、および評価データセットの構築
  • リポジトリはGitHub – WilliamsToTo/causalscore_dialogue

PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

  • PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.7]
    大規模言語モデル(LLM)はNLPの分野に革命をもたらした。 本研究では,機械翻訳(MT)および要約データセット上で,オープンソースのLLMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 17:56:29 GMT)
  • 機械翻訳と要約を対象とした大規模なプロンプトテンプレートの評価。複数のオープンなLLMで検証しており、LLM間の性能差も参考になる。コードが公開されたら細かく見てみたいところ。
  • プロジェクトサイトはNLLG (nl2g.github.io)、リポジトリはGitHub – Gringham/PrExMe

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods 

  • Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.1]
    テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。 AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。 AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
    論文  参考訳(メタデータ)   (Fri, 21 Jun 2024 18:31:49 GMT)
  • テキスト生成されたものか否かを検出する手法に関するサーベイ、広範な内容。
  • 必要性は認識しているが困難というタスクであり、現状を知るのにとても良い。