GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

上記には要注目。公開モデルの動きも速い。

  • Qwen2 Technical Report [139.8]
    Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。 言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 12:35:42 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
  • リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.
  • Qwen2-Audio Technical Report [73.9]
    本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。 我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 14:38:09 GMT)
  • 「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
  • リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.
  • Scaling Granite Code Models to 128K Context [37.3]
    本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。 私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 17:46:02 GMT)
  • IBMのGraniteも128Kと長いコンテキストに対応
  • リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

  • Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7]
    AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。 ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 11:26:07 GMT)
  • ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。
  • 自己改善、合成データ活用の文脈でも非常に興味深い。
  • AgentInstruct: Toward Generative Teaching with Agentic Flows [12.2]
    我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。 本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。 テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 21:01:12 GMT)
  • 上記とは異なりAgenticなデータ合成アプローチも有望。

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models 

  • SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.1]
    SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 06:34:21 GMT)
  • 一般にLLMで扱いにくいスプレッドシートに対処するためのフレームワークの提案。
  • 「structural-anchor-based extraction, invertedindex translation, data-format-aware aggregation」でMarkdownライクなテキストに変換するアプローチ。さらにはテーブル認識と境界識別を分けるChain of Spreadsheet を提案、ベンチマークでのSOTAを主張
  • マイクロソフトの論文で「Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs).」と書かれると複雑な気持ちになる。

Retrieval-Augmented Generation for Natural Language Processing: A Survey 

  • Retrieval-Augmented Generation for Natural Language Processing: A Survey [25.1]
    検索強化生成(RAG)は、外部知識データベースを利用して大きな言語モデルを拡張する。 本稿では,RAGの重要技術,特に検索器と検索融合について概説する。 RAGは、自然言語処理のタスクや産業シナリオで使われる。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 06:06:53 GMT)
  • 実用上重要なRAGのサーベイ。
  • 構成要素の選択肢が多く、整理された情報はとてもありがたい。