GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

GLAN: Generalized Instruction Tuning

  • Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models [153.1]
    GLAN(Generalized Instruction Tuning)は,Large Language Models(LLM)の汎用的かつスケーラブルなチューニング手法である。 GLANは、人間の知識と能力の事前分類を入力として利用し、あらゆる分野にわたる大規模な合成指導データを生成する。 サイラバスの全クラスセッションで詳述された、きめ細かい重要な概念により、私たちは、人間の知識とスキルの全範囲にわたって幅広い範囲をカバーする多様な命令を生成できる。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 15:00:35 GMT)
  • 大規模なinstruction data をLLM自身に合成させる研究。Self-InstrctやEovlve-Instructとは異なり、元データを必要としない。Mistral-7Bをベースとして複数のタスクで既存の結果を上回る。感覚的にはstudent modelを訓練する蒸留にちかいんやろうか。データを作る側を何らかの形で上回れたら面白いが。。
  • リポジトリはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents

  • What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents [41.7]
    コスモアジェント(CosmoAgent)は、人類と地球外文明の複雑な相互作用をシミュレートする人工知能の枠組みである。 目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。 この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットをリリースしました。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 17:49:46 GMT)
  • 人類と地球外文明とのコミュニケーションをシミュレーションする環境の提案。論文読んでいても思ったが「Our research faces limitations, including an Earth-centric bias in LLMs that may not capture the full range of alien ethics and decision-making.」はそうだろうと思いつつ、Earth-centric biasはなかなか見ないワード。
  • リポジトリはhttps://github.com/agiresearch/AlienAgentとのことだが現時点では404

GenTranslate

InfLLM

  • InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory [99.2]
    InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。 本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
    論文  参考訳(メタデータ)   (Wed, 7 Feb 2024 06:50:42 GMT)
  • 長文に対応するための構造をもったLLM、1024Kトークでも有効とのこと

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate

  • Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.1]
    大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。 多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 04:32:33 GMT)
  • 「Our findings reveal that zero-shot prompting LLMs often fails to yield faithful explanations.80% of the generated explanations include hallucinated details.」なので、Multi-Agent Debate Refinement によって改善したという報告。ベースラインより改善しているが、まだまだ厳しい結果に思える。
  • 「LLMs cannot reliably assess the faithfulness of the generated explanations and discover the most suitable evaluation protocols for LLM-based automatic evaluation」というfindingsは重要

The Generative AI Paradox on Evaluation 

  • The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
    本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。 質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 06:16:08 GMT)
  • 問題解決と評価能力は別なのでは?という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
  • TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

SALAD-Bench:  SAfety evaluation for LLMs, Attack and Defense approaches

  • SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
    SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。 それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 02:50:22 GMT)
  • LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
  • リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)

Intention-in-Interaction (IN3)とMistral Interact: ユーザに意図を尋ねるAgent

  • Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.3]
    現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。 私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
    論文  参考訳(メタデータ)   (Thu, 15 Feb 2024 09:59:52 GMT)
  • ユーザに意図を問う能力を測るベンチマークの提案と、それを解くモデルの開発。GPT-4はそもそもがかなり強力だが、SFTしたMistral-7Bで迫れるというのは興味深い(full-parameter fine-tuning of Mistral-7B on two 80GB A800s、かかった時間は4.5時間とのこと)
  • リポジトリはHBX-hbx/Mistral-Interact: Repo for paper “Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents” (github.com)

A Survey of Table Reasoning with Large Language Models

  • A Survey of Table Reasoning with Large Language Models [55.2]
    大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。 本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
    論文  参考訳(メタデータ)   (Tue, 13 Feb 2024 07:17:52 GMT)
  • LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
  • ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を 引き出すことが重要という感じなんだろうか。