GrokとGemini 1.5とGemma

X(旧Twitter)で事前アナウンス「XユーザーのElon Muskさん: 「This week, @xAI will open source Grok」 / X (twitter.com)」の通り(?)Grokが公開された。314BのMoE構成とのことでfine tuning未済のベースモデルのみの公開。

Open Release of Grok-1 (x.ai)
xai-org/grok: Grok open release (github.com)

Model Details
・Base model trained on a large amount of text data, not fine-tuned for any particular task.
・314B parameter Mixture-of-Experts model with 25% of the weights active on a given token.
・Trained from scratch by xAI using a custom training stack on top of JAX and Rust in October 2023.

Open Release of Grok-1 (x.ai)

「The code and associated Grok-1 weights in this release are licensed under the Apache 2.0 license. The license only applies to the source files in this repository and the model weights of Grok-1.」とのことで、コード・モデル(torrentでの公開のよう)ともにApache-2ライセンスでの公開。完全なOSSであり大きな意味がありそう。

先週、arXivにGemini 1.5とGemmaの論文が公開されていた。Calude 3を含め、GPT-4一強ではない時代になりつつあるし、オープンな流れも加速してほしいところ。Mistralの動きが気になる。

  • Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [379.4]
    Gemini 1.5 Pro は計算効率の良いマルチモーダル・ミックス・オブ・エキスパート・モデルである。 モダリティ間の長文検索タスクにおいて、ほぼ完璧なリコールを実現する。 Gemini 1.0 Ultraの最先端のパフォーマンスは、幅広いベンチマークで一致または上回っている。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 18:54:20 GMT)
  • SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)と同じ内容

ProMoAI: Process Modeling with Generative AI

  • ProMoAI: Process Modeling with Generative AI [45.1]
    ProMoAIは、LLM(Large Language Models)を利用して、テキスト記述からプロセスモデルを自動的に生成する新しいツールである。 また、高度なプロンプトエンジニアリング、エラーハンドリング、コード生成技術も組み込まれている。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 08:48:04 GMT)
  • LLMを使ったプロセスモデリング。計画作成がLLMでできる以上、実現できることに不思議はないが、Process Modelingのハードルが下がるのであれば面白いと思う。
  • リポジトリはProMoAI/app.py at main · humam-kourani/ProMoAI (github.com)。デモサイトもあるProMoAI · Streamlit

Chatbot Arena

  • Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [49.0]
    人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。 本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。 本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 01:22:38 GMT)
  • Chatbot Arenaの論文、論文化されていなかったことに驚き。なかなか評価の難しいLLM界隈において重要な貢献だと思う。
  • プロジェクトサイトはChat with Open Large Language Models (lmsys.org)

Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)

Design2Code

  • Design2Code: How Far Are We From Automating Front-End Engineering? [83.1]
    マルチモーダルLLMがビジュアルデザインをコード実装に直接変換するタスクを Design2Code タスクとして形式化し,包括的なベンチマークを行う。 具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。 我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。 人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 17:56:27 GMT)
  • WEBページの画像からコードを作れるかを検証した論文。GPT-4Vが最も性能が高いが、十分ではなさそう。既存のオープンソースモデルの性能はかなり悪い。論文中ではCogAgent – arXiv最新論文の紹介 (devneko.jp)をfine tuningしたDesign2Code-18Bを開発、公開している。
  • MistralベースのHuggingFaceM4/VLM_WebSight_finetuned · Hugging Faceがまずまずのスコアを出しており「WebSight VLM-8B performs better than Gemini direct prompting (54% win rate and 35% lose rate), suggesting that finetuning on a large amount of data can match commercial models in specific domains.」とされているのも興味深い。
  • リポジトリはDesign2Code: How Far Are We From Automating Front-End Engineering (salt-nlp.github.io)

Divide-or-Conquer? Which Part Should You Distill Your LLM?

  • Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.6]
    我々は、推論タスクを問題分解フェーズと問題解決フェーズに分割する同様の戦略を考案し,この戦略が単一段階のソリューションよりも優れていることを示す。
    論文  参考訳(メタデータ)   (Thu, 22 Feb 2024 22:28:46 GMT)
  • 一回で答えを導くのではなく、問題を分解したうえでLLMに答えさせる戦略のほうが良い結果になるという報告。CoTなりToTなりSelf verificationなり、自律エージェント的動作の効果を見るとそうなんだろうと納得感がある。
  • Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [80.5]
    本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。 この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
    論文  参考訳(メタデータ)   (Mon, 4 Mar 2024 19:12:48 GMT)
  • この論文も面白かった。複数のAPI call(LLM利用)によって性能が上がるかはタスクに依存するという内容。ただし、並列に動作する環境を想定しているようなので上記とは使い方がかなり異なる。

SheetRM & SheetAgent

  • SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [42.7]
    大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。 我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークであるSheetRMを紹介した。 さらに,LLMのパワーを利用した新しい自律エージェントであるSheetAgentを提案する。
    論文  参考訳(メタデータ)   (Wed, 6 Mar 2024 11:48:08 GMT)
  • Excelのようなスプレッドシートに対するエージェント的動作のベンチマークとエージェントの提案。SheetAgentはPlanner、Informer、Retrieverで構成されPlannerがPythonコード、InformerがSQLを作成するプログラムを介するタイプ。SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models (sheetcopilot-demo.github.io)より高性能と主張。本件で構築されたベンチマークSheetRM (Spreadsheet Reasoning and Manipulation Benchmark)に対してはSheetCopilotのスコアが悪く、汎用的なエージェントを作る難しさ(対象業務によってアプローチを選ぶ必要性)がよくわかる気がする。
  • リポジトリはSheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models

Claude 3とYi

今週もLLM関連の話題が多く、AnthropicからGPT-4を超える性能というClaude 3が発表されてた。また、中国のスタートアップ01.AIによるYiは公開されているモデルの中では非常に高性能に思える(ライセンスは独自で商用利用時には登録が必要などCCなど一般的なものとは異なり、よく読む必要がある。)

Introducing the next generation of Claude \ Anthropic

Model_Card_Claude_3.pdf (anthropic.com)
The Claude 3 Model Family: Opus, Sonnet, Haiku
Claude 3ファミリーはベンチマーク評価全体で強力なパフォーマンスを示し、推論、数学、コーディングの尺度に新しい標準を設定する。Claude 3 Opus は GPQA [1], MMLU [2], MMMU [3] などの評価で最先端の結果を得る。Claude 3 HaikuはClaude 2よりも多くの純粋なテキストタスクで優れており、SonnetとOpusはそれを著しく上回っている。

  • Yi: Open Foundation Models by 01.AI [42.9]
    Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。 私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 16:52:49 GMT)
  • タスクによってかなり性能は違うが、英語で同サイズのLlamaを上回り、34Bだと英語でGPT-3.5、中国語でGPT-4に匹敵するようなモデルの提案。Weightが公開されているのがすごい。日本語でも相応の性能に思える。
  • リポジトリは01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com)、モデルは01-ai (01-ai) (huggingface.co)

Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

  • Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [53.0]
    LINGOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 03:44:01 GMT)
  • 形態素解析した結果と単語単位の辞書情報をLLMに入れることで未知の言語の翻訳ができたという論文。Geminiの事例を彷彿とさせ、LLMの指示理解力&高い言語能力が興味深い。
  • リポジトリはLLiLab/llm4endangeredlang (github.com)

The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い