GPT-4o, Gemini Flash, Falcon-2

先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。

Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind

全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)

気になっているのはコンテキスト キャッシュ ガイド  |  Google AI for Developers  |  Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。

公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face

SGA: Scientific Generative Agent

  • LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
    本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。 本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。 法発見と分子設計における枠組みの有効性を実証するための実験を行った。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 03:04:10 GMT)
  • 物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
  • SORAのような(物理・世界シミュレーターとしての)動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。

Many-Shot In-Context Learning in Multimodal Foundation Models

  • Many-Shot In-Context Learning in Multimodal Foundation Models [4.8]
    マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。 マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。 ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 04:02:43 GMT)
  • MLLMの評価、評価対象にGPT-4oが入っているのが驚き、対応が速い。全般的にMany shotには効果があるよう。GPT-4oとGemini Proの比較ではGPT-4oが優位でないタスクも多い。また、ManyShotでの特性もかなり異なるようにみえるのが興味深い。
  • リポジトリはGitHub – stanfordmlgroup/ManyICL

Auto-Encoding Morph-Tokens for Multimodal LLM

  • Auto-Encoding Morph-Tokens for Multimodal LLM [151.3]
    そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。 実験により、Morph-Tokensはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
    論文  参考訳(メタデータ)   (Fri, 03 May 2024 08:43:06 GMT)
  • Morph-Tokensと呼ぶVisionモデルからのトークンから派生した特殊なトークンを用いたMLLMの提案。
  • リポジトリはGitHub – DCDmllm/MorphTokens

NeRF in Robotics: A Survey

  • NeRF in Robotics: A Survey [95.1]
    近年の神経暗黙表現の出現は、コンピュータビジョンとロボティクス分野に急進的な革新をもたらした。 NeRFは、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現などの大きな表現上の利点から、この傾向を引き起こしている。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 14:38:18 GMT)
  •  Neural Radiance Fields のロボット分野への応用に関するサーベイ
  • 「NeRF offers a reliable choice for many sub-tasks in robotics, such as scene understanding, reconstruction, dynamic perception, scene editing, object modelling, navigation, and manipulation guidance.」とのこと。

Chain of Attack

  • Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
    大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
    論文  参考訳(メタデータ)   (Thu, 09 May 2024 08:15:21 GMT)
  • マルチターンな攻撃方法
  • リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM

Hallucination of Multimodal Large Language Models: A Survey

xLSTM: Extended Long Short-Term Memory

  • xLSTM: Extended Long Short-Term Memory [26.6]
    1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 17:50:21 GMT)
  • LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。

The Call for Socially Aware Language Technologies 

  • The Call for Socially Aware Language Technologies [94.7]
    NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。 我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
    論文  参考訳(メタデータ)   (Fri, 03 May 2024 18:12:39 GMT)
  • LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
  • この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。

You Only Cache Once: Decoder-Decoder Architectures for Language Models 

  • You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
    大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
    論文  参考訳(メタデータ)   (Thu, 09 May 2024 14:12:45 GMT)
  • KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も(MambaやHybridH3と異なり)Transformer同等の結果になっているのがすごい。
  • リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub