Claude 3とYi

今週もLLM関連の話題が多く、AnthropicからGPT-4を超える性能というClaude 3が発表されてた。また、中国のスタートアップ01.AIによるYiは公開されているモデルの中では非常に高性能に思える(ライセンスは独自で商用利用時には登録が必要などCCなど一般的なものとは異なり、よく読む必要がある。)

Introducing the next generation of Claude \ Anthropic

Model_Card_Claude_3.pdf (anthropic.com)
The Claude 3 Model Family: Opus, Sonnet, Haiku
Claude 3ファミリーはベンチマーク評価全体で強力なパフォーマンスを示し、推論、数学、コーディングの尺度に新しい標準を設定する。Claude 3 Opus は GPQA [1], MMLU [2], MMMU [3] などの評価で最先端の結果を得る。Claude 3 HaikuはClaude 2よりも多くの純粋なテキストタスクで優れており、SonnetとOpusはそれを著しく上回っている。

  • Yi: Open Foundation Models by 01.AI [42.9]
    Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。 私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 16:52:49 GMT)
  • タスクによってかなり性能は違うが、英語で同サイズのLlamaを上回り、34Bだと英語でGPT-3.5、中国語でGPT-4に匹敵するようなモデルの提案。Weightが公開されているのがすごい。日本語でも相応の性能に思える。
  • リポジトリは01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com)、モデルは01-ai (01-ai) (huggingface.co)

Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

  • Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [53.0]
    LINGOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 03:44:01 GMT)
  • 形態素解析した結果と単語単位の辞書情報をLLMに入れることで未知の言語の翻訳ができたという論文。Geminiの事例を彷彿とさせ、LLMの指示理解力&高い言語能力が興味深い。
  • リポジトリはLLiLab/llm4endangeredlang (github.com)

Spurious Correlations in Machine Learning: A Survey

  • Spurious Correlations in Machine Learning: A Survey [69.9]
    機械学習システムは、入力の偏りのある特徴と対応するラベルの間の急激な相関に敏感である。 これらの特徴とそのラベルとの相関は”spurious”として知られている。 我々は、機械学習モデルにおける素早い相関に対処する現在の最先端の手法の分類とともに、この問題を包括的にレビューする。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 04:49:34 GMT)
  • 頭の痛い問題を引き起こす機械学習における疑似相関に関するサーベイ、「When the correlations captured during training no longer hold in the test data, the performance of ML models tends to deteriorate, resulting in robustness issues and negative social impact in critical domains, such as healthcare.」はその通り。
  • 対処法も参考になるがdetectionをどうにかしたいところ。

The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication

  • Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication [82.8]
    自然言語(NL)は長年、人間の認知とコミュニケーションの主要なフォーマットであった。 本研究では,異なる文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 16:07:54 GMT)
  • LLMへの指示やLLM間の通信で自然言語より優れた方式を検討した論文。AutoForm (Autonomously-Decided Format)という手法で自然言語ではないプロンプト形式を使うと優れた結果が得られるとのこと。また、Agent間コミュニケーションもトークン数が減って効率的になるという結果。「We also find that the communication formats generated by LLMs resemble traditional ACLs, offering both precision and efficiency」(ここでのACLはAgent Communication Languages)というのも非常に興味深い。
  • リポジトリはthunlp/AutoForm: Code for paper “Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication” (github.com)

COMEDY:Commpressive Memory-Enhanced Dialogue sYstems

Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems

Beyond Language Models: Byte Models are Digital World Simulators

XRL-Bench 

  • XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques [36.3]
    強化学習(Reinforcement Learning, RL)は、様々な分野において大きな可能性を証明しているが、その意思決定プロセスを理解することは、現在進行中の課題である。 本稿では, 説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。 我々の焦点は状態記述技術であり、XRL法における重要な部分集合であり、エージェントの行動にいつでも影響を及ぼす要因を明らかにすることである。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 03:20:37 GMT)
  • 説明可能な強化学習のためのベンチマーク
  • リポジトリはfuxiAIlab/xrl-bench (github.com)

Video as the New Language for Real-World Decision Making

  • Video as the New Language for Real-World Decision Making [100.7]
    ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
    論文  参考訳(メタデータ)   (Tue, 27 Feb 2024 02:05:29 GMT)
  • ビデオの合成を通して現実世界のタスクを解けるのでは?という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
  • 「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。