The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication

  • Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication [82.8]
    自然言語(NL)は長年、人間の認知とコミュニケーションの主要なフォーマットであった。 本研究では,異なる文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。
    論文  参考訳(メタデータ)   (Wed, 28 Feb 2024 16:07:54 GMT)
  • LLMへの指示やLLM間の通信で自然言語より優れた方式を検討した論文。AutoForm (Autonomously-Decided Format)という手法で自然言語ではないプロンプト形式を使うと優れた結果が得られるとのこと。また、Agent間コミュニケーションもトークン数が減って効率的になるという結果。「We also find that the communication formats generated by LLMs resemble traditional ACLs, offering both precision and efficiency」(ここでのACLはAgent Communication Languages)というのも非常に興味深い。
  • リポジトリはthunlp/AutoForm: Code for paper “Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication” (github.com)