InternLM2

  • InternLM2 Technical Report [159.7]
    本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 00:53:24 GMT)
  • InternLM2のテクニカルレポート。詳細な情報が載っておりとても興味深い。Chatの性能は高い。学術研究用であれば自由に利用できるものではあるがウェイトは独自ライセンス。
  • リポジトリはInternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support (github.com)

CoIN: Continual Instruction tuNing

  • CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
    逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。 従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
    論文  参考訳(メタデータ)   (Wed, 13 Mar 2024 08:54:31 GMT)
  • マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
  • リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

WorldGPT

  • WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs [53.2]
    本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。 このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 16:09:02 GMT)
  • Prompt Enhancer + Key Frame Generator + Video Generator での動画生成フレームワーク。「This innovative approach enables the generation of captivating videos that encapsulate rich and realistic world models.」とあるが本当なんだろうか。。。

WikiTableEdit

  • WikiTableEdit: A Benchmark for Table Editing by Natural Language Instruction [56.2]
    本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。 Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。 WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 13:33:12 GMT)
  • 表を編集するタスク(We select six commonly-employed fundamental operations for our dataset: (1) Adding a new row or column, (2) Removing a row or column, (3) Swapping two rows, (4) Reordering based on a certain column, (5) Merging adjacent cells with identical values, and (6) Splitting the merged cells.)の提案とデータセットの作成。GPT3.5-turboで厳しい感じであり、スコアを見るに簡単に見えて難しいタスクであるよう。(より大規模なモデルでの結果も知りたいところではある)
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

Large Language Models are Parallel Multilingual Learners

  • Large Language Models are Parallel Multilingual Learners [50.1]
    本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。 入力を複数の言語に翻訳することで、並列入力(PIM)をLLMに提供し、その理解能力を大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 03:33:46 GMT)
  • PIM(コンテキストとして同じ意味のテキストを複数の言語で与える)という新たなICL戦略の提案。特に多言語モデルでは性能向上効果があるとのこと。機械翻訳を通したテキストでも効果ありというのは面白い。
  • 「Considering knowledge learnt from different languages memorized in separate neurons of LLMs, a straightforward explanation for the superiority of PIM is that it leads to the increasing number of activated neurons, utilizing more knowledge during the inference stage.」はなるほどと思いつつ「This finding is similar to the synaptic pruning happening in brains, which prunes less-used neural connections and makes frequently-used neural pathways more powerful and efficient (Huttenlocher et al , 1979; Huttenlocher, 1990).」はほんまかいなと思わなくもない。
  • リポジトリはtakagi97/LLMs-are-parallel-multilingual-learners: The implementation of Large Language Models are Parallel Multilingual Learners. (github.com)

TIVE: Task-level and Instance-level Value Estimation

  • Less is More: Data Value Estimation for Visual Instruction Tuning [127.4]
    視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 16:47:25 GMT)
  • visual instruction datasetには不要・冗長なデータが多く含まれており、その重要性を評価して削減する手法を提案。「using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks.」とのことで、非常に効果的に見える。
  • 「Our code and data will be publicly released.」らしい

GrokとGemini 1.5とGemma

X(旧Twitter)で事前アナウンス「XユーザーのElon Muskさん: 「This week, @xAI will open source Grok」 / X (twitter.com)」の通り(?)Grokが公開された。314BのMoE構成とのことでfine tuning未済のベースモデルのみの公開。

Open Release of Grok-1 (x.ai)
xai-org/grok: Grok open release (github.com)

Model Details
・Base model trained on a large amount of text data, not fine-tuned for any particular task.
・314B parameter Mixture-of-Experts model with 25% of the weights active on a given token.
・Trained from scratch by xAI using a custom training stack on top of JAX and Rust in October 2023.

Open Release of Grok-1 (x.ai)

「The code and associated Grok-1 weights in this release are licensed under the Apache 2.0 license. The license only applies to the source files in this repository and the model weights of Grok-1.」とのことで、コード・モデル(torrentでの公開のよう)ともにApache-2ライセンスでの公開。完全なOSSであり大きな意味がありそう。

先週、arXivにGemini 1.5とGemmaの論文が公開されていた。Calude 3を含め、GPT-4一強ではない時代になりつつあるし、オープンな流れも加速してほしいところ。Mistralの動きが気になる。

  • Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [379.4]
    Gemini 1.5 Pro は計算効率の良いマルチモーダル・ミックス・オブ・エキスパート・モデルである。 モダリティ間の長文検索タスクにおいて、ほぼ完璧なリコールを実現する。 Gemini 1.0 Ultraの最先端のパフォーマンスは、幅広いベンチマークで一致または上回っている。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 18:54:20 GMT)
  • SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)と同じ内容

ProMoAI: Process Modeling with Generative AI

  • ProMoAI: Process Modeling with Generative AI [45.1]
    ProMoAIは、LLM(Large Language Models)を利用して、テキスト記述からプロセスモデルを自動的に生成する新しいツールである。 また、高度なプロンプトエンジニアリング、エラーハンドリング、コード生成技術も組み込まれている。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 08:48:04 GMT)
  • LLMを使ったプロセスモデリング。計画作成がLLMでできる以上、実現できることに不思議はないが、Process Modelingのハードルが下がるのであれば面白いと思う。
  • リポジトリはProMoAI/app.py at main · humam-kourani/ProMoAI (github.com)。デモサイトもあるProMoAI · Streamlit

Chatbot Arena

  • Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [49.0]
    人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。 本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。 本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 01:22:38 GMT)
  • Chatbot Arenaの論文、論文化されていなかったことに驚き。なかなか評価の難しいLLM界隈において重要な貢献だと思う。
  • プロジェクトサイトはChat with Open Large Language Models (lmsys.org)

Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)