Phi-3, Snowflake Arctic, SenseNova 5.0, OpenELM, Qwen-1.5 110B

先週もLLM関連のニュースが多かった。

Phi-3はMicrsoftによる小規模(?)LLM、3.8Bパラメータと比較的小さいが性能が高いと主張。

Snowflakeが発表したSnowflake Arcticは総パラメータ数480Bだが、推論時は17BパラメータのみアクティブになるMoE構成。面白い構成で性能はLlama3 70B相当を主張、Apache-2ライセンスと真にオープンソースなライセンスである点も素晴らしい。
Snowflake Arctic – エンタープライズAI向けLLM

SenseNovaはSenseTimeによるLLMでGPT 4 turbo超え(ただし最新モデルはない)を主張。クローズドなモデルではあるが性能競争が激しくなっていることを示している。
SenseTime launches SenseNova 5.0 with comprehensive updates and the industry-leading “Cloud-to-Edge” full-stack large model product matrix-Newsroom-SenseTime

AppleがLLMを公開したことも興味深い。

  • OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework [26.7]
    私たちは最先端のオープン言語モデルであるOpenELMをリリースします。 パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
    論文  参考訳(メタデータ)   (Mon, 22 Apr 2024 23:12:03 GMT)
  • リポジトリはapple/OpenELM · Hugging Face

その他、Qwen 1.5の大規模モデルであるQwen-1.5(Qwen/Qwen1.5-110B · Hugging Face)が公開、Nyonic Wonton7Bが発表などLLM界隈は非常に活況である。

https://huggingface.co/datasets/HuggingFaceFW/fineweb に関連したX(旧twitter)での投稿も話題になっていた。XユーザーのThomas Wolfさん: 「This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…」 / X (twitter.com) 「Before I dive more in this let me give you an example of unintuitive behavior. Between 2022 and 2023 the “LLM quality” of Common Crawl dropped significantly as in “training a LLM on the crawls btw 2022-2023 will give you lower performances on a set of evals”. What happened? Well it turns out the Common Crawl team has been filtering more strongly domains with adult content. Not really the cause you’d be intuitively thinking about, right?」は非常に興味深い。

InternVL 1.5

  • How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [95.7]
    InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。 マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 17:59:19 GMT)
  • IntenVLの最新版、InternViT-6B + InternLM2-20Bの構成。「Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks.」と優秀
  • リポジトリはGitHub – OpenGVLab/InternVL: InternVL Family: A Pioneering Open-Source Alternative to GPT-4V. [CVPR 2024 Oral]

Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws 

  • Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.7]
    スケーリング法則は、言語モデルのサイズと能力の関係を記述している。 我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。 7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 11:11:31 GMT)
  • 「Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications.」とのこと。面白い。

AgentKit: Flow Engineering with Graphs, not Coding

CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment

  • CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.4]
    英語中心のモデルは、通常他の言語では準最適である。 そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 06:20:50 GMT)
  • 多言語能力を上げるためのInstruction tuningアプローチ。「CrossIn: It comprises cross-lingual instruction tuning datasets, where instruction and output are featured in two different languages」「Trans: It consists of translation pairs for instructions.」を併用。後者の「We hypothesize that if the model concurrently learns these translation tasks, it could facilitate the transfer of knowledge between languages.」は興味深い仮説。評価データも構築している。
  • Mistral等を使って提案手法の効果を検証。
  • リポジトリはGitHub – Lingy12/CrossIn

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

  • Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.7]
    動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。 意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。 本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 06:06:29 GMT)
  • デモが非常にかっこいいDynamic Typography生成手法の提案。入力文字のベジェ曲線の制御点とベクトルグラフィクス(SVG)を連動させるアプローチでこちらも興味深い。
  • 🪄 animate your word! (animate-your-word.github.io)

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

  • JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
    このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 00:52:39 GMT)
  • 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
  • リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)

Many-Shot In-Context Learning

  • Many-Shot In-Context Learning [57.6]
    大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている 我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。 Reinforced と Unsupervised ICL は多発的なシステムでは極めて有効であることがわかった。
    論文  参考訳(メタデータ)   (Wed, 17 Apr 2024 02:49:26 GMT)
  • Gemini 1.5などで可能になったMany shot(500 shotなど)などの効果の分析。性能が上がる例が多いが「On some tasks (e g , code verifier, planning), we did observe slight performance deterioration beyond a certain number of shots.」とのこと。Reinforced ICL、Unsupervised ICL という人間を介さないICLも検証していて「We found that, for problem-solving domains where human-generated rationales are expensive to obtain, Reinforced and Unsupervised ICL can obtain strong performance when compared to ICL with human data.」とのこと。
  • 長いコンテキストの利点をアピールする論文。SSMだとどうなんるんやろという興味がある。

Which questions should I answer? Salience Prediction of Inquisitive Questions

  • Which questions should I answer? Salience Prediction of Inquisitive Questions [118.1]
    非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。 質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
    論文  参考訳(メタデータ)   (Tue, 16 Apr 2024 21:33:05 GMT)
  • 質問の良さを予測するためのデータセット構築とモデルの提案。「Our work connects two ideas: a theoretical idea of which questions are useful for understanding and likely to be answered later in a text, and an empirical notion of what questions are useful.」
  • 論文でも指摘されている通り、品質評価にも重要。fine tunedなモデルはGPT-4をoutperformとのことだが、(Limitaionに記載の通り)ドメインの影響なども知りたいところ。
  • リポジトリはGitHub – ritikamangla/QSalience

Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers

  • Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.5]
    本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。 私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
    論文  参考訳(メタデータ)   (Sun, 07 Apr 2024 11:52:44 GMT)
  • マルチリンガルLLMに対するサーベイ。アプローチも結果も様々でありがたいサーベイであり、かつ論文リストがプロジェクトサイトに整理して一覧化されているのもありがたい。
  • プロジェクトサイトはMLLM (multilingual-llm.net)