- KS-LLM: Knowledge Selection of Large Language Models with Evidence Document for Question Answering [35.9]
大きな言語モデル(LLM)は幻覚の問題に悩まされ、知識集約的なタスクに適用した場合、重大な課題に直面します。 本稿では,証拠文書から貴重な情報を特定することを目的とした,大規模言語モデル(KS-LLM)の新たな知識選択手法を提案する。 まず、入力された質問に基づいて三つ組を生成し、次に証拠文書から三つ組に最もよく似たエビデンス文を選択し、最後に、エビデンス文と三つ組を組み合わせ、大きな言語モデルで回答を生成する。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 05:32:41 GMT) - トリプルを使うタイプの知識選択手法。効果は一定ありそう?
タグ: LLM
Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
- Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents [101.2]
本稿では,大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するためのシミュレーションプラットフォームであるGovSimについて紹介する。 我々は,AIエージェント間の資源共有のダイナミクスを探求し,倫理的考察,戦略的計画,交渉スキルの重要性を強調した。 GovSimでは、15の試験されたLLMのうち、持続可能な結果を達成することができたのはわずか2つであり、モデルが共有リソースを管理する能力に重大なギャップがあることを示唆している。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 15:59:16 GMT) - LLMを用いたエージェントが戦略的な計画や交渉、協調などが可能なシミュレーション環境の提案。毎月何トンの魚を取ればよいか?というシナリオで複数のLLMを検証。「 GPT-4 successfully maintains the shared resource over the long term, achieving nearly the maximum possible reward, while Claude-3 Opus fails to maintain the resource, with some runs collapsing before reaching 12 months.」「only GPT-4 and Claude-3 Opus, across all models tested, are able to do universalized hypothesis」とGPT-4は強い。
- リポジトリはGitHub – giorgiopiatti/GovSim: Governance of the Commons Simulation (GovSim)
Phi-3, Snowflake Arctic, SenseNova 5.0, OpenELM, Qwen-1.5 110B
先週もLLM関連のニュースが多かった。
Phi-3はMicrsoftによる小規模(?)LLM、3.8Bパラメータと比較的小さいが性能が高いと主張。
- Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [144.9]
phi-3-miniは、3.3兆のトークンで訓練された38億のパラメータ言語モデルである。 MMLUでは69%、MTベンチでは8.38である。
論文 参考訳(メタデータ) (Mon, 22 Apr 2024 14:32:33 GMT) - リポジトリはPhi-3 – a microsoft Collection (huggingface.co)
Snowflakeが発表したSnowflake Arcticは総パラメータ数480Bだが、推論時は17BパラメータのみアクティブになるMoE構成。面白い構成で性能はLlama3 70B相当を主張、Apache-2ライセンスと真にオープンソースなライセンスである点も素晴らしい。
Snowflake Arctic – エンタープライズAI向けLLM
SenseNovaはSenseTimeによるLLMでGPT 4 turbo超え(ただし最新モデルはない)を主張。クローズドなモデルではあるが性能競争が激しくなっていることを示している。
SenseTime launches SenseNova 5.0 with comprehensive updates and the industry-leading “Cloud-to-Edge” full-stack large model product matrix-Newsroom-SenseTime
AppleがLLMを公開したことも興味深い。
- OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework [26.7]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。 パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (Mon, 22 Apr 2024 23:12:03 GMT) - リポジトリはapple/OpenELM · Hugging Face
その他、Qwen 1.5の大規模モデルであるQwen-1.5(Qwen/Qwen1.5-110B · Hugging Face)が公開、Nyonic Wonton7Bが発表などLLM界隈は非常に活況である。
https://huggingface.co/datasets/HuggingFaceFW/fineweb に関連したX(旧twitter)での投稿も話題になっていた。XユーザーのThomas Wolfさん: 「This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…」 / X (twitter.com) 「Before I dive more in this let me give you an example of unintuitive behavior. Between 2022 and 2023 the “LLM quality” of Common Crawl dropped significantly as in “training a LLM on the crawls btw 2022-2023 will give you lower performances on a set of evals”. What happened? Well it turns out the Common Crawl team has been filtering more strongly domains with adult content. Not really the cause you’d be intuitively thinking about, right?」は非常に興味深い。
- Nyonic Technical Report [20.8]
Wonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。 モデルのアーキテクチャは、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)、特別に製作された多言語トークンーザ(multilingual tokenizer)などの最先端技術で強化されている。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 07:38:44 GMT) - GitHub – nyonicai/nyonic-public: Reference implementation of models from Nyonic Model Factory
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
- Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.7]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。 我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。 7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (Mon, 08 Apr 2024 11:11:31 GMT) - 「Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications.」とのこと。面白い。
AgentKit: Flow Engineering with Graphs, not Coding
- AgentKit: Flow Engineering with Graphs, not Coding [91.1]
多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。 AgentKitは、単純な自然言語プロンプトから複雑な”思考プロセス”を明示的に構築するための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (Wed, 17 Apr 2024 15:40:45 GMT) - LLMを用いたエージェント開発のためのフレームワーク。ブロックをつなぐようにしてLLMを使うものは多いが、Agentに寄せていてコードに近いレイヤに対応しているのが特徴的(使いやすいかは疑問だが、このくらいの抽象度のほうが開発に適していそう)
- リポジトリはHolmeswww/AgentKit: An intuitive LLM prompting framework for multifunctional agents, by explicitly constructing a complex “thought process” from simple natural language prompts. (github.com)、ライセンスはCC-BY
CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment
- CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.4]
英語中心のモデルは、通常他の言語では準最適である。 そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 06:20:50 GMT) - 多言語能力を上げるためのInstruction tuningアプローチ。「CrossIn: It comprises cross-lingual instruction tuning datasets, where instruction and output are featured in two different languages」「Trans: It consists of translation pairs for instructions.」を併用。後者の「We hypothesize that if the model concurrently learns these translation tasks, it could facilitate the transfer of knowledge between languages.」は興味深い仮説。評価データも構築している。
- Mistral等を使って提案手法の効果を検証。
- リポジトリはGitHub – Lingy12/CrossIn
JetMoE: Reaching Llama2 Performance with 0.1M Dollars
- JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 00:52:39 GMT) - 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
- リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers
- Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.5]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。 私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (Sun, 07 Apr 2024 11:52:44 GMT) - マルチリンガルLLMに対するサーベイ。アプローチも結果も様々でありがたいサーベイであり、かつ論文リストがプロジェクトサイトに整理して一覧化されているのもありがたい。
- プロジェクトサイトはMLLM (multilingual-llm.net)
Introducing v0.5 of the AI Safety Benchmark from MLCommons
- Introducing v0.5 of the AI Safety Benchmark from MLCommons [94.1]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。 このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 15:01:00 GMT) - AI Safety Benchmark の紹介、対象はチャット。分類など参考になる部分も多い。
- リポジトリはmlcommons/modelbench: Run safety benchmarks against AI models and view detailed reports showing how well they performed. (github.com)
Llama 3, Mixtral 8x22B, Reka Core, WizardLM2
今年のHAI AI Index reportでも取り上げられていた通り基盤モデルの構築が盛んになっている。 AI Index Report 2024 – Artificial Intelligence Index (stanford.edu)
先週もLLM関連のニュースが多く、寛容な独自ライセンスのLlama 3、Apache-2ライセンスのMixtral 8x22Bとオープンなモデルの盛り上がりも衰えていない。設立間もないRekaによるReka Coreにも注目である。モデル性能も非常に高い。
WizardLM2も公開されたようだが、一時的になのかリポジトリにアクセスできなくなっている。@WizardLM on Hugging Face: “🔥🔥🔥 Introducing WizardLM-2! 📙Release Blog:…”、こちらも性能的に期待大
- Meta Llama 3、Introducing Meta Llama 3: The most capable openly available LLM to date
- 8B, 70Bを公開。8Bは同規模のMistralやGemmaより高性能。70BはベンチマークによるがGPT-4やClaude、Geminiといった商用モデルと競合可能な性能。400Bを構築中、構築段階でもGPT-4を超えそうとのことで最終性能が非常に楽しみ。
- モデルカード(llama3/MODEL_CARD.md at main · meta-llama/llama3 (github.com))が公開されており、構築に投じた計算リソースも公開されている。8Bで1.3M GPU hour、70Bで6.4M GPU hour。Lambda LabsのGPU Cloudでは3.5USD/GPU hour程度なのでかなりの額を投じていることになる。
- Mixtral 8×22: Cheaper, Better, Faster, Stronger | Mistral AI | Frontier AI in your hands
- MistralによるMoE構成LLM。Apache-2ライセンスとOSS。性能はClaude HaikuやGemini Pro、GPT-3.5、Qwen 1.5 72Bに競合するレベルに見える。
- HuggingFaceにも公開されている mistralai/Mixtral-8x22B-v0.1 · Hugging Face、mistralai/Mixtral-8x22B-Instruct-v0.1 · Hugging Face
- Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.4]
Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。 最も有能で最大のモデルであるReka Coreは、自動評価とブライド評価の両方において、最高のフロンティアモデルにアプローチしています。
論文 参考訳(メタデータ) (Thu, 18 Apr 2024 17:59:48 GMT) - Reka Core: Reka Core: Our Frontier Class Multimodal Language Model — Reka AI、マルチモーダルでGPT-4Vと競合。