- Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.9]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。 本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (Fri, 26 Apr 2024 03:41:28 GMT) - 自己補正を強化するためのfine tuningプロセスの提案。学習用データをモデルに作らせるアプローチで自分自身を強化している感がある。
- リポジトリはhttps://github.com/yunx-z/SCOREとのことだが、現在はNotFound
投稿者: staka
Weak-to-Strong Extrapolation Expedites Alignment
- Weak-to-Strong Extrapolation Expedites Alignment [135.1]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 17:39:50 GMT) - 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
- リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”
KS-LLM: Knowledge Selection of Large Language Models with Evidence Document for Question Answering
- KS-LLM: Knowledge Selection of Large Language Models with Evidence Document for Question Answering [35.9]
大きな言語モデル(LLM)は幻覚の問題に悩まされ、知識集約的なタスクに適用した場合、重大な課題に直面します。 本稿では,証拠文書から貴重な情報を特定することを目的とした,大規模言語モデル(KS-LLM)の新たな知識選択手法を提案する。 まず、入力された質問に基づいて三つ組を生成し、次に証拠文書から三つ組に最もよく似たエビデンス文を選択し、最後に、エビデンス文と三つ組を組み合わせ、大きな言語モデルで回答を生成する。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 05:32:41 GMT) - トリプルを使うタイプの知識選択手法。効果は一定ありそう?
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM
- Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 17:59:48 GMT) - マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
- リポジトリはCantor (ggg0919.github.io)
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
- List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。 比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 07:29:17 GMT) - GPT-4Vで有効なことが知られているSoM(Set-of-Mark Prompting – arXiv最新論文の紹介 (devneko.jp))をオープンなモデルでも有効にする手法を提案。 List Items One by Oneタスクを解かせる(データセットはGPT-4Vを利用して作成)
- リポジトリはGitHub – zzxslp/SoM-LLaVA: Empowering Multimodal LLMs with Set-of-Mark Prompting and Improved Visual Reasoning Ability.
- (オープンなモデルでは有効性が低いことに少し驚き)
AI Competitions and Benchmarks: Dataset Development
- AI Competitions and Benchmarks: Dataset Development [42.2]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。 データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。 次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (Mon, 15 Apr 2024 12:01:42 GMT) - データセット作成のための実践的な解説
- このような視点の論文はあまりなく、とても参考になる。
TinyChart
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.6]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 14:23:24 GMT) - チャート理解のためのMLLM。3Bと小型。学習時に「 Program-of-Thoughts learning method that trains the model to generate Python programs to answer questions」という工夫を行っている。
- リポジトリはmPLUG-DocOwl/TinyChart at main · X-PLUG/mPLUG-DocOwl · GitHub
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases
- Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
論文 参考訳(メタデータ) (Tue, 16 Apr 2024 14:20:55 GMT) - 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
- リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)
Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
- Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents [101.2]
本稿では,大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するためのシミュレーションプラットフォームであるGovSimについて紹介する。 我々は,AIエージェント間の資源共有のダイナミクスを探求し,倫理的考察,戦略的計画,交渉スキルの重要性を強調した。 GovSimでは、15の試験されたLLMのうち、持続可能な結果を達成することができたのはわずか2つであり、モデルが共有リソースを管理する能力に重大なギャップがあることを示唆している。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 15:59:16 GMT) - LLMを用いたエージェントが戦略的な計画や交渉、協調などが可能なシミュレーション環境の提案。毎月何トンの魚を取ればよいか?というシナリオで複数のLLMを検証。「 GPT-4 successfully maintains the shared resource over the long term, achieving nearly the maximum possible reward, while Claude-3 Opus fails to maintain the resource, with some runs collapsing before reaching 12 months.」「only GPT-4 and Claude-3 Opus, across all models tested, are able to do universalized hypothesis」とGPT-4は強い。
- リポジトリはGitHub – giorgiopiatti/GovSim: Governance of the Commons Simulation (GovSim)
Phi-3, Snowflake Arctic, SenseNova 5.0, OpenELM, Qwen-1.5 110B
先週もLLM関連のニュースが多かった。
Phi-3はMicrsoftによる小規模(?)LLM、3.8Bパラメータと比較的小さいが性能が高いと主張。
- Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [144.9]
phi-3-miniは、3.3兆のトークンで訓練された38億のパラメータ言語モデルである。 MMLUでは69%、MTベンチでは8.38である。
論文 参考訳(メタデータ) (Mon, 22 Apr 2024 14:32:33 GMT) - リポジトリはPhi-3 – a microsoft Collection (huggingface.co)
Snowflakeが発表したSnowflake Arcticは総パラメータ数480Bだが、推論時は17BパラメータのみアクティブになるMoE構成。面白い構成で性能はLlama3 70B相当を主張、Apache-2ライセンスと真にオープンソースなライセンスである点も素晴らしい。
Snowflake Arctic – エンタープライズAI向けLLM
SenseNovaはSenseTimeによるLLMでGPT 4 turbo超え(ただし最新モデルはない)を主張。クローズドなモデルではあるが性能競争が激しくなっていることを示している。
SenseTime launches SenseNova 5.0 with comprehensive updates and the industry-leading “Cloud-to-Edge” full-stack large model product matrix-Newsroom-SenseTime
AppleがLLMを公開したことも興味深い。
- OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework [26.7]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。 パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (Mon, 22 Apr 2024 23:12:03 GMT) - リポジトリはapple/OpenELM · Hugging Face
その他、Qwen 1.5の大規模モデルであるQwen-1.5(Qwen/Qwen1.5-110B · Hugging Face)が公開、Nyonic Wonton7Bが発表などLLM界隈は非常に活況である。
https://huggingface.co/datasets/HuggingFaceFW/fineweb に関連したX(旧twitter)での投稿も話題になっていた。XユーザーのThomas Wolfさん: 「This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…」 / X (twitter.com) 「Before I dive more in this let me give you an example of unintuitive behavior. Between 2022 and 2023 the “LLM quality” of Common Crawl dropped significantly as in “training a LLM on the crawls btw 2022-2023 will give you lower performances on a set of evals”. What happened? Well it turns out the Common Crawl team has been filtering more strongly domains with adult content. Not really the cause you’d be intuitively thinking about, right?」は非常に興味深い。
- Nyonic Technical Report [20.8]
Wonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。 モデルのアーキテクチャは、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)、特別に製作された多言語トークンーザ(multilingual tokenizer)などの最先端技術で強化されている。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 07:38:44 GMT) - GitHub – nyonicai/nyonic-public: Reference implementation of models from Nyonic Model Factory