コンテンツへスキップ
- FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 14:56:35 GMT)
- ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
- 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
- プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”
- Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation [109.5]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。 6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 00:08:49 GMT)
- Amazonの購買データセットでKDD CUP 2023で用いられたもの。多言語対応で日本語が入っている点が興味深い。
- プロジェクトサイトはKDD Cup 2023 Workshop: Multilingual Session Recommendation Challenge (kddcup23.github.io)とのこと。コンペティション上位のソリューションは確認したいところ。
- Retentive Network: A Successor to Transformer for Large Language Models [91.7]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論的には、再発と注意の関係を導出する。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (Mon, 17 Jul 2023 16:40:01 GMT)
- Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
- AlpaGasus: Training A Better Alpaca with Fewer Data [106.9]
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回っている。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
論文 参考訳(メタデータ) (Mon, 17 Jul 2023 17:59:40 GMT)
- LLMを用いてinstruction-finetuning用データを高品質化、品質の高い少数データの利用が有効だったという報告。instruction-finetuningのデータ品質の重要性は他の論文でも指摘されており(ゆえにRLHFが有効という話もあり)参考になる。
- プロジェクトサイトはAlpaGasus: Training a Better Alpaca with Fewer Data (lichang-chen.github.io)
- Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 17:08:59 GMT)
- Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU(7ooM)がある場合は別途申請が必要、出力を他のモデルの強化に使えない(You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).)などApache-2ライセンスなどとは異なる点に注意が必要。
- StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
- 公式サイトはLlama 2 – Meta AI huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)
- On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models [0.0]
大規模言語モデル(LLM)は、ChatGPTやBardといったLLMが数百万のユーザを獲得して、非常に注目されている。 我々は15,821 LLMのコンステレーションをナビゲートし探索するための公開ウェブアプリケーションを提案する。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 07:17:43 GMT)
- 派生モデルを含め非常に多くのモデルが出ているLLMを探索するためのアプリケーションの提案
- プロジェクトサイトはConstellation (stanford.edu)で、リンクから利用可能。データセットなどはandrewgcodes (Andrew Kean Gao) · GitHubで公開予定とのこと。
- MMBench: Is Your Multi-modal Model an All-around Player? [90.7]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。 従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。 近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (Wed, 12 Jul 2023 16:23:09 GMT)
- Vision/Languageのベンチマーク。検証する能力が20あり、包括的なものになっている。プロジェクトサイトはOpenCompass
- Secrets of RLHF in Large Language Models Part I: PPO [81.0]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。 現在の技術ルートには、人間の嗜好を測定するための reward モデル、ポリシーモデルの出力を最適化する Proximal Policy Optimization (PPO)、ステップバイステップの推論能力を改善する process 監督が含まれる。 しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの大規模な試行とエラーコストが相まって、AI研究者が技術的アライメントの開発を動機付ける大きな障壁がある。
論文 参考訳(メタデータ) (Tue, 11 Jul 2023 01:55:24 GMT)
- RLHFに関する詳細なレポート、リポジトリはGitHub – OpenLMLab/MOSS-RLHF: MOSS-RLHF、プロジェクトサイトがMOSS-RLHF (openlmlab.github.io)にある。