- CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 18:47:28 GMT) - コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
- リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)
タグ: LLM
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
- ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
論文 参考訳(メタデータ) (Tue, 18 Jun 2024 16:58:21 GMT) - 「GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
- リポジトリはTHUDM · GitHub サイトは智谱清言 (chatglm.cn)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models
- Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.5]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。 この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。 深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 11:09:42 GMT) - LLMの性能にも依存していそうだが、「We compare various multilingual prompting strategies in NLP tasks, finding that translation remains a strong baseline even for LLMs.」とのこと。
- データの偏り(英語に特化など)が激しい、基礎性能が高くない場合は特に機械翻訳が有効に思え、直観に反しない結果。タスクによっては機械翻訳が適していないというのもそうだろうと思う。
Claude 3.5 Sonnet, DeepSeek-Coder-V2, Context caching
先週もLLMのニュースは多かったが、Human Evalのスコアがとても高く高速、総合的にGPT-4超えを主張するClaude 3.5 Sonnetの発表は大きなニュースだった。オープンなモデルでも商用のフラグシップモデルを超えると主張するDeepSeek Coder V2が発表された。
Introducing Claude 3.5 Sonnet \ Anthropic
- DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence [43.6]
DeepSeek-Coder-V2は、コード固有のタスクでGPT4-Turboに匹敵するパフォーマンスを実現する、オープンソースのコード言語モデルである。 DeepSeek-Coder-V2はさらに6兆トークンを追加して、DeepSeek-V2の中間チェックポイントから事前トレーニングされている。 標準的なベンチマーク評価では、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルと比較して、DeepSeek-Coder-V2は優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Mon, 17 Jun 2024 13:51:35 GMT) - 強力な性能を主張する分野特化型の公開モデル。総パラメータ数236B、アクティブパラメータ21BのMoE構成
- リポジトリはGitHub – deepseek-ai/DeepSeek-Coder-V2: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
その他、別軸ではあるが実装上重要な機能であるキャッシュについても注目が集まった。Gemini Pro, Flashともに使え様々な場面で有益な機能。
コンテキスト キャッシュ | Google AI for Developers | Google for Developers
DataComp-LM: In search of the next generation of training sets for language models
- DataComp-LM: In search of the next generation of training sets for language models [193.3]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。 我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (Mon, 17 Jun 2024 17:42:57 GMT) - 言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている(最小トラックは412Mパラメータ、8.2B学習用トークン(元データ469B)、学習用の計算量は2.0e19FLOPs、H100換算で26時間)が、それにしても参加するにも結構な環境が必要そう。。。
- プロジェクトサイトはDataComp
関連するものとして下記論文も参考になる。
- Data-Centric AI in the Age of Large Language Models [51.2]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。 本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。 データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 16:34:07 GMT) - LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。
Mixture-of-Agents Enhances Large Language Model Capabilities
- Mixture-of-Agents Enhances Large Language Model Capabilities [34.7]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。 提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文 参考訳(メタデータ) (Fri, 07 Jun 2024 07:04:10 GMT) - 名前からしても強力そうなMixture-of-Agents、階層型で複数のLLMの結果を踏まえて解を求めていく動作のよう。オープンソースモデル(Qwen1.5 110B-Chat、Qwen1.5 72B-Chat、WizardLM-8x22B、 LLaMA-3-70B-Instruct 、 Mixtral-8x22B-v0.1、dbrx-instruct)の複合でGPT-4oを上回ったのは凄い。
- リポジトリはGitHub – togethercomputer/MoA
Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
- Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。 これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 14:07:02 GMT) - ToTの経路を用いてチューニング(DPO)するChain of Preference Optimizationにより、CoTを超え、ToTに近い性能を達成、計算時間も抑えられるとする論文。シンプルにSFTするTS-SFTより性能が高いのが意外。
- リポジトリはGitHub – sail-sg/CPO
A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions
- A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 03:15:13 GMT) - 医療分野へのLLM応用のサーベイ
- 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。
Nemotron-4 340B
NVIDIAからオープンなモデルNemotron-4 340Bが発表された。
NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.
とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で
• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.
とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。
If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.
性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。
fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。
Rewardモデルについては下記論文も参考になる。
- HelpSteer2: Open-source dataset for training top-performing reward models [9.2]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。 HelpSteer2は1万のレスポンスペアで構成されている。 本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 22:28:08 GMT) - NVIDIAによるRewardモデル用データセットと手法の提案
- データはnvidia/HelpSteer2 · Datasets at Hugging Face リポジトリはGitHub – NVIDIA/NeMo-Aligner: Scalable toolkit for efficient model alignment
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
- Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.5]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。 モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。
論文 参考訳(メタデータ) (Wed, 05 Jun 2024 23:23:54 GMT) - 強力なはずのLLMが単純な問題「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」に回答できないという指摘。MMLUの結果との乖離が大きい。
- Leakを含め色々な問題があるんだろうと思うけど、「We also noticed during early experimentation that depending on choice of N and M and also the ordering of brothers and sisters in the sentence, the rate of correct responses may vary substantially.」は面白い。
- リポジトリはGitHub – LAION-AI/AIW: Alice in Wonderland code base for experiments and raw experiments data