CS-Bench

  • CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
    計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 18:47:28 GMT)
  • コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
  • リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector 

  • Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.9]
    幻覚検出は大規模言語モデル(LLM)にとって難しい課題である 本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。 HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
    論文  参考訳(メタデータ)   (Mon, 17 Jun 2024 07:30:05 GMT)
  • 7B, 13Bと小型のLLMをfine tuneし優れた性能をもつハルシネーション検知エージェントの提案。複数のツール(検索エンジンやコード実行環境など)を使い分けるアプローチでfine tuning用データはGPT-4から得ている。
  • (GPT-4だとライセンス上の問題があるが)Nemotronなどこのアプローチをとっても問題ないLLMが出てきており本手法は有望そうに思える。
  • リポジトリはGitHub – RUCAIBox/HaluAgent

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

  • ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
    本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 16:58:21 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
  • リポジトリはTHUDM · GitHub サイトは智谱清言 (chatglm.cn)

MuirBench

  • MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
    マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:59:52 GMT)
  • マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
  • リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models

  • Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.5]
    大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。 この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。 深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 11:09:42 GMT)
  • LLMの性能にも依存していそうだが、「We compare various multilingual prompting strategies in NLP tasks, finding that translation remains a strong baseline even for LLMs.」とのこと。
  • データの偏り(英語に特化など)が激しい、基礎性能が高くない場合は特に機械翻訳が有効に思え、直観に反しない結果。タスクによっては機械翻訳が適していないというのもそうだろうと思う。

Claude 3.5 Sonnet, DeepSeek-Coder-V2, Context caching

先週もLLMのニュースは多かったが、Human Evalのスコアがとても高く高速、総合的にGPT-4超えを主張するClaude 3.5 Sonnetの発表は大きなニュースだった。オープンなモデルでも商用のフラグシップモデルを超えると主張するDeepSeek Coder V2が発表された。

Introducing Claude 3.5 Sonnet \ Anthropic

  • DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence [43.6]
    DeepSeek-Coder-V2は、コード固有のタスクでGPT4-Turboに匹敵するパフォーマンスを実現する、オープンソースのコード言語モデルである。 DeepSeek-Coder-V2はさらに6兆トークンを追加して、DeepSeek-V2の中間チェックポイントから事前トレーニングされている。 標準的なベンチマーク評価では、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルと比較して、DeepSeek-Coder-V2は優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Mon, 17 Jun 2024 13:51:35 GMT)
  • 強力な性能を主張する分野特化型の公開モデル。総パラメータ数236B、アクティブパラメータ21BのMoE構成
  • リポジトリはGitHub – deepseek-ai/DeepSeek-Coder-V2: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

その他、別軸ではあるが実装上重要な機能であるキャッシュについても注目が集まった。Gemini Pro, Flashともに使え様々な場面で有益な機能。

コンテキスト キャッシュ  |  Google AI for Developers  |  Google for Developers

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities 

  • Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
    マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。 ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。 この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 17:59:45 GMT)
  • MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
  • 有効な場面はありそう。名前のインパクトがすごい。

DataComp-LM: In search of the next generation of training sets for language models

  • DataComp-LM: In search of the next generation of training sets for language models [193.3]
    DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。 我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
    論文  参考訳(メタデータ)   (Mon, 17 Jun 2024 17:42:57 GMT)
  • 言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている(最小トラックは412Mパラメータ、8.2B学習用トークン(元データ469B)、学習用の計算量は2.0e19FLOPs、H100換算で26時間)が、それにしても参加するにも結構な環境が必要そう。。。
  • プロジェクトサイトはDataComp

関連するものとして下記論文も参考になる。

  • Data-Centric AI in the Age of Large Language Models [51.2]
    本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。 本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。 データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 16:34:07 GMT)
  • LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。

The BiGGen Bench

OmniCorpus、mOSCAR

マルチモーダル、マルチリンガルな巨大データセットが発表されていた。

  • OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [114.0]
    我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。 私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。 これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 17:01:04 GMT)
  • 「8.6 billion images and 1,696 billion text tokens」という巨大なマルチモーダル・マルチリンガルなデータセット
  • リポジトリはGitHub – OpenGVLab/OmniCorpus: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
  • mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8]
    ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。 さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 00:13:32 GMT)
  • OSCARプロジェクトによるデータセット。「We mostly filter “not safe for work” (NSFW) content at the document level.」とのこと。
  • リポジトリはmOSCAR – OSCAR Documentation (oscar-project.github.io)