OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? 

  • OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
    我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。 本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 16:31:12 GMT)
  • 最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
  • リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”

Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track

  • Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track [51.3]
    RAGベースの検索システムを構築、テスト、視覚化、体系的に評価するためのアリーナを持つことが不可欠である。 TREC 2024 RAG Trackを提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 17:37:52 GMT)
  • すごい名前のRAG評価用ベンチマーク・フレームワーク
  • リポジトリはGitHub – castorini/ragnarok: Retrieval-Augmented Generation battle!

Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

  • The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2]
    ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。 責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 02:19:01 GMT)
  • 責任ある基盤モデル開発のためのチートシート。チートシートとあるが広範な内容となっている。
  • プロジェクトサイトはResources for Foundation Models – Foundation Model Development Cheatsheet (fmcheatsheet.org)

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

Themis: Towards Flexible and Interpretable NLG Evaluation

On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey

  • On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.7]
    大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。 本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 07:47:09 GMT)
  • 合成データ生成の汎用ワークフローに関するサーベイ

CodeRAG-Bench: Can Retrieval Augment Code Generation? 

  • CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.4]
    検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。 まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 16:59:52 GMT)
  • コード生成におけるRAGの検証。コード生成では効果があるが、Retrieveが難しいという意外な結果。
  • プロジェクトサイトはCodeRAG-Bench: Can Retrieval Augment Code Generation? (code-rag-bench.github.io)

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices 

  • A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices [15.9]
    構成学習は人間の認知、特に人間の言語理解と視覚知覚において重要である。 インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究方法論が欠如している。 本稿では,AIモデルの構成学習に関する文献と,認知研究との関わりについて考察する。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 03:46:21 GMT)
  • Compositional learning(「mastering the ability to combine basic concepts and construct more intricate ones」)のサーベイ。

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

  • SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
    LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。 そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 21:52:21 GMT)
  • 大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに(?)GPT-4VよりもClaude Opusのほうが高いスコア。
  • リポジトリはtuanh23/SciEx · Datasets at Hugging Face