2024年6月28日 – arXiv最新論文の紹介

CodeRAG-Bench: Can Retrieval Augment Code Generation?

CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.4]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 16:59:52 GMT)
コード生成におけるRAGの検証。コード生成では効果があるが、Retrieveが難しいという意外な結果。
プロジェクトサイトはCodeRAG-Bench: Can Retrieval Augment Code Generation? (code-rag-bench.github.io)

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices [15.9]
構成学習は人間の認知、特に人間の言語理解と視覚知覚において重要である。インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究方法論が欠如している。本稿では,AIモデルの構成学習に関する文献と,認知研究との関わりについて考察する。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 03:46:21 GMT)
Compositional learning（「mastering the ability to combine basic concepts and construct more intricate ones」）のサーベイ。

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 21:52:21 GMT)
大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに（？）GPT-4VよりもClaude Opusのほうが高いスコア。
リポジトリはtuanh23/SciEx · Datasets at Hugging Face