2024年6月 – arXiv最新論文の紹介

CodeRAG-Bench: Can Retrieval Augment Code Generation?

CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.4]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 16:59:52 GMT)
コード生成におけるRAGの検証。コード生成では効果があるが、Retrieveが難しいという意外な結果。
プロジェクトサイトはCodeRAG-Bench: Can Retrieval Augment Code Generation? (code-rag-bench.github.io)

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices [15.9]
構成学習は人間の認知、特に人間の言語理解と視覚知覚において重要である。インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究方法論が欠如している。本稿では,AIモデルの構成学習に関する文献と,認知研究との関わりについて考察する。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 03:46:21 GMT)
Compositional learning（「mastering the ability to combine basic concepts and construct more intricate ones」）のサーベイ。

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 21:52:21 GMT)
大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに（？）GPT-4VよりもClaude Opusのほうが高いスコア。
リポジトリはtuanh23/SciEx · Datasets at Hugging Face

AgileCoder

AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
論文参考訳（メタデータ） (Sun, 16 Jun 2024 17:57:48 GMT)
コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 07:46:17 GMT)
複雑な材料特性（光の反射特性や透過特性など）に対する3D reconstructionデータセット
リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
引用ベースのQAシステムは2つの欠点に悩まされている。彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。システムに供給された知識の内容を充実させるため,Web と効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 19:40:38 GMT)
WEB検索＋ナレッジグラフを用いたQA
Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。

CS-Bench

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 18:47:28 GMT)
コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.9]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。 HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 07:30:05 GMT)
7B, 13Bと小型のLLMをfine tuneし優れた性能をもつハルシネーション検知エージェントの提案。複数のツール(検索エンジンやコード実行環境など)を使い分けるアプローチでfine tuning用データはGPT-4から得ている。
（GPT-4だとライセンス上の問題があるが）Nemotronなどこのアプローチをとっても問題ないLLMが出てきており本手法は有望そうに思える。
リポジトリはGitHub – RUCAIBox/HaluAgent

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
論文参考訳（メタデータ） (Tue, 18 Jun 2024 16:58:21 GMT)
「GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
リポジトリはTHUDM · GitHub　サイトは智谱清言 (chatglm.cn)

MuirBench

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 17:59:52 GMT)
マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

2024年6月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30