2024年6月26日 – arXiv最新論文の紹介

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 18:47:28 GMT)
コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.9]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。 HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 07:30:05 GMT)
7B, 13Bと小型のLLMをfine tuneし優れた性能をもつハルシネーション検知エージェントの提案。複数のツール(検索エンジンやコード実行環境など)を使い分けるアプローチでfine tuning用データはGPT-4から得ている。
（GPT-4だとライセンス上の問題があるが）Nemotronなどこのアプローチをとっても問題ないLLMが出てきており本手法は有望そうに思える。
リポジトリはGitHub – RUCAIBox/HaluAgent