arXiv最新論文の紹介

Themis: Towards Flexible and Interpretable NLG Evaluation

Themis: Towards Flexible and Interpretable NLG Evaluation [39.1]
我々は,人間とGPT-4アノテーションを併用した大規模NLG評価コーパスNLG-Evalを構築し,この分野における関連データの欠如を軽減した。我々は,NLG評価専用のLLMであるThemisを提案する。
論文参考訳（メタデータ） (Wed, 26 Jun 2024 14:04:29 GMT)
評価のためのデータセット構築（0.5 million samples and 58 datasets across 9 NLG tasks）とfine tunedなモデルの提案。UniEvalやGEvalを上回る性能。
リポジトリはGitHub – PKU-ONELab/Themis: The official repository for our NLG evaluation LLM Themis and the paper Themis: Towards Flexible and Interpretable NLG Evaluation.

On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey

On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.7]
大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 07:47:09 GMT)
合成データ生成の汎用ワークフローに関するサーベイ

CodeRAG-Bench: Can Retrieval Augment Code Generation?

CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.4]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 16:59:52 GMT)
コード生成におけるRAGの検証。コード生成では効果があるが、Retrieveが難しいという意外な結果。
プロジェクトサイトはCodeRAG-Bench: Can Retrieval Augment Code Generation? (code-rag-bench.github.io)

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices [15.9]
構成学習は人間の認知、特に人間の言語理解と視覚知覚において重要である。インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究方法論が欠如している。本稿では,AIモデルの構成学習に関する文献と,認知研究との関わりについて考察する。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 03:46:21 GMT)
Compositional learning（「mastering the ability to combine basic concepts and construct more intricate ones」）のサーベイ。

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 21:52:21 GMT)
大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに（？）GPT-4VよりもClaude Opusのほうが高いスコア。
リポジトリはtuanh23/SciEx · Datasets at Hugging Face

AgileCoder

AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
論文参考訳（メタデータ） (Sun, 16 Jun 2024 17:57:48 GMT)
コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 07:46:17 GMT)
複雑な材料特性（光の反射特性や透過特性など）に対する3D reconstructionデータセット
リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
引用ベースのQAシステムは2つの欠点に悩まされている。彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。システムに供給された知識の内容を充実させるため,Web と効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 19:40:38 GMT)
WEB検索＋ナレッジグラフを用いたQA
Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。

CS-Bench

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 18:47:28 GMT)
コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.9]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。 HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 07:30:05 GMT)
7B, 13Bと小型のLLMをfine tuneし優れた性能をもつハルシネーション検知エージェントの提案。複数のツール(検索エンジンやコード実行環境など)を使い分けるアプローチでfine tuning用データはGPT-4から得ている。
（GPT-4だとライセンス上の問題があるが）Nemotronなどこのアプローチをとっても問題ないLLMが出てきており本手法は有望そうに思える。
リポジトリはGitHub – RUCAIBox/HaluAgent

2025年5月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31