- SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation [45.4]
本稿では,Self-Aware Knowledge Retrieval (SeaKR)を紹介する。 SeaKRは, LLMの自己認識不確かさを内部状態から抽出する適応RAGモデルである。 複雑で単純な問合せ解答データセットを用いた実験により,SeaKRが既存の適応RAG法より優れていることが示された。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 14:38:33 GMT) - 「SEAKR activates retrieval when the LLMs present high self-aware uncertainty for generation.」という戦略のRAG。Agenticで複雑な動作でFLARE(Fugu-MT 論文翻訳(概要): Active Retrieval Augmented Generation (fugumt.com))やDRAGIN(Fugu-MT 論文翻訳(概要): DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models (fugumt.com))を上回る。
- リポジトリはGitHub – THU-KEG/SeaKR
投稿者: staka
Themis: Towards Flexible and Interpretable NLG Evaluation
- Themis: Towards Flexible and Interpretable NLG Evaluation [39.1]
我々は,人間とGPT-4アノテーションを併用した大規模NLG評価コーパスNLG-Evalを構築し,この分野における関連データの欠如を軽減した。 我々は,NLG評価専用のLLMであるThemisを提案する。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 14:04:29 GMT) - 評価のためのデータセット構築(0.5 million samples and 58 datasets across 9 NLG tasks)とfine tunedなモデルの提案。UniEvalやGEvalを上回る性能。
- リポジトリはGitHub – PKU-ONELab/Themis: The official repository for our NLG evaluation LLM Themis and the paper Themis: Towards Flexible and Interpretable NLG Evaluation.
On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey
- On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.7]
大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。 本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
論文 参考訳(メタデータ) (Fri, 14 Jun 2024 07:47:09 GMT) - 合成データ生成の汎用ワークフローに関するサーベイ
CodeRAG-Bench: Can Retrieval Augment Code Generation?
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.4]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。 まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 16:59:52 GMT) - コード生成におけるRAGの検証。コード生成では効果があるが、Retrieveが難しいという意外な結果。
- プロジェクトサイトはCodeRAG-Bench: Can Retrieval Augment Code Generation? (code-rag-bench.github.io)
A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices
- A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices [15.9]
構成学習は人間の認知、特に人間の言語理解と視覚知覚において重要である。 インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究方法論が欠如している。 本稿では,AIモデルの構成学習に関する文献と,認知研究との関わりについて考察する。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 03:46:21 GMT) - Compositional learning(「mastering the ability to combine basic concepts and construct more intricate ones」)のサーベイ。
SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading
- SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。 そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (Fri, 14 Jun 2024 21:52:21 GMT) - 大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに(?)GPT-4VよりもClaude Opusのほうが高いスコア。
- リポジトリはtuanh23/SciEx · Datasets at Hugging Face
AgileCoder
- AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。 このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。 また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
論文 参考訳(メタデータ) (Sun, 16 Jun 2024 17:57:48 GMT) - コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
- プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development
OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction
- OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。 これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 07:46:17 GMT) - 複雑な材料特性(光の反射特性や透過特性など)に対する3D reconstructionデータセット
- リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)
EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems
- EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
引用ベースのQAシステムは2つの欠点に悩まされている。 彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。 システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (Fri, 14 Jun 2024 19:40:38 GMT) - WEB検索+ナレッジグラフを用いたQA
- Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。
CS-Bench
- CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 18:47:28 GMT) - コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
- リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)