arXiv最新論文の紹介

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
引用ベースのQAシステムは2つの欠点に悩まされている。彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。システムに供給された知識の内容を充実させるため,Web と効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文参考訳（メタデータ） (Fri, 14 Jun 2024 19:40:38 GMT)
WEB検索＋ナレッジグラフを用いたQA
Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。

CS-Bench

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 18:47:28 GMT)
コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.9]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。 HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 07:30:05 GMT)
7B, 13Bと小型のLLMをfine tuneし優れた性能をもつハルシネーション検知エージェントの提案。複数のツール(検索エンジンやコード実行環境など)を使い分けるアプローチでfine tuning用データはGPT-4から得ている。
（GPT-4だとライセンス上の問題があるが）Nemotronなどこのアプローチをとっても問題ないLLMが出てきており本手法は有望そうに思える。
リポジトリはGitHub – RUCAIBox/HaluAgent

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
論文参考訳（メタデータ） (Tue, 18 Jun 2024 16:58:21 GMT)
「GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
リポジトリはTHUDM · GitHub　サイトは智谱清言 (chatglm.cn)

MuirBench

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 17:59:52 GMT)
マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.5]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 11:09:42 GMT)
LLMの性能にも依存していそうだが、「We compare various multilingual prompting strategies in NLP tasks, finding that translation remains a strong baseline even for LLMs.」とのこと。
データの偏り（英語に特化など）が激しい、基礎性能が高くない場合は特に機械翻訳が有効に思え、直観に反しない結果。タスクによっては機械翻訳が適していないというのもそうだろうと思う。

Claude 3.5 Sonnet, DeepSeek-Coder-V2, Context caching

先週もLLMのニュースは多かったが、Human Evalのスコアがとても高く高速、総合的にGPT-4超えを主張するClaude 3.5 Sonnetの発表は大きなニュースだった。オープンなモデルでも商用のフラグシップモデルを超えると主張するDeepSeek Coder V2が発表された。

Introducing Claude 3.5 Sonnet \ Anthropic

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence [43.6]
DeepSeek-Coder-V2は、コード固有のタスクでGPT4-Turboに匹敵するパフォーマンスを実現する、オープンソースのコード言語モデルである。 DeepSeek-Coder-V2はさらに6兆トークンを追加して、DeepSeek-V2の中間チェックポイントから事前トレーニングされている。標準的なベンチマーク評価では、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルと比較して、DeepSeek-Coder-V2は優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 13:51:35 GMT)
強力な性能を主張する分野特化型の公開モデル。総パラメータ数236B、アクティブパラメータ21BのMoE構成
リポジトリはGitHub – deepseek-ai/DeepSeek-Coder-V2: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

その他、別軸ではあるが実装上重要な機能であるキャッシュについても注目が集まった。Gemini Pro, Flashともに使え様々な場面で有益な機能。

コンテキストキャッシュ | Google AI for Developers | Google for Developers

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 17:59:45 GMT)
MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
有効な場面はありそう。名前のインパクトがすごい。

DataComp-LM: In search of the next generation of training sets for language models

DataComp-LM: In search of the next generation of training sets for language models [193.3]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 17:42:57 GMT)
言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている（最小トラックは412Mパラメータ、8.2B学習用トークン（元データ469B）、学習用の計算量は2.0e19FLOPs、H100換算で26時間）が、それにしても参加するにも結構な環境が必要そう。。。
プロジェクトサイトはDataComp

関連するものとして下記論文も参考になる。

Data-Centric AI in the Age of Large Language Models [51.2]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 16:34:07 GMT)
LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。

The BiGGen Bench

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.3]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (Sun, 09 Jun 2024 12:30:30 GMT)
LLMを評価するためのベンチマークの提案、下記９カテゴリ、77タスクからなる。
- Instruction Following
- Grounding
- Planning
- Refinement
- Reasoning
- Tool Usage
- Theory of Mind
- Multilingual
- Safety
リポジトリはprometheus-eval/BiGGen-Bench at main · prometheus-eval/prometheus-eval · GitHub、データはprometheus-eval/BiGGen-Bench · Datasets at Hugging Face、リーダーボードはBiGGen Bench Leaderboard – a Hugging Face Space by prometheus-eval。カテゴリによっても順位が入れ替わるのが興味深い。

2026年6月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30