arXiv最新論文の紹介

A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation

大規模言語モデル（LLM）及びそのマルチモーダルな拡張（MLLM）でできるようになったこと（できているようにみえること）は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。

A Survey on Evaluation of Multimodal Large Language Models [11.6]
マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣するこの枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:05:55 GMT)
MLLMの評価に関するサーベイ

What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (Mon, 26 Aug 2024 20:35:42 GMT)
ストーリーに対する評価のサーベイ

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [90.0]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。近年の研究では、教師付き微調整(SFT)を用いて、お世辞問題を軽減することが提案されている。そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 07:01:37 GMT)
「When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer.」というSycophancyへ対応するためピンポイントなチューニングを適用
「The proposed pinpoint tuning consists of two steps: ➀: “diagnose” for where in the network attributes to the sycophancy; ➁: precisely optimize the pinpointed components to improve the performance.」とのことだが、いろいろ有効そうな場所が多そうなアプローチ

The representation landscape of few-shot learning and fine-tuning in large language models

The representation landscape of few-shot learning and fine-tuning in large language models [43.8]
In-context Learning (ICL) と supervised Fine-tuning (SFT) は、現代の大規模言語モデル (LLM) の性能向上のための2つの一般的な戦略である。この2つの事例において,隠れた表現の確率的景観を解析した。 ICLとSFTは、どちらもネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成する。
論文参考訳（メタデータ） (Thu, 5 Sep 2024 16:15:12 GMT)
ICLとSFTの動作の差の分析、「we compare how LLMs solve the same question-answering task, finding that ICL and SFT create very different internal structures, in both cases undergoing a sharp transition in the middle of the network.」とのことで挙動がかなり異なるよう。

Claim Verification in the Age of Large Language Models: A Survey

Claim Verification in the Age of Large Language Models: A Survey [37.3]
本稿では,Large Language Models (LLMs) を用いた最近のクレーム検証フレームワークについて概説する。これらのフレームワークで使用されるクレーム検証パイプラインのさまざまなコンポーネントを詳述する。
論文参考訳（メタデータ） (Mon, 26 Aug 2024 14:45:03 GMT)
LLM時代のclaim verification （fact verification）に関するサーベイ。
LLMによって大きな影響を受けている分野

Towards Graph Prompt Learning: A Survey and Beyond

Towards Graph Prompt Learning: A Survey and Beyond [38.6]
大規模”事前訓練と迅速な学習”パラダイムは、顕著な適応性を示している。この調査は、この分野における100以上の関連する研究を分類し、一般的な設計原則と最新の応用を要約する。
論文参考訳（メタデータ） (Mon, 26 Aug 2024 06:36:42 GMT)
グラフにおけるPromptLearningのサーベイ
自然言語（LLM）では既に一般的だが、「While prompt engineering has been extensively studied and applied in NLP and CV , its application in graph learning remains relatively unexplored.」とのこと。データ構造の差は大きいので様々な考慮点がある。

What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices

What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.7]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 13:30:00 GMT)
Multi-Agent Interactive Multi-hop Generation (MIMG) frameworkによるマルチホップなデータ合成とそのデータの有効性検証。さまざまな研究でAgenticな動作によるデータ合成は有効であることが知られていて、この分野のベストプラクティスとしても有効。「a quality verification agent, a single-hop question generation agent, a multiple question sampling strategy, and a multi-hop question merger agent」と多数のエージェントが協調。
リポジトリはGitHub – WowCZ/LongMIT: LongMIT: Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets

A Survey on Evaluating Large Language Models in Code Generation Tasks

A Survey on Evaluating Large Language Models in Code Generation Tasks [30.3]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (Thu, 29 Aug 2024 12:56:06 GMT)
盛り上がってきているコード生成タスクについて、その評価手法をまとめたサーベイ
機械翻訳でも一般的な「Evaluation Based on Similarity」のほか、「Execution-Based Evaluation」、「 Feedback-Based Evaluation」などがあって興味深い。

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model [22.8]
我々は,OCR-2.0の到来を促進するために,汎用OCR理論と優れたモデル,すなわちGOTを提案する。 GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。 OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 08:41:31 GMT)
OCRの拡張？非常に面白いが「Cとは？」となる論文
リポジトリはGitHub – Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.1]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (Thu, 05 Sep 2024 11:09:00 GMT)
「Multimodel Large Language Models(MLLMs) have achieved promising OCRfree Document Understanding performance by increasing the supported resolution of document images.」から始まる論文で、High-resolution DocCompressorモジュールによって処理を簡略化・高速化とのこと。最初の主張には同意できる部分とできない部分があるが、Document UnderstandingタスクにおいてMLLMが強力なのは確か。
リポジトリはGitHub – X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル（リポジトリ：allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス）で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル（リポジトリ：mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス）、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室（松尾研）- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

OLMoE: Open Mixture-of-Experts Language Models [180.2]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 17:08:20 GMT)

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 05:13:47 GMT)
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
論文参考訳（メタデータ） (Fri, 07 Jun 2024 20:23:21 GMT)
リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28