LLM – ページ 34 – arXiv最新論文の紹介

DocLLM

DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 22:37:52 GMT)
bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう（非現実的な仮定でもない）。

A Comprehensive Study of Knowledge Editing for Large Language Models

A Comprehensive Study of Knowledge Editing for Large Language Models [83.7]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (Tue, 2 Jan 2024 16:54:58 GMT)
Knowledge Editingのサーベイとベンチマークの提案。この分野の非常に良いサーベイ。
リポジトリはzjunlp/KnowEdit · Datasets at Hugging Faceで、ReMaKE: Retrieval-augmented Multilingual Knowledge Editor – arXiv最新論文の紹介 (devneko.jp)でも使われていたzjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs. (github.com)のチームによるもの

CALM: Composition to Augment Language Models

LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 18:53:01 GMT)
2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
実験はPaLM-XXSの特化版＋PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版（だったり個人スマホで個人向けに特化した版）＋Gemini Ultraみたいな構成も想定しているんだろうか。

SHAI: A LARGE LANGUAGE MODEL FOR ASSET MANAGEMENT

Shai: A large language model for asset management [8.7]
「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。 Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 05:08:57 GMT)
資産管理特化型LLMの提案、14Bと小型ながら金融ドメインであればGPT-3.5以上、一部タスクではGPT-4を超えている。ドメイン特化型LLMの可能性を感じる内容。安全性についても評価されているのが興味深い（そして、Shaiのスコアは高い）。
また、「solely focusing on domain-specific training could result in catastrophic forgetting」「To mitigate this, we included a blend of generic content in our training data.」など参考になる。

Q-Align

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (Thu, 28 Dec 2023 16:10:25 GMT)
品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

Rethinking Tabular Data Understanding with Large Language Models

Rethinking Tabular Data Understanding with Large Language Models [39.4]
本研究では,大規模言語モデル(LLM)のテーブル構造摂動に対する堅牢性について検討する。我々は,同じ内容を示す表の構造的差異が,特に記号的推論タスクにおいて顕著な性能低下を示すことを示した。テキストおよび記号的推論経路の集約は, 混合自己整合機構によって促進され, SOTA性能が73.6%向上し, WIKITABLEQUESTIONSの精度が向上した。
論文参考訳（メタデータ） (Wed, 27 Dec 2023 19:58:52 GMT)
簡単そうで意外と難しいLLMでテーブルデータを扱うときのテクニックに関する報告。正規化過程では「‘row tables’ with headers in the first column」に変換するとのこと。こちらの形式のほうが処理しやすいのは納得感がある。加えてAppendicesがとても良い。

YAYI 2

YAYI 2: Multilingual Open-Source Large Language Models [53.9]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (Fri, 22 Dec 2023 17:34:47 GMT)
多言語対応かつ高性能なLLM YAYI2の論文。YAYI2 30Bは5 shotのMMLUでScore=80.5と高い。学習データのクレンジングからpre train, SFT, RLHFと構築過程も非常に参考になる。
リポジトリはYAYI2/README_EN.md at main · wenge-research/YAYI2 (github.com、コードはOSSのようだがweightは別途ライセンスが定められている点に注意。

YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction [21.0]
ユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。
論文参考訳（メタデータ） (Sun, 24 Dec 2023 21:33:03 GMT)
関連してuniversal information extraction taskへのチューニング手法、
リポジトリはYAYI-UIE/README_EN.md at main · wenge-research/YAYI-UIE (github.com)

Retrieval-Augmented Generation for Large Language Models: A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 07:47:33 GMT)
応用例が増加しているRAGのサーベイ
リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用

Gemini: A Family of Highly Capable Multimodal Models

Gemini: A Family of Highly Capable Multimodal Models [517.1]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
論文参考訳（メタデータ） (Tue, 19 Dec 2023 02:39:27 GMT)
Gemini – arXiv最新論文の紹介 (devneko.jp) の論文、arXiv版。改めて驚きの著者数。

ReST meets ReAct

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (Fri, 15 Dec 2023 18:20:15 GMT)
Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。少ない回数のイテレーションで良い性能を出せるとのこと。
「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31