staka – ページ 170 – arXiv最新論文の紹介

ChartAssisstant

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 17:51:48 GMT)
こちらはチャートを扱える（Vision-Languageでチャートに特化した）マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。

DocLLM

DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 22:37:52 GMT)
bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう（非現実的な仮定でもない）。

A Comprehensive Study of Knowledge Editing for Large Language Models

A Comprehensive Study of Knowledge Editing for Large Language Models [83.7]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (Tue, 2 Jan 2024 16:54:58 GMT)
Knowledge Editingのサーベイとベンチマークの提案。この分野の非常に良いサーベイ。
リポジトリはzjunlp/KnowEdit · Datasets at Hugging Faceで、ReMaKE: Retrieval-augmented Multilingual Knowledge Editor – arXiv最新論文の紹介 (devneko.jp)でも使われていたzjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs. (github.com)のチームによるもの

CALM: Composition to Augment Language Models

LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 18:53:01 GMT)
2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
実験はPaLM-XXSの特化版＋PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版（だったり個人スマホで個人向けに特化した版）＋Gemini Ultraみたいな構成も想定しているんだろうか。

SHAI: A LARGE LANGUAGE MODEL FOR ASSET MANAGEMENT

Shai: A large language model for asset management [8.7]
「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。 Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 05:08:57 GMT)
資産管理特化型LLMの提案、14Bと小型ながら金融ドメインであればGPT-3.5以上、一部タスクではGPT-4を超えている。ドメイン特化型LLMの可能性を感じる内容。安全性についても評価されているのが興味深い（そして、Shaiのスコアは高い）。
また、「solely focusing on domain-specific training could result in catastrophic forgetting」「To mitigate this, we included a blend of generic content in our training data.」など参考になる。

SimulateBench

How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation [49.2]
我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
論文参考訳（メタデータ） (Thu, 28 Dec 2023 16:51:11 GMT)
AIエージェントの一貫性（Consistency ）と頑健性（Robustness ）を計測するベンチマークの提案。一貫性、がん形成の定義は「Consistency measures whether the LLMs’ generated human behavior accurately depicts the identity information; Robustness measures whether the generated human behavior will be influenced by the perturbation in the profile.」とのこと
リポジトリはhttps://github.com/GAIR-NLP/GPTMan

Q-Align

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (Thu, 28 Dec 2023 16:10:25 GMT)
品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

T-Eval

T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 17:02:06 GMT)
LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step

Rethinking Tabular Data Understanding with Large Language Models

Rethinking Tabular Data Understanding with Large Language Models [39.4]
本研究では,大規模言語モデル(LLM)のテーブル構造摂動に対する堅牢性について検討する。我々は,同じ内容を示す表の構造的差異が,特に記号的推論タスクにおいて顕著な性能低下を示すことを示した。テキストおよび記号的推論経路の集約は, 混合自己整合機構によって促進され, SOTA性能が73.6%向上し, WIKITABLEQUESTIONSの精度が向上した。
論文参考訳（メタデータ） (Wed, 27 Dec 2023 19:58:52 GMT)
簡単そうで意外と難しいLLMでテーブルデータを扱うときのテクニックに関する報告。正規化過程では「‘row tables’ with headers in the first column」に変換するとのこと。こちらの形式のほうが処理しやすいのは納得感がある。加えてAppendicesがとても良い。

MoTCoder: Modular-of-Thought Coder

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [60.5]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 08:49:57 GMT)
コード生成時にサブモジュールのヘッダー＋docstringの生成→実装部分の生成という段階を踏む手法の提案。同一パラメータ数（15B）でWizardCoderより優れているとのこと。
リポジトリはdvlab-research/MoTCoder: This is the official code repository of MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks. (github.com)

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31