arXiv最新論文の紹介

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 [26.1]
本稿では,大規模言語モデルのクエリとプロンプトのプロセスの合理化を図った26の原則を紹介する。 LLaMA-1/2 (7B, 13B, 70B) と GPT-3.5/4 を用いて実験を行い, 提案法の有効性を検証した。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 18:59:33 GMT)
LLMへのプロンプトでよく言われているベストプラクティス的な手法を試し比較した論文。それなりに有効そうなものが多い。
リポジトリはVILA-Lab/ATLAS: Principled instruction dataset on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 (github.com)

LogicAsker

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 13:53:53 GMT)
LLMの論理的推論（命題論理・述語論理）能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
GPT-4でも結構間違うな、という印象

AppAgent

AppAgent: Multimodal Agents as Smartphone Users [22.4]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 11:52:45 GMT)
スマートフォンアプリケーションを操作することに焦点を当てたマルチモーダルエージェントフレームワークの提案。 Exploration Phase で自律的にアプリを操作する中で情報を得て、その情報を使いDeployment Phaseで与えられたタスクを解くフレームワークになっている。
AppAgent: Multimodal Agents as Smartphone Users (appagent-official.github.io)、リポジトリはmnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. (github.com)、OSSで公開されている

Self-Contrast

Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [48.2]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 00:32:33 GMT)
Self-verification系の手法だがチェックリストを用いる点が特徴的。よく言われている「The aforementioned experiments indicate that feedback generated by the self-evaluate process is either highly random or excessively confident.」に対応するため「We abstract insightful checklists from these pairwise contrastive differences and then use them to resolve the inconsistencies across various perspectives for a consensus.」という手順をとる。
多くの関連研究がある分野だが、多種の手法と比較しても優れていたとのこと。
すごくコストをかけてもよい状況下の人っぽいアプローチで興味深い。

The Earth is Flat? Unveiling Factual Errors in Large Language Models

The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 14:02:27 GMT)
WIkidataをベースに 3種類（Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問)）のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い（が、この評価を解釈するのは難しそう…）、コード等公開予定とのこと。

ChartAssisstant

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 17:51:48 GMT)
こちらはチャートを扱える（Vision-Languageでチャートに特化した）マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。

DocLLM

DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 22:37:52 GMT)
bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう（非現実的な仮定でもない）。

A Comprehensive Study of Knowledge Editing for Large Language Models

A Comprehensive Study of Knowledge Editing for Large Language Models [83.7]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (Tue, 2 Jan 2024 16:54:58 GMT)
Knowledge Editingのサーベイとベンチマークの提案。この分野の非常に良いサーベイ。
リポジトリはzjunlp/KnowEdit · Datasets at Hugging Faceで、ReMaKE: Retrieval-augmented Multilingual Knowledge Editor – arXiv最新論文の紹介 (devneko.jp)でも使われていたzjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs. (github.com)のチームによるもの

CALM: Composition to Augment Language Models

LLM Augmented LLMs: Expanding Capabilities through Composition [56.4]
CALM — 言語モデルの拡張のための構成 — は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 18:53:01 GMT)
2つのモデルを融合的に使ってタスクを解く手法の提案。小規模特化型のPLM+LLMで特化した領域の性能が向上する使い方を想定しているよう。「That is, CALM is especially useful in scenarios where proprietary data and knowledge is stored in parametric models. 」ということで非常に有用そう。
実験はPaLM-XXSの特化版＋PaLM2-Sで行われているが、今はスマホ用っぽいGemini Nanoのfine tune版（だったり個人スマホで個人向けに特化した版）＋Gemini Ultraみたいな構成も想定しているんだろうか。

SHAI: A LARGE LANGUAGE MODEL FOR ASSET MANAGEMENT

Shai: A large language model for asset management [8.7]
「シャイ」は資産管理産業向けに特別に設計された10Bレベルの大規模言語モデルである。 Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 05:08:57 GMT)
資産管理特化型LLMの提案、14Bと小型ながら金融ドメインであればGPT-3.5以上、一部タスクではGPT-4を超えている。ドメイン特化型LLMの可能性を感じる内容。安全性についても評価されているのが興味深い（そして、Shaiのスコアは高い）。
また、「solely focusing on domain-specific training could result in catastrophic forgetting」「To mitigate this, we included a blend of generic content in our training data.」など参考になる。

2025年12月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31