2024年3月11日 – arXiv最新論文の紹介

Divide-or-Conquer? Which Part Should You Distill Your LLM?

Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.6]
我々は、推論タスクを問題分解フェーズと問題解決フェーズに分割する同様の戦略を考案し,この戦略が単一段階のソリューションよりも優れていることを示す。
論文参考訳（メタデータ） (Thu, 22 Feb 2024 22:28:46 GMT)
一回で答えを導くのではなく、問題を分解したうえでLLMに答えさせる戦略のほうが良い結果になるという報告。CoTなりToTなりSelf verificationなり、自律エージェント的動作の効果を見るとそうなんだろうと納得感がある。

Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [80.5]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 19:12:48 GMT)
この論文も面白かった。複数のAPI call（LLM利用）によって性能が上がるかはタスクに依存するという内容。ただし、並列に動作する環境を想定しているようなので上記とは使い方がかなり異なる。

SheetRM & SheetAgent

SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [42.7]
大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークであるSheetRMを紹介した。さらに,LLMのパワーを利用した新しい自律エージェントであるSheetAgentを提案する。
論文参考訳（メタデータ） (Wed, 6 Mar 2024 11:48:08 GMT)
Excelのようなスプレッドシートに対するエージェント的動作のベンチマークとエージェントの提案。SheetAgentはPlanner、Informer、Retrieverで構成されPlannerがPythonコード、InformerがSQLを作成するプログラムを介するタイプ。SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models (sheetcopilot-demo.github.io)より高性能と主張。本件で構築されたベンチマークSheetRM (Spreadsheet Reasoning and Manipulation Benchmark)に対してはSheetCopilotのスコアが悪く、汎用的なエージェントを作る難しさ（対象業務によってアプローチを選ぶ必要性）がよくわかる気がする。
リポジトリはSheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models

KnowAgent

KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.1]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (Tue, 5 Mar 2024 16:39:12 GMT)
planning hallucinationへの対策として行動のための知識を計画時に使いパスを作ることで性能を上げるエージェントの提案。パラメータ数が多い（ベースモデルの性能が高い）ほど効果が大きいように見えるのが興味深い。
リポジトリはKnowAgent: Knowledge-Augmented Planning for LLM-Based Agents (zjukg.org)

Claude 3とYi

今週もLLM関連の話題が多く、AnthropicからGPT-4を超える性能というClaude 3が発表されてた。また、中国のスタートアップ01.AIによるYiは公開されているモデルの中では非常に高性能に思える（ライセンスは独自で商用利用時には登録が必要などCCなど一般的なものとは異なり、よく読む必要がある。）

Introducing the next generation of Claude \ Anthropic

Model_Card_Claude_3.pdf (anthropic.com)
The Claude 3 Model Family: Opus, Sonnet, Haiku
Claude 3ファミリーはベンチマーク評価全体で強力なパフォーマンスを示し、推論、数学、コーディングの尺度に新しい標準を設定する。Claude 3 Opus は GPQA [1], MMLU [2], MMMU [3] などの評価で最先端の結果を得る。Claude 3 HaikuはClaude 2よりも多くの純粋なテキストタスクで優れており、SonnetとOpusはそれを著しく上回っている。

Yi: Open Foundation Models by 01.AI [42.9]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文参考訳（メタデータ） (Thu, 7 Mar 2024 16:52:49 GMT)
タスクによってかなり性能は違うが、英語で同サイズのLlamaを上回り、34Bだと英語でGPT-3.5、中国語でGPT-4に匹敵するようなモデルの提案。Weightが公開されているのがすごい。日本語でも相応の性能に思える。
リポジトリは01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com)、モデルは01-ai (01-ai) (huggingface.co)

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31