LLM – ページ 49 – arXiv最新論文の紹介

LLM＋Toolの利用

LLM＋Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot（のようなデータの与え方）という点で興味深い。

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
論文参考訳（メタデータ） (Mon, 31 Jul 2023 15:56:53 GMT)
OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
16Kと膨大なAPIコレクションを収集、インストラクションを作成（ToolBenchデータセット）、有効な経路を見つけるための手法（DFSDT: Depth First Search-based Decision Tree）提案、新たな評価器（ToolEval）で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。（ChatGPT + DFSDTには及ばず）
full finetuningとLoRAの比較があるのも興味深い
リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
論文参考訳（メタデータ） (Tue, 1 Aug 2023 17:21:38 GMT)
ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
LLMが読みやすいツールドキュメントというものもあるのだろうか。

Med-PaLM Multimodal

Towards Generalist Biomedical AI [28.7]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (Wed, 26 Jul 2023 17:52:22 GMT)
マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。

WebArena

WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 22:59:32 GMT)
Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル（そもそも達成不可能なタスクも含まれる）で難しいタスクを扱うベンチマークとして有用そう。
プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

PanGu-Coder2

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 15:28:29 GMT)
大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

FacTool

FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 14:20:51 GMT)
生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
LLMを用いてクレーム検出→クエリ作成（検索エンジン等の利用）→クエリー＆エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
（今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。）
リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI

Disco-Bench

Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (Sun, 16 Jul 2023 15:18:25 GMT)
9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。われわれはChatGPTとGPT-4を用いて2つの分析を行った。患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
論文参考訳（メタデータ） (Sun, 16 Jul 2023 21:19:47 GMT)
医療分野におけるGPT-4活用可能性の検討、（今までも色々指摘されている通り）誤記の問題は大きいよう。

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.3]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文参考訳（メタデータ） (Sun, 16 Jul 2023 15:11:01 GMT)
LLMの利用で一な低ビットでの量子化が性能に与える影響を調べた論文。4bitまでは大きな劣化はないが2bitでは深刻な性能劣化が起きるとのこと。
リポジトリはGitHub – RUCAIBox/QuantizedEmpirical

FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets)

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 14:56:35 GMT)
ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”

RetNet: Retentive Network

Retentive Network: A Successor to Transformer for Large Language Models [91.7]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (Mon, 17 Jul 2023 16:40:01 GMT)
Transformerより効率的なネットワークの提案。今までも多くの構造が提案されてきているが、6.7Bと比較的大規模での実証がされており有望そう。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31