arXiv最新論文の紹介

Chain-of-Layer

Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples [36.6]
Chain-of-Layerは、特定のエンティティセットから誘導されるように設計された、コンテキスト学習フレームワークである。実世界の4つのベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 03:05:54 GMT)
自動分類のためのプロンプトテクニックの提案。zeroshot設定のCoL-Zero(GPT-4)が非常に強力だけど、リークの疑いなどが気になるところではある。（実用上はあまり問題にならない気はしつつ）
リポジトリはQingkaiZeng/Chain-of-Layer: Code for Chain-of-Layer (github.com)

Continual Learning for Large Language Models: A Survey

Continual Learning for Large Language Models: A Survey [95.8]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (Fri, 2 Feb 2024 12:34:09 GMT)
LLMに対する継続学習のサーベイだが、Continual Pre-training、Continual Instruction Tuning、Continual Alignment と事前学習以後の話題を扱っているのが興味深い。
Fact, Domain, Language, Task, Skills, Values, Preferencesのどこを対象としているか表している図２も参考にある（ザックリとしているので異論もあるだろうけど）

The Generative AI Paradox on Evaluation

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 06:16:08 GMT)
問題解決と評価能力は別なのでは？という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

Diffusion of Thoughts

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 16:23:28 GMT)
CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
リポジトリはHKUNLP/diffusion-of-thoughts (github.com)

Can Large Language Model Agents Simulate Human Trust Behaviors?

Can Large Language Model Agents Simulate Human Trust Behaviors? [75.7]
大規模言語モデル(LLM)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとして、ますます採用されている。本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
論文参考訳（メタデータ） (Wed, 7 Feb 2024 03:37:19 GMT)
LLMエージェントの行動（？）分析。下記がFindingsとのことだが人っぽい動きだなーという印象のほか、モデルによって動作が異なるもの興味深い。
LLM agents generally exhibit trust behaviors under the framework of Trust Game.
LLM agents’ trust behaviors can exhibit high behavioral alignment with those of humans over behavioral factors, including reciprocity anticipation, risk perception, prosocial preference, and behavioral dynamics.
LLM agents’ trust behaviors have demographic biases, have a relative preference towards humans compared to agents, are easier to be undermined than to be enhanced, and can be influenced by reasoning strategies.
プロジェクトサイトはCAMEL-AI – AgentTrust、リポジトリはcamel-ai/agent-trust: The code for “Can Large Language Model Agents Simulate Human Trust Behaviors?” (github.com)

Let’s Negotiate! A Survey of Negotiation Dialogue Systems

Let’s Negotiate! A Survey of Negotiation Dialogue Systems [56.0]
交渉は人間のコミュニケーションにおいて重要な能力である。近年の交渉対話システムへの関心は、紛争の解決や合意の達成を支援するインテリジェントなエージェントを作ることを目標としている。
論文参考訳（メタデータ） (Fri, 2 Feb 2024 02:12:46 GMT)
交渉を行うエージェントのサーベイ

プロンプトを使わないCoT

Chain-of-Thought Reasoning Without Prompting [48.4]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練されたLLMから引き出すことができる。我々は、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関していることを観察する。
論文参考訳（メタデータ） (Thu, 15 Feb 2024 18:55:41 GMT)
「 there exists a task-agnostic way to elicit CoT reasoning from pre-trained LLMs by simply altering the decoding procedure.」という興味深い報告。デコーディング時の工夫は色々と改善の余地がありそうに思う。
デコーディングプロセスでの工夫は計算コストが高くなるなどどっちでやるべきなのかという話はある

SALAD-Bench: SAfety evaluation for LLMs, Attack and Defense approaches

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (Thu, 8 Feb 2024 02:50:22 GMT)
LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)

Intention-in-Interaction (IN3)とMistral Interact: ユーザに意図を尋ねるAgent

Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.3]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (Thu, 15 Feb 2024 09:59:52 GMT)
ユーザに意図を問う能力を測るベンチマークの提案と、それを解くモデルの開発。GPT-4はそもそもがかなり強力だが、SFTしたMistral-7Bで迫れるというのは興味深い（full-parameter fine-tuning of Mistral-7B on two 80GB A800s、かかった時間は4.5時間とのこと）
リポジトリはHBX-hbx/Mistral-Interact: Repo for paper “Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents” (github.com)

A Survey of Table Reasoning with Large Language Models

A Survey of Table Reasoning with Large Language Models [55.2]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文参考訳（メタデータ） (Tue, 13 Feb 2024 07:17:52 GMT)
LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を引き出すことが重要という感じなんだろうか。

2025年9月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30