staka – ページ 109 – arXiv最新論文の紹介

InfLLM

InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory [99.2]
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
論文参考訳（メタデータ） (Wed, 7 Feb 2024 06:50:42 GMT)
長文に対応するための構造をもったLLM、1024Kトークでも有効とのこと

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.1]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 04:32:33 GMT)
「Our findings reveal that zero-shot prompting LLMs often fails to yield faithful explanations.80% of the generated explanations include hallucinated details.」なので、Multi-Agent Debate Refinement によって改善したという報告。ベースラインより改善しているが、まだまだ厳しい結果に思える。
「LLMs cannot reliably assess the faithfulness of the generated explanations and discover the most suitable evaluation protocols for LLM-based automatic evaluation」というfindingsは重要

Chain-of-Layer

Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples [36.6]
Chain-of-Layerは、特定のエンティティセットから誘導されるように設計された、コンテキスト学習フレームワークである。実世界の4つのベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 03:05:54 GMT)
自動分類のためのプロンプトテクニックの提案。zeroshot設定のCoL-Zero(GPT-4)が非常に強力だけど、リークの疑いなどが気になるところではある。（実用上はあまり問題にならない気はしつつ）
リポジトリはQingkaiZeng/Chain-of-Layer: Code for Chain-of-Layer (github.com)

Continual Learning for Large Language Models: A Survey

Continual Learning for Large Language Models: A Survey [95.8]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (Fri, 2 Feb 2024 12:34:09 GMT)
LLMに対する継続学習のサーベイだが、Continual Pre-training、Continual Instruction Tuning、Continual Alignment と事前学習以後の話題を扱っているのが興味深い。
Fact, Domain, Language, Task, Skills, Values, Preferencesのどこを対象としているか表している図２も参考にある（ザックリとしているので異論もあるだろうけど）

The Generative AI Paradox on Evaluation

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 06:16:08 GMT)
問題解決と評価能力は別なのでは？という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

Diffusion of Thoughts

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 16:23:28 GMT)
CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
リポジトリはHKUNLP/diffusion-of-thoughts (github.com)

Can Large Language Model Agents Simulate Human Trust Behaviors?

Can Large Language Model Agents Simulate Human Trust Behaviors? [75.7]
大規模言語モデル(LLM)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとして、ますます採用されている。本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
論文参考訳（メタデータ） (Wed, 7 Feb 2024 03:37:19 GMT)
LLMエージェントの行動（？）分析。下記がFindingsとのことだが人っぽい動きだなーという印象のほか、モデルによって動作が異なるもの興味深い。
LLM agents generally exhibit trust behaviors under the framework of Trust Game.
LLM agents’ trust behaviors can exhibit high behavioral alignment with those of humans over behavioral factors, including reciprocity anticipation, risk perception, prosocial preference, and behavioral dynamics.
LLM agents’ trust behaviors have demographic biases, have a relative preference towards humans compared to agents, are easier to be undermined than to be enhanced, and can be influenced by reasoning strategies.
プロジェクトサイトはCAMEL-AI – AgentTrust、リポジトリはcamel-ai/agent-trust: The code for “Can Large Language Model Agents Simulate Human Trust Behaviors?” (github.com)

Let’s Negotiate! A Survey of Negotiation Dialogue Systems

Let’s Negotiate! A Survey of Negotiation Dialogue Systems [56.0]
交渉は人間のコミュニケーションにおいて重要な能力である。近年の交渉対話システムへの関心は、紛争の解決や合意の達成を支援するインテリジェントなエージェントを作ることを目標としている。
論文参考訳（メタデータ） (Fri, 2 Feb 2024 02:12:46 GMT)
交渉を行うエージェントのサーベイ

プロンプトを使わないCoT

Chain-of-Thought Reasoning Without Prompting [48.4]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練されたLLMから引き出すことができる。我々は、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関していることを観察する。
論文参考訳（メタデータ） (Thu, 15 Feb 2024 18:55:41 GMT)
「 there exists a task-agnostic way to elicit CoT reasoning from pre-trained LLMs by simply altering the decoding procedure.」という興味深い報告。デコーディング時の工夫は色々と改善の余地がありそうに思う。
デコーディングプロセスでの工夫は計算コストが高くなるなどどっちでやるべきなのかという話はある

SALAD-Bench: SAfety evaluation for LLMs, Attack and Defense approaches

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (Thu, 8 Feb 2024 02:50:22 GMT)
LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31