- The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。 質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (Fri, 9 Feb 2024 06:16:08 GMT) - 問題解決と評価能力は別なのでは?という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
- TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。
投稿者: staka
Diffusion of Thoughts
- Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。 実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 16:23:28 GMT) - CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
- リポジトリはHKUNLP/diffusion-of-thoughts (github.com)
Can Large Language Model Agents Simulate Human Trust Behaviors?
- Can Large Language Model Agents Simulate Human Trust Behaviors? [75.7]
大規模言語モデル(LLM)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとして、ますます採用されている。 本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
論文 参考訳(メタデータ) (Wed, 7 Feb 2024 03:37:19 GMT) - LLMエージェントの行動(?)分析。下記がFindingsとのことだが人っぽい動きだなーという印象のほか、モデルによって動作が異なるもの興味深い。
- LLM agents generally exhibit trust behaviors under the framework of Trust Game.
- LLM agents’ trust behaviors can exhibit high behavioral alignment with those of humans over behavioral factors, including reciprocity anticipation, risk perception, prosocial preference, and behavioral dynamics.
- LLM agents’ trust behaviors have demographic biases, have a relative preference towards humans compared to agents, are easier to be undermined than to be enhanced, and can be influenced by reasoning strategies.
- プロジェクトサイトはCAMEL-AI – AgentTrust、リポジトリはcamel-ai/agent-trust: The code for “Can Large Language Model Agents Simulate Human Trust Behaviors?” (github.com)
Let’s Negotiate! A Survey of Negotiation Dialogue Systems
- Let’s Negotiate! A Survey of Negotiation Dialogue Systems [56.0]
交渉は人間のコミュニケーションにおいて重要な能力である。 近年の交渉対話システムへの関心は、紛争の解決や合意の達成を支援するインテリジェントなエージェントを作ることを目標としている。
論文 参考訳(メタデータ) (Fri, 2 Feb 2024 02:12:46 GMT) - 交渉を行うエージェントのサーベイ
プロンプトを使わないCoT
- Chain-of-Thought Reasoning Without Prompting [48.4]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練されたLLMから引き出すことができる。 我々は、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関していることを観察する。
論文 参考訳(メタデータ) (Thu, 15 Feb 2024 18:55:41 GMT) - 「 there exists a task-agnostic way to elicit CoT reasoning from pre-trained LLMs by simply altering the decoding procedure.」という興味深い報告。デコーディング時の工夫は色々と改善の余地がありそうに思う。
- デコーディングプロセスでの工夫は計算コストが高くなるなどどっちでやるべきなのかという話はある
SALAD-Bench: SAfety evaluation for LLMs, Attack and Defense approaches
- SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。 それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 02:50:22 GMT) - LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
- リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)
Intention-in-Interaction (IN3)とMistral Interact: ユーザに意図を尋ねるAgent
- Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.3]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。 私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (Thu, 15 Feb 2024 09:59:52 GMT) - ユーザに意図を問う能力を測るベンチマークの提案と、それを解くモデルの開発。GPT-4はそもそもがかなり強力だが、SFTしたMistral-7Bで迫れるというのは興味深い(full-parameter fine-tuning of Mistral-7B on two 80GB A800s、かかった時間は4.5時間とのこと)
- リポジトリはHBX-hbx/Mistral-Interact: Repo for paper “Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents” (github.com)
A Survey of Table Reasoning with Large Language Models
- A Survey of Table Reasoning with Large Language Models [55.2]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。 本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (Tue, 13 Feb 2024 07:17:52 GMT) - LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
- ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を 引き出すことが重要という感じなんだろうか。
AYA datasetとAYA model
多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI
- Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (Fri, 9 Feb 2024 18:51:49 GMT) - リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
- Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 17:34:13 GMT) - リポジトリはCohereForAI/aya-101 · Hugging Face
OS-COPILOT/FRIDAY (Fully Responsive Intelligence, Devoted to Assisting You)とUFO(UI-Focused)
コンピュータ操作を含むエージェントに関する論文が2つ出ていた。LLMを用いた自律エージェント系の研究が非常に盛ん。
- OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.3]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 07:29:22 GMT) - OS操作のためのフレームワークと自己改善型エージェントFRIDAYの提案。GAIA: A Benchmark for General AI Assistants – arXiv最新論文の紹介 (devneko.jp)のスコアはGPT-4 PluginsやAuto GPT-4を大きく上回る。
- リポジトリはOS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- UFO: A UI-Focused Agent for Windows OS Interaction [42.0]
われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 15:40:35 GMT) - Microsoftによるエージェント。GPT-Visionを活用する方式。
- リポジトリはmicrosoft/UFO: A UI-Focused Agent for Windows OS Interaction. (github.com)