- Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.5]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。 自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (Tue, 6 Feb 2024 01:13:53 GMT) - 各タスクでとるべき推論構造を自己判断させて問題を解く手法の提案、CoTなどと比べて高性能
- 他の手法と比べて整合的な比較になっているのかはやや疑問。(実用上は問題ない気もするが。)
投稿者: staka
MambaのICL(In Context Learning)性能
MambaのICL性能に関して論文が二つ出ていた。結局タスクによるっぽいという感じだろうか。。。少なくとも一定のICL能力があるのは間違いないように思える。一つ目のハイブリッドアーキテクチャの提案はありなのか、それだとMambaの良さが薄くなるのか悩ましいところではある。
- Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [26.2]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。 本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。 その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。 これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
論文 参考訳(メタデータ) (Tue, 6 Feb 2024 18:56:35 GMT) - こちらは「Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning.However, SSMs fall short in tasks involving non-standard retrieval functionality.」とのことでタスクに依存という報告
- 上記を受けてMambaFormer というハイブリッドアーキテクチャを提案
- Is Mamba Capable of In-Context Learning? [68.3]
Mambaは、新しく提案された選択的な状態空間モデルである。 マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
論文 参考訳(メタデータ) (Mon, 5 Feb 2024 16:39:12 GMT) - こちらは「Mamba matches the performance of transformer models for ICL.」との報告
- 「Mamba appears to solve ICL problems by incrementally refining its internal representations in a manner akin to an iterative optimization strategy, as transformer do.」という指摘も興味深い
Efficient Tool Use with Chain-of-Abstraction Reasoning
- Efficient Tool Use with Chain-of-Abstraction Reasoning [65.2]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。 マルチステップ推論問題におけるツールの実行には,微調整LLMエージェントの課題が残されている。 マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 21:53:30 GMT) - 変数を変数としてそのまま使えるような抽象化したChainを扱えるようLLMをfine tuning、そのモデルを使って実処理を別ツールとして切り出す手法の提案。
- 面白いし性能上がってそうだが評価するの難しそうな印象。
YOLO-World
- YOLO-World: Real-Time Open-Vocabulary Object Detection [87.1]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。 提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 18:59:38 GMT) - ゼロショット能力があるYOLO。YOLOらしく(?)動作速度が速い
- リポジトリはAILab-CVC/YOLO-World: Real-Time Open-Vocabulary Object Detection (github.com)
MM-LLMs: Recent Advances in MultiModal Large Language Models
- MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
論文 参考訳(メタデータ) (Thu, 25 Jan 2024 03:46:15 GMT) - マルチモーダルLLMのサーベイ
- SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
- プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状404
AgentBoard
- AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [77.0]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。 本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 01:51:00 GMT) - LLMエージェントの分析的評価のためのフレームワーク
- 対象タスクは9つ。Embodied AI / AlfWorld, ScienceWorld, BabyAI、Game / Jericho, PDDL、Web / WebShop, WebArena、Tool / Tool-Query, Tool-Operation。論文で比べられているものの中ではGPT-4の性能が圧倒的。
- リポジトリはhkust-nlp/AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents (github.com)、リーダーボードはResult | AgentBoard: An Analytical Evaluation Board of Multi-Turn LLM Agents (hkust-nlp.github.io)
ACES: Translation Accuracy ChallengE Set
- Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.4]
ACESは146の言語ペアにまたがる対照的な課題セットです。 このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。 我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (Mon, 29 Jan 2024 17:17:42 GMT) - 機械翻訳に関する評価手法に対するベンチマーク。当然といえば当然だがBLEUのスコアが非常に低い。「we advise the reader not to draw any conclusions based solely on the ACES-Score」とは書かれているものの・・・。
- リポジトリはnikitam/ACES · Datasets at Hugging Face、ライセンスはCreative Commons Attribution Non-Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)
AI for social science and social science of AI: A Survey
- AI for social science and social science of AI: A Survey [47.5]
人工知能の最近の進歩は、人工知能の可能性を再考するきっかけとなった。 AIの人間的能力の増大は、社会科学研究にも注目されている。
論文 参考訳(メタデータ) (Mon, 22 Jan 2024 10:57:09 GMT) - AIと社会科学に関するサーベイ。
- AI for social science、social science of AI、public tools and resourcesの構成。LLMをうまく使って研究するものもあればLLM自体を研究するものもあり、興味深い。
Navigating the OverKill in Large Language Models
- Navigating the OverKill in Large Language Models [84.6]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。 以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。 我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (Wed, 31 Jan 2024 07:26:47 GMT) - LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
- リポジトリはInvokerStark/OverKill (github.com)
UltraTool
- Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 16:52:56 GMT) - ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
- 現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
- リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)