Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

  • Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
    数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
    論文  参考訳(メタデータ)   (Thu, 26 Oct 2023 05:01:09 GMT)
  • リポジトリはGitHub – FMInference/DejaVu

Tree Prompting

  • Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.7]
    Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。 分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
    論文  参考訳(メタデータ)   (Sat, 21 Oct 2023 15:18:22 GMT)
  • ツリー(Decision Tree)+LLM call(の応答)で目的を達しようという論文。Agent関連で用いられるアプローチに似ていて効果はありそう。
  • リポジトリはGitHub – csinva/tree-prompt: Tree prompting: easy-to-use scikit-learn interface for improved prompting.

Language Models Hallucinate, but May Excel at Fact Verification

  • Language Models Hallucinate, but May Excel at Fact Verification [95.6]
    大規模言語モデル(LLM)はしばしば「幻惑(hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、事実の出力は25%以下である。 これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
    論文  参考訳(メタデータ)   (Mon, 23 Oct 2023 04:39:01 GMT)
  • 様々なモデルや条件でのハルシネーションについて検証した論文。「Surprisingly, FLAN-T511B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT.」という結果。
  • 「The overall inferior performance of not using evidence reveals the importance of retrieval.」は個人的な感覚にもあう。

In-Context Pretraining

  • In-Context Pretraining: Language Modeling Beyond Document Boundaries [140.8]
    In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。 本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。 より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:57:12 GMT)
  • 通常の事前学習ではランダムに文書をシャッフルしたデータを使用するが、同じコンテキストに同様の文書が入るよう調整して事前学習する手法の提案
  • LLaMAアーキテクチャ、7Bまでのサイズで有効性を確認とのこと。(128 A100 GPUs で9日かかるとのことで検証もとても大変。。)

A Survey on Video Diffusion Model

  • A Survey on Video Diffusion Models [107.5]
    AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。 その印象的な生成能力により、拡散モデルはGANと自動回帰変換器に基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の領域でも優れた性能を示す。 本稿では,AIGC時代の映像拡散モデルについて概観する。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:59:28 GMT)
  • ビデオの領域におけるDiffusionModelサーベイ、調査対象文献リストGitHub – ChenHsing/Awesome-Video-Diffusion-Models: [Arxiv] A Survey on Video Diffusion Modelsも参考になり、githubへのリンクなどもありがたい。

FELM: Factuality Evaluation of large Language Models

  • FELM: Benchmarking Factuality Evaluation of Large Language Models [40.8]
    本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。 我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。 その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
    論文  参考訳(メタデータ)   (Sun, 1 Oct 2023 17:37:31 GMT)
  • world knowledge、 science/technology、 writing/recommendation、 reasoning、mathのドメインからなるベンチマーク、アノテーションがめっちゃしんどそう。。。
  • リポジトリはGitHub – hkust-nlp/felm: Github repository for “FELM: Benchmarking Factuality Evaluation of Large Language Models”

LLMを含む金融分野のNLP評価

  • Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
    FinLMEvalは金融言語モデル評価のためのフレームワークである。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 11:43:15 GMT)
  • 複数の金融分野でのデータセットでBERTなどencoder系モデル+finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。

EIPE-text: Evaluation-guided Iterative Plan Extraction for long-form narrative text generation

  • EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation [114.5]
    長文物語テキスト生成のための評価誘導反復計画抽出法(EIPE-text)を提案する。 EIPEテキストには、計画抽出、学習、推論の3段階がある。 小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。
    論文  参考訳(メタデータ)   (Thu, 12 Oct 2023 10:21:37 GMT)
  • 長文生成のためのフレームワーク、plan extraction, learning, inferenceからなり、計画時にQAベースの評価を行うのが特徴的。学習ステップでは in-context learningの適用も想定されており、一般的な学習とは若干異なる動きでも効果があるよう。

SOTOPIA

  • SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6]
    人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 02:27:01 GMT)
  • 様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標(目標の達成度合い)における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。
  • プロジェクトサイトはSotopia

LLM Agent関連(OSS, 音楽, LLM強化, マクロ経済)

最近、LLMをAgentとして使う研究が多く発表されている。LLMのAgents – arXiv最新論文の紹介 (devneko.jp)で取り上げたようにオープンな取り組み、音楽特化のような分野特化の取り組み、LLM自体を強化する取り組み(Llama 2 70Bを強化しgpt-3.5-turbo相当)など様々な研究がある。この分野が社会実装されると影響が大きく要注目。

  • MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models [54.6]
    MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。 このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 13:31:10 GMT)
  • AI+音楽のためのエージェント、分野特化の取り組みは珍しいが1分野に様々なタスクがありツールがありという状況だと非常に役に立つと思う。
  • リポジトリはmuzic/agent at main · microsoft/muzic · GitHub
  • AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.7]
    本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。 我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。 評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 15:19:53 GMT)
  • 言語モデルのエージェント能力を高めるデータAgentInstructを構築、AgentTuningによってLlama 2 ベースのAgentLMを構築、70Bでgpt-3.5-turbo相当の能力とのこと
  • リポジトリはGitHub – THUDM/AgentTuning: AgentTuning: Enabling Generalized Agent Abilities for LLMs
  • Large Language Model-Empowered Agents for Simulating Macroeconomic Activities [48.6]
    大規模言語モデル(LLM)は、最近、自律的な人間のような特徴を提供することで有名になった。 我々は,人為的な意思決定と適応性を示すために,プロンプトエンジニアリング駆動型LLMエージェントを設計する。 我々の研究は、LLMとその人間的特性に基づいてマクロ経済学をシミュレートする有望な可能性を実証している。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 14:19:40 GMT)
  • マクロ経済シミュレーションへのLLM活用、「Classic macroeconomic phenomena are reproduced and more reasonable compared to traditional rule-based or AI agents.」とのこと。