TPTU-v2

  • TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
    本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
    論文  参考訳(メタデータ)   (Sun, 19 Nov 2023 12:37:30 GMT)
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
  • API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。

Adapters

  • Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning [109.3]
    本稿では,大規模言語モデルにおけるparameter-efficient な modular transfer learning を統一したオープンソースのライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 13:53:26 GMT)
  • HuggingFaceのTransformersライブラリとともに使えるチューニング用ライブラリ。多様な手法に対応しており便利そう。Full fine tuningと比べた性能表も参考になる。
  • リポジトリはGitHub – adapter-hub/adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

Program-Aided Reasoners (better) Know What They Know

  • Program-Aided Reasoners (better) Know What They Know [59.3]
    プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。 以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 04:17:49 GMT)
  • PALとCOTの比較、「Overall, we demonstrate that, in the majority of cases, program-aided reasoners better know what they know than text-based counterparts.」とのこと。理由が知りたいところ。
  • リポジトリはhttps://github.com/mathuryash5/code-calibratesとのこと

INSGENEL: Instructed Generative Entity Linker

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge 

INSTRUSUM 

  • Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [136.2]
    命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。 本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 18:25:26 GMT)
  • 制御されたテキスト要約のベンチマーク。GPT-4であれば可能なのかと思うところだが「We found that several LLMs have already shown promising performance in generating ins-controllable summaries.」であるものの「However, they lack robust holistic capabilities for this task since they still make a considerable amount of errors in their summaries and they can not reliability evaluate the different candidate summaries for the same data example」と難しいよう。(もとから簡単なタスクではないではないものの)LLMであれば対応可能と言い切れないのは興味深い結果。
  • リポジトリはGitHub – yale-nlp/InstruSum

SEMQA: Semi-Extractive Multi-Source Question Answering

Control3D

  • Control3D: Towards Controllable Text-to-3D Generation [107.8]
    本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。 2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。 合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
    論文  参考訳(メタデータ)   (Thu, 9 Nov 2023 15:50:32 GMT)
  • 手書きスケッチ+テキストによる3Dモデル生成、ControlNetの3D版な印象(「Specifically, a 2D conditioned diffusion model (ControlNet) is remoduled to optimize a Neural Radiance Field (NeRF), encouraging each view of the 3D scene to align with the given text prompt and hand-drawn sketch.」とのこと)

Holistic Evaluation of Text-To-Image Models

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
    MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
    論文  参考訳(メタデータ)   (Mon, 13 Nov 2023 18:53:37 GMT)
  • スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
  • リポジトリはGitHub – zzxslp/MM-Navigator