LLM+Toolの利用

LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
    オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 15:56:53 GMT)
  • OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
  • 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
  • full finetuningとLoRAの比較があるのも興味深い
  • リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
    大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
    論文  参考訳(メタデータ)   (Tue, 1 Aug 2023 17:21:38 GMT)
  • ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
  • LLMが読みやすいツールドキュメントというものもあるのだろうか。

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

  • RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
    本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
    論文  参考訳(メタデータ)   (Fri, 28 Jul 2023 21:18:02 GMT)
  • LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
  • プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
  • 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

Capsa: DeepLearningのリスク認識フレームワーク

Dynalang

  • Learning to Model the World with Language [98.2]
    我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 17:57:49 GMT)
  • エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
  • プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

Foundational Models Defining a New Era in Vision: A Survey and Outlook

  • Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
    視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 17:59:18 GMT)
  • コンピュータビジョン(+LLM)のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
  • リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Generating Adversarial Examples Robust to Round-Trip Translation

  • Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.3]
    本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。 筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。 本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jul 2023 04:29:43 GMT)
  • 多くのadversarial attacks 手法が機械翻訳システムを用いたラウンドトリップ翻訳(日→英→日のようにある言語を介して元の言語に戻す翻訳)下で有効性が減じるため、それを乗り越える手法を提案したとの報告。
  • 「We demonstrate that round trip translation can be used as a cheap and effective defence against current textual adversarial attacks.」というのは機械翻訳モデルを作っている側としては面白い話だが、「we find that round-trip translation defensive capabilities can be bypassed by our proposed attack-agnostic algorithm」というのにいたちごっこさ感じる。
  • リポジトリはGitHub – neelbhandari6/NMT_Text_Attack: This repository is the implementation of the paper ‘Lost In Translation’.

MultiRobustBench

  • MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
    機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 01:34:16 GMT)
  • あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
  • プロジェクトサイトはmultirobustbench.github.io

Med-PaLM Multimodal

  • Towards Generalist Biomedical AI [28.7]
    我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
    論文  参考訳(メタデータ)   (Wed, 26 Jul 2023 17:52:22 GMT)
  • マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
  • パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。