UnIVAL

  • Unified Model for Image, Video, Audio and Language Tasks [94.8]
    UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
    論文  参考訳(メタデータ)   (Sun, 30 Jul 2023 09:48:36 GMT)
  • Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
  • リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.

XNLP: Structured Natural Language Processing 

  • XNLP: An Interactive Demonstration System for Universal Structured NLP [92.8]
    我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。 全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
    論文  参考訳(メタデータ)   (Thu, 3 Aug 2023 16:13:05 GMT)
  • テキストの意味構造や構文構造を分析するSyntactic Dependency Parsing、Information Extraction、Coreference Resolution、Opinion Extractionようなタスクをzero shot, weak supervisedな仕組みで解けるプラットフォームの提案。内部はLLM+In-Context Learningだが、Vicuna 13Bをbroad-cover structure-aware instruction tuning したモデル(Vicuna+StruIT)はChatGPTより優れているとのこと。オープンなLLMを使い方にフォーカスしてチューニングする方針は有力かもしれない。
  • デモサイトはXNLP (haofei.vip)

SuperCLUE

  • SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
    中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 17:24:09 GMT)
  • LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
  • 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
  • プロジェクトサイトはcluebenchmarks.com/superclue.html

LLM+Toolの利用

LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
    オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 15:56:53 GMT)
  • OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
  • 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
  • full finetuningとLoRAの比較があるのも興味深い
  • リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
    大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
    論文  参考訳(メタデータ)   (Tue, 1 Aug 2023 17:21:38 GMT)
  • ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
  • LLMが読みやすいツールドキュメントというものもあるのだろうか。

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

  • RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
    本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
    論文  参考訳(メタデータ)   (Fri, 28 Jul 2023 21:18:02 GMT)
  • LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
  • プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
  • 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

Capsa: DeepLearningのリスク認識フレームワーク

Dynalang

  • Learning to Model the World with Language [98.2]
    我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 17:57:49 GMT)
  • エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
  • プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

Foundational Models Defining a New Era in Vision: A Survey and Outlook

  • Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
    視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 17:59:18 GMT)
  • コンピュータビジョン(+LLM)のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
  • リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges