- Shepherd: A Critic for Language Model Generation [72.2]
Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。 このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。 人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
論文 参考訳(メタデータ) (Tue, 8 Aug 2023 21:23:23 GMT) - LLMからの出力を批評するモデルの提案。Arithmetic、Coherence and deduction、Consistency with context、Veracity、Redundancy、Commonsense + NoErrorのデータをキュレーションしているとのこと。LLMの出力をLLMに批評させて改善していくのは魅力的で使うデータやモデルが異なるとダブルチェック的な意味合いでも興味深い。
- リポジトリはGitHub – facebookresearch/Shepherd: This is the repo for the paper Shepherd — A Critic for Language Model Generation
TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents
- TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents [17.2]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (Mon, 7 Aug 2023 09:22:03 GMT) - LLM-based AI AgentsのTPTU(Task Planning and Tool Usage)能力を測るフレームワークの提案。実務上も有用で未来を感じる能力。現状では商用製品(ChatGPT、Claude)が強い。
TabR
- TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning [18.6]
近年,テーブルデータの深層学習問題に対する検索モデルが提案されている。 既存の検索ベースソリューションは、適切に調整された単純な検索不要のベースラインに対して、マイナーな利点しか提供していないことを示す。 本研究は,注目型検索コンポーネントを備えた単純なフィードフォワードアーキテクチャを漸進的に拡張することで,この問題に対して強い肯定的な回答を与える。
論文 参考訳(メタデータ) (Wed, 26 Jul 2023 17:58:07 GMT) - テーブルデータに対して有効なretrieval-augmented tabular DL model、TabRを提案。有効を確認とのこと。テーブルデータに対してはDeep系モデルでXGB、LGB、Catboostに勝利するのはなかなか大変という印象はあるが、TabRはGBDTに勝ち越しているとのこと。(とはいえ「Tree-based models, in turn, remain a more efficient solution.」という記載はある)
- リポジトリはGitHub – yandex-research/tabular-dl-tabr: The implementation of “TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning”
UnIVAL
- Unified Model for Image, Video, Audio and Language Tasks [94.8]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (Sun, 30 Jul 2023 09:48:36 GMT) - Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
- リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.
XNLP: Structured Natural Language Processing
- XNLP: An Interactive Demonstration System for Universal Structured NLP [92.8]
我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。 全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
論文 参考訳(メタデータ) (Thu, 3 Aug 2023 16:13:05 GMT) - テキストの意味構造や構文構造を分析するSyntactic Dependency Parsing、Information Extraction、Coreference Resolution、Opinion Extractionようなタスクをzero shot, weak supervisedな仕組みで解けるプラットフォームの提案。内部はLLM+In-Context Learningだが、Vicuna 13Bをbroad-cover structure-aware instruction tuning したモデル(Vicuna+StruIT)はChatGPTより優れているとのこと。オープンなLLMを使い方にフォーカスしてチューニングする方針は有力かもしれない。
- デモサイトはXNLP (haofei.vip)
SuperCLUE
- SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文 参考訳(メタデータ) (Thu, 27 Jul 2023 17:24:09 GMT) - LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
- 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
- プロジェクトサイトはcluebenchmarks.com/superclue.html
LLM+Toolの利用
LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
論文 参考訳(メタデータ) (Mon, 31 Jul 2023 15:56:53 GMT) - OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
- 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
- full finetuningとLoRAの比較があるのも興味深い
- リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
- Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
論文 参考訳(メタデータ) (Tue, 1 Aug 2023 17:21:38 GMT) - ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
- LLMが読みやすいツールドキュメントというものもあるのだろうか。
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (Fri, 28 Jul 2023 21:18:02 GMT) - LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
- プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
- 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)
Capsa: DeepLearningのリスク認識フレームワーク
- Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.7]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。 ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (Tue, 1 Aug 2023 02:07:47 GMT) - bias、label noise、predictive uncertaintyといったDNNモデルに存在するリスクを認識、評価するためのフレームワーク
- Introducing Capsa Pro – Empowering Uncertainty-Aware Machine Learning Models! – Themis AI やCapsa Pro: An Automated Uncertainty Detection Solution – Themis AIの説明が書かれているよう。RiskとUncertaintyは似て非なる概念でQuantifyingに対応してRiskと表現しているんだろうか、、、(細かいが)製品や論文の位置づけが気になるところ。
Dynalang
- Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (Mon, 31 Jul 2023 17:57:49 GMT) - エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
- プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)