- Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 07:02:13 GMT) - 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
- リポジトリはGitHub – DCDmllm/Cheetah
タグ: LLM
LLM As DBA / D-Bot
- LLM As DBA [25.9]
大規模言語モデル(LLM)は、価値あるドキュメントを理解し、合理的な回答を生成する大きな可能性を示している。 本稿では (i)文書及びツールからのデータベース保守知識検出 (ii)根本原因分析のための思考推論の木、及び (iii)複数のllm間の協調診断 D-Botが根本原因を効果的かつ効果的に診断できるという予備実験結果が公開されている。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 10:12:43 GMT) - データベース管理者としてLLMを利用する取り組み。「 LLM-centric database maintenance framework」というのが熱い
- リポジトリはGitHub – TsinghuaDatabaseGroup/DB-GPT
SILO
- SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。 データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (Tue, 8 Aug 2023 17:58:15 GMT) - 著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
- 興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
- リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository
x-LLaMA
- Extrapolating Large Language Models to Non-English by Aligning Languages [56.9]
我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。 実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
論文 参考訳(メタデータ) (Wed, 9 Aug 2023 13:32:06 GMT) - 一般的に英語に偏っているマルチリンガルなLLMを英語以外の言語に対応させていく手法の提案。「we perform instruction-tuning on LLM with mixed cross-lingual general task instruction data and translation task instruction data.」で作ったx-LLaMA-7Bが Chinese-Alpaca-7Bと同等というのは興味深い結果。
- 日英バイリンガル大規模言語モデルではrinna/bilingual-gpt-neox-4b · Hugging Faceやstabilityai/japanese-stablelm-base-alpha-7b · Hugging Faceが出ているが、Llama2をこのような手法で強化したモデルとどちらが優れているかは気になるところ。
- リポジトリはOwenNJU/x-LLM · GitHub
Shepherd
- Shepherd: A Critic for Language Model Generation [72.2]
Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。 このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。 人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
論文 参考訳(メタデータ) (Tue, 8 Aug 2023 21:23:23 GMT) - LLMからの出力を批評するモデルの提案。Arithmetic、Coherence and deduction、Consistency with context、Veracity、Redundancy、Commonsense + NoErrorのデータをキュレーションしているとのこと。LLMの出力をLLMに批評させて改善していくのは魅力的で使うデータやモデルが異なるとダブルチェック的な意味合いでも興味深い。
- リポジトリはGitHub – facebookresearch/Shepherd: This is the repo for the paper Shepherd — A Critic for Language Model Generation
TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents
- TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents [17.2]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (Mon, 7 Aug 2023 09:22:03 GMT) - LLM-based AI AgentsのTPTU(Task Planning and Tool Usage)能力を測るフレームワークの提案。実務上も有用で未来を感じる能力。現状では商用製品(ChatGPT、Claude)が強い。
XNLP: Structured Natural Language Processing
- XNLP: An Interactive Demonstration System for Universal Structured NLP [92.8]
我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。 全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
論文 参考訳(メタデータ) (Thu, 3 Aug 2023 16:13:05 GMT) - テキストの意味構造や構文構造を分析するSyntactic Dependency Parsing、Information Extraction、Coreference Resolution、Opinion Extractionようなタスクをzero shot, weak supervisedな仕組みで解けるプラットフォームの提案。内部はLLM+In-Context Learningだが、Vicuna 13Bをbroad-cover structure-aware instruction tuning したモデル(Vicuna+StruIT)はChatGPTより優れているとのこと。オープンなLLMを使い方にフォーカスしてチューニングする方針は有力かもしれない。
- デモサイトはXNLP (haofei.vip)
SuperCLUE
- SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文 参考訳(メタデータ) (Thu, 27 Jul 2023 17:24:09 GMT) - LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
- 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
- プロジェクトサイトはcluebenchmarks.com/superclue.html
LLM+Toolの利用
LLM+Toolという使い方が広く研究されているが、関連する論文が出ていた。fine tuning vs few shot(のようなデータの与え方)という点で興味深い。
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [80.6]
オープンソースの大規模言語モデル(LLM)は、ハイレベルなタスクの実行において著しく制限されている。 これは、現在のインストラクションチューニングがツールユースドメインではなく、基本的な言語タスクに重点を置いているためである。 データ構築、モデルトレーニング、評価のための一般的なツール・ユース・フレームワークであるToolLLMを紹介する。
論文 参考訳(メタデータ) (Mon, 31 Jul 2023 15:56:53 GMT) - OSSのLLMに対してツール利用のためのチューニングを行うフレームワークの提案。
- 16Kと膨大なAPIコレクションを収集、インストラクションを作成(ToolBenchデータセット)、有効な経路を見つけるための手法(DFSDT: Depth First Search-based Decision Tree)提案、新たな評価器(ToolEval)で評価と幅広い内容。LLaMA 7Bをfine tuningした場合+DFSDTの結果がChatGPT+ReActを超えている。(ChatGPT + DFSDTには及ばず)
- full finetuningとLoRAの比較があるのも興味深い
- リポジトリはGitHub – OpenBMB/ToolBench: An open platform for training, serving, and evaluating large language model for tool learning.
- Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [91.0]
大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
論文 参考訳(メタデータ) (Tue, 1 Aug 2023 17:21:38 GMT) - ツールの使い方は一般的にデモにより提供されるが、ドキュメンテーションの利用に効果があるとの指摘。ツールドキュメントにfew shot並みの効果があるというのは若干驚き。
- LLMが読みやすいツールドキュメントというものもあるのだろうか。
Med-PaLM Multimodal
- Towards Generalist Biomedical AI [28.7]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (Wed, 26 Jul 2023 17:52:22 GMT) - マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
- パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。