arXiv – ページ 82 – arXiv最新論文の紹介

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 07:02:13 GMT)
包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI（controllable knowledge re-injection）フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
リポジトリはGitHub – DCDmllm/Cheetah

LLM As DBA / D-Bot

LLM As DBA [25.9]
大規模言語モデル(LLM)は、価値あるドキュメントを理解し、合理的な回答を生成する大きな可能性を示している。本稿では (i)文書及びツールからのデータベース保守知識検出 (ii)根本原因分析のための思考推論の木、及び (iii)複数のllm間の協調診断 D-Botが根本原因を効果的かつ効果的に診断できるという予備実験結果が公開されている。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 10:12:43 GMT)
データベース管理者としてLLMを利用する取り組み。「 LLM-centric database maintenance framework」というのが熱い
リポジトリはGitHub – TsinghuaDatabaseGroup/DB-GPT

SILO

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 17:58:15 GMT)
著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository

x-LLaMA

Extrapolating Large Language Models to Non-English by Aligning Languages [56.9]
我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 13:32:06 GMT)
一般的に英語に偏っているマルチリンガルなLLMを英語以外の言語に対応させていく手法の提案。「we perform instruction-tuning on LLM with mixed cross-lingual general task instruction data and translation task instruction data.」で作ったx-LLaMA-7Bが Chinese-Alpaca-7Bと同等というのは興味深い結果。
日英バイリンガル大規模言語モデルではrinna/bilingual-gpt-neox-4b · Hugging Faceやstabilityai/japanese-stablelm-base-alpha-7b · Hugging Faceが出ているが、Llama2をこのような手法で強化したモデルとどちらが優れているかは気になるところ。
リポジトリはOwenNJU/x-LLM · GitHub

Shepherd

Shepherd: A Critic for Language Model Generation [72.2]
Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 21:23:23 GMT)
LLMからの出力を批評するモデルの提案。Arithmetic、Coherence and deduction、Consistency with context、Veracity、Redundancy、Commonsense + NoErrorのデータをキュレーションしているとのこと。LLMの出力をLLMに批評させて改善していくのは魅力的で使うデータやモデルが異なるとダブルチェック的な意味合いでも興味深い。
リポジトリはGitHub – facebookresearch/Shepherd: This is the repo for the paper Shepherd — A Critic for Language Model Generation

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents [17.2]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (Mon, 7 Aug 2023 09:22:03 GMT)
LLM-based AI AgentsのTPTU（Task Planning and Tool Usage）能力を測るフレームワークの提案。実務上も有用で未来を感じる能力。現状では商用製品（ChatGPT、Claude）が強い。

TabR

TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning [18.6]
近年,テーブルデータの深層学習問題に対する検索モデルが提案されている。既存の検索ベースソリューションは、適切に調整された単純な検索不要のベースラインに対して、マイナーな利点しか提供していないことを示す。本研究は,注目型検索コンポーネントを備えた単純なフィードフォワードアーキテクチャを漸進的に拡張することで,この問題に対して強い肯定的な回答を与える。
論文参考訳（メタデータ） (Wed, 26 Jul 2023 17:58:07 GMT)
テーブルデータに対して有効なretrieval-augmented tabular DL model、TabRを提案。有効を確認とのこと。テーブルデータに対してはDeep系モデルでXGB、LGB、Catboostに勝利するのはなかなか大変という印象はあるが、TabRはGBDTに勝ち越しているとのこと。（とはいえ「Tree-based models, in turn, remain a more efficient solution.」という記載はある）
リポジトリはGitHub – yandex-research/tabular-dl-tabr: The implementation of “TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning”

UnIVAL

Unified Model for Image, Video, Audio and Language Tasks [94.8]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (Sun, 30 Jul 2023 09:48:36 GMT)
Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.

XNLP: Structured Natural Language Processing

XNLP: An Interactive Demonstration System for Universal Structured NLP [92.8]
我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
論文参考訳（メタデータ） (Thu, 3 Aug 2023 16:13:05 GMT)
テキストの意味構造や構文構造を分析するSyntactic Dependency Parsing、Information Extraction、Coreference Resolution、Opinion Extractionようなタスクをzero shot, weak supervisedな仕組みで解けるプラットフォームの提案。内部はLLM+In-Context Learningだが、Vicuna 13Bをbroad-cover structure-aware instruction tuning したモデル(Vicuna+StruIT)はChatGPTより優れているとのこと。オープンなLLMを使い方にフォーカスしてチューニングする方針は有力かもしれない。
デモサイトはXNLP (haofei.vip)

SuperCLUE

SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 17:24:09 GMT)
LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方（GPT-4の使い方）がとても興味深い。
論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
プロジェクトサイトはcluebenchmarks.com/superclue.html

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31