staka – ページ 154 – arXiv最新論文の紹介

MM-Vet

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (Fri, 4 Aug 2023 17:59:47 GMT)
VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力（例えば画像にある数字を読み取ったうえで計算しないといけない等）が必要なデータセットになっていてより困難。
リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Follow Anything

Follow Anything: Open-set detection, tracking, and following in real-time [69.4]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。私たちのアプローチは、何でも従う”(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6～8GB)グラフィックカードでラップトップにデプロイでき、毎秒6～20フレームのスループットを実現する。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 17:57:06 GMT)
物体検出と追跡のフレームワーク。LLMが組み合わせっているのも面白い。
リポジトリはGitHub – alaamaalouf/FollowAnything

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 07:02:13 GMT)
包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI（controllable knowledge re-injection）フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
リポジトリはGitHub – DCDmllm/Cheetah

LLM As DBA / D-Bot

LLM As DBA [25.9]
大規模言語モデル(LLM)は、価値あるドキュメントを理解し、合理的な回答を生成する大きな可能性を示している。本稿では (i)文書及びツールからのデータベース保守知識検出 (ii)根本原因分析のための思考推論の木、及び (iii)複数のllm間の協調診断 D-Botが根本原因を効果的かつ効果的に診断できるという予備実験結果が公開されている。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 10:12:43 GMT)
データベース管理者としてLLMを利用する取り組み。「 LLM-centric database maintenance framework」というのが熱い
リポジトリはGitHub – TsinghuaDatabaseGroup/DB-GPT

SILO

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 17:58:15 GMT)
著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository

x-LLaMA

Extrapolating Large Language Models to Non-English by Aligning Languages [56.9]
我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 13:32:06 GMT)
一般的に英語に偏っているマルチリンガルなLLMを英語以外の言語に対応させていく手法の提案。「we perform instruction-tuning on LLM with mixed cross-lingual general task instruction data and translation task instruction data.」で作ったx-LLaMA-7Bが Chinese-Alpaca-7Bと同等というのは興味深い結果。
日英バイリンガル大規模言語モデルではrinna/bilingual-gpt-neox-4b · Hugging Faceやstabilityai/japanese-stablelm-base-alpha-7b · Hugging Faceが出ているが、Llama2をこのような手法で強化したモデルとどちらが優れているかは気になるところ。
リポジトリはOwenNJU/x-LLM · GitHub

Shepherd

Shepherd: A Critic for Language Model Generation [72.2]
Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 21:23:23 GMT)
LLMからの出力を批評するモデルの提案。Arithmetic、Coherence and deduction、Consistency with context、Veracity、Redundancy、Commonsense + NoErrorのデータをキュレーションしているとのこと。LLMの出力をLLMに批評させて改善していくのは魅力的で使うデータやモデルが異なるとダブルチェック的な意味合いでも興味深い。
リポジトリはGitHub – facebookresearch/Shepherd: This is the repo for the paper Shepherd — A Critic for Language Model Generation

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents [17.2]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (Mon, 7 Aug 2023 09:22:03 GMT)
LLM-based AI AgentsのTPTU（Task Planning and Tool Usage）能力を測るフレームワークの提案。実務上も有用で未来を感じる能力。現状では商用製品（ChatGPT、Claude）が強い。

TabR

TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning [18.6]
近年,テーブルデータの深層学習問題に対する検索モデルが提案されている。既存の検索ベースソリューションは、適切に調整された単純な検索不要のベースラインに対して、マイナーな利点しか提供していないことを示す。本研究は,注目型検索コンポーネントを備えた単純なフィードフォワードアーキテクチャを漸進的に拡張することで,この問題に対して強い肯定的な回答を与える。
論文参考訳（メタデータ） (Wed, 26 Jul 2023 17:58:07 GMT)
テーブルデータに対して有効なretrieval-augmented tabular DL model、TabRを提案。有効を確認とのこと。テーブルデータに対してはDeep系モデルでXGB、LGB、Catboostに勝利するのはなかなか大変という印象はあるが、TabRはGBDTに勝ち越しているとのこと。（とはいえ「Tree-based models, in turn, remain a more efficient solution.」という記載はある）
リポジトリはGitHub – yandex-research/tabular-dl-tabr: The implementation of “TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning”

UnIVAL

Unified Model for Image, Video, Audio and Language Tasks [94.8]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (Sun, 30 Jul 2023 09:48:36 GMT)
Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.

2025年9月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30