arXiv最新論文の紹介

CausalLM is not optimal for in-context learning

CausalLM is not optimal for in-context learning [21.6]
最近の経験的証拠は、プレフィックス言語モデル(LM)を用いる場合、コンテクスト内学習に基づくトランスフォーマーがより優れていることを示している。この結果は直感的であるが、理論的には理解されていない。本研究では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 03:14:38 GMT)
in-context learningの理論的解析と実証実験、「In particular, the stationary points of prefixLM coincides with the optimal least square solution; while the ones of causalLM is equivalent to the weights of an online learning system, that is not guaranteed to converge to the optimal solution.」とのことで「Our experiments verify that causalLM consistently underperforms prefixLM in all settings.」という結論
LLM利用でICLはかなり有力＆causalLMの流行を考えると面白い結果。

AutoGluon-TimeSeries

AutoGluon-TimeSeries: AutoML for Probabilistic Time Series Forecasting [80.1]
AutoGluon-TimeSeriesは、確率的時系列予測のためのオープンソースのAutoMLライブラリである。 3行のPythonコードで正確なポイントと定量予測を生成することができる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 13:28:59 GMT)
OSSの時系列予測ライブラリの提案。AutoGluonの時系列対応バージョン。
リポジトリはGitHub – autogluon/autogluon: AutoGluon: AutoML for Image, Text, Time Series, and Tabular Data
AutoML 2023も面白そうな発表が多い。

Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning

Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning [114.5]
本稿では,既存の手法の限界に対処する構造化データ・テキスト生成手法を提案する。提案手法は,マルチタスクトレーニング,ゼロショット,少数ショットシナリオの性能向上を目的としている。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 03:09:12 GMT)
Data to Textタスクにおけるデータの表現方法に関する論文。非常にシンプルな変換方法に思えるがfew shot設定で優れた性能。
事前学習を考えるとWEBにありそうな表現の方が性能が良いのだろうか。。

Trustworthy LLMs

Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment [15.7]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 06:43:44 GMT)
LLMの社会実装に関する包括的なサーベイ。reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, robustnessが対象で大規模。

MM-Vet

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (Fri, 4 Aug 2023 17:59:47 GMT)
VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力（例えば画像にある数字を読み取ったうえで計算しないといけない等）が必要なデータセットになっていてより困難。
リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Follow Anything

Follow Anything: Open-set detection, tracking, and following in real-time [69.4]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。私たちのアプローチは、何でも従う”(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6～8GB)グラフィックカードでラップトップにデプロイでき、毎秒6～20フレームのスループットを実現する。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 17:57:06 GMT)
物体検出と追跡のフレームワーク。LLMが組み合わせっているのも面白い。
リポジトリはGitHub – alaamaalouf/FollowAnything

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 07:02:13 GMT)
包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI（controllable knowledge re-injection）フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
リポジトリはGitHub – DCDmllm/Cheetah

LLM As DBA / D-Bot

LLM As DBA [25.9]
大規模言語モデル(LLM)は、価値あるドキュメントを理解し、合理的な回答を生成する大きな可能性を示している。本稿では (i)文書及びツールからのデータベース保守知識検出 (ii)根本原因分析のための思考推論の木、及び (iii)複数のllm間の協調診断 D-Botが根本原因を効果的かつ効果的に診断できるという予備実験結果が公開されている。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 10:12:43 GMT)
データベース管理者としてLLMを利用する取り組み。「 LLM-centric database maintenance framework」というのが熱い
リポジトリはGitHub – TsinghuaDatabaseGroup/DB-GPT

SILO

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.1]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 17:58:15 GMT)
著作権違反リスクの少ないOPEN LICENSE CORPUS (OLC)を用いてLLMを構築、そうでないデータセットと組み合わせて一定の性能が出るフレームワークの提案。リスクの低いデータと高いデータを分離できることが特徴的。
興味深い考え方であると同時に、 kNN-LMがRIC-LMより効果的なのが意外だった。諸条件でも変わるかもしれないが、機械翻訳用途だとシンプルにkNN-LM的な方針でLLMと併用した方がよかったりするんだろうか。
リポジトリはGitHub – kernelmachine/silo-lm: Silo Language Models code repository

x-LLaMA

Extrapolating Large Language Models to Non-English by Aligning Languages [56.9]
我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 13:32:06 GMT)
一般的に英語に偏っているマルチリンガルなLLMを英語以外の言語に対応させていく手法の提案。「we perform instruction-tuning on LLM with mixed cross-lingual general task instruction data and translation task instruction data.」で作ったx-LLaMA-7Bが Chinese-Alpaca-7Bと同等というのは興味深い結果。
日英バイリンガル大規模言語モデルではrinna/bilingual-gpt-neox-4b · Hugging Faceやstabilityai/japanese-stablelm-base-alpha-7b · Hugging Faceが出ているが、Llama2をこのような手法で強化したモデルとどちらが優れているかは気になるところ。
リポジトリはOwenNJU/x-LLM · GitHub

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31