arXiv – ページ 25 – arXiv最新論文の紹介

SmartEdit

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 17:54:11 GMT)
テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation [90.9]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 13:00:57 GMT)
GPT-4Vの環境変化に対する能力を検証した論文、CLIPやLLaVAとも比較。「Our findings reveal that while GPT-4V demonstrates notable adaptability and zero-shot generalization capabilities, its performance varies significantly across different scenarios of distribution shifts.」「our journey toward creating truly robust and versatile AI foundation models is ongoing」との結論。
リポジトリはGitHub – jameszhou-gl/gpt-4v-distribution-shift: Code for “How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation”

Geminiの評価

Geminiの評価に関する論文が出ている。

An In-depth Look at Gemini’s Language Abilities [49.9]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 18:47:42 GMT)
Gemini Proに対する主として言語能力の評価。「we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked.」とのこと。Gemini ProはGPT-3.5と競合的、GPT-4と比べられていたのは主にGemini Ultraなので結果に違和感はない。
リポジトリはGitHub – neulab/gemini-benchmark

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.5]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。 Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか? Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 12:40:47 GMT)
こちらはマルチモーダルでの評価。比較対象は上記と同じでGemini Proだであることに要注意。「The qualitative results indicate that Gemini is indeed a strong challenger to GPT-4V, given its superior multi-modal reasoning capacity.」と評価
リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

APIDocBooster

APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation [21.9]
APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。 APIDocBoosterは2つのステージで構成されている。 Sentence Section Classification (CSSC) と UPdate SUMmarization (UPSUM) である。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 05:15:50 GMT)
APIのドキュメントを作成するためにセクション認識、抽出型の要約、抽象型の要約を組み合わせる手法を提案。通常の方法でGPT-4を使った場合に比べて優れているとのこと。単純にLLMを使うよりも問題を適切に分割していって使うと効果的という結果に見受けられる。

Gemini: A Family of Highly Capable Multimodal Models

Gemini: A Family of Highly Capable Multimodal Models [517.1]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
論文参考訳（メタデータ） (Tue, 19 Dec 2023 02:39:27 GMT)
Gemini – arXiv最新論文の紹介 (devneko.jp) の論文、arXiv版。改めて驚きの著者数。

ReST meets ReAct

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (Fri, 15 Dec 2023 18:20:15 GMT)
Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。少ない回数のイテレーションで良い性能を出せるとのこと。
「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。

Using Large Language Models for Hyperparameter Optimization

Using Large Language Models for Hyperparameter Optimization [31.5]
本稿では,高パラメータ最適化(HPO)において,基礎的大言語モデル(LLM)を用いて決定を行う。実験的な評価により,LLMは従来のHPO法と同等あるいは同等に動作可能であることが示された。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 18:46:50 GMT)
LLMを用いたハイパーパラメータのチューニング、「LLMs provide useful feedback for the error messages, which is infeasible with traditional approaches. 」というのはLLMの利点（直後に「However, this can suffer from the challenges that affect current language models, such as hallucinations」ともあるが。。。）。

LLM360

LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 17:39:00 GMT)
オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀

Efficient Large Language Models: A Survey

Efficient Large Language Models: A Survey [37.9]
この調査は、効率的なLarge Language Models (LLMs) 研究の体系的で包括的なレビューを提供する。文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。この調査で紹介された論文をコンパイルするGitHubリポジトリも作成しました。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 19:18:42 GMT)
LLMの効率化に関するサーベイ、手法開発が盛んでとても参考になる。
リポジトリはGitHub – AIoT-MLSys-Lab/Efficient-LLMs-Survey: Efficient Large Language Models: A Survey

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。また、解決を保障する科学的、技術的課題も検討している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 10:46:53 GMT)
自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

2024年5月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31