2024年7月2日 – arXiv最新論文の紹介

Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
論文参考訳（メタデータ） (Thu, 27 Jun 2024 17:49:25 GMT)
Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.

A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.8]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 17:58:52 GMT)
画像編集に関するサーベイ、引用数が300を超える包括的内容、GitHub – xinchengshuai/Awesome-Image-Editingとリポジトリも公開されている。

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
論文参考訳（メタデータ） (Mon, 24 Jun 2024 16:31:12 GMT)
最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”

Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track [51.3]
RAGベースの検索システムを構築、テスト、視覚化、体系的に評価するためのアリーナを持つことが不可欠である。 TREC 2024 RAG Trackを提案する。
論文参考訳（メタデータ） (Mon, 24 Jun 2024 17:37:52 GMT)
すごい名前のRAG評価用ベンチマーク・フレームワーク
リポジトリはGitHub – castorini/ragnarok: Retrieval-Augmented Generation battle!