arXiv最新論文の紹介

MambaOut: Do We Really Need Mamba for Vision?

MambaOut: Do We Really Need Mamba for Vision? [70.6]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
論文参考訳（メタデータ） (Mon, 13 May 2024 17:59:56 GMT)
Mambaの特徴を「Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics.」とし、分類問題には不要であるとし、実証した論文。一方で「the potential of Mamba for visual detection and segmentation tasks, which align with the long-sequence characteristic, merits further exploration.」ともあり、タスクの特徴を踏まえることが重要。

What Can Natural Language Processing Do for Peer Review?

What Can Natural Language Processing Do for Peer Review? [173.9]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文参考訳（メタデータ） (Fri, 10 May 2024 16:06:43 GMT)
LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
リポジトリはGitHub – OAfzal/nlp-for-peer-review

Multimodal Fusion on Low-quality Data: A Comprehensive Survey

Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.2]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文参考訳（メタデータ） (Sun, 05 May 2024 08:29:35 GMT)
multimodal fusion、クロスモーダルを含む低品質データ（ノイジーだったり不均衡だったり）取り扱いのサーベイ

A Comprehensive Survey on Data Augmentation

A Comprehensive Survey on Data Augmentation [55.4]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (Wed, 15 May 2024 11:58:08 GMT)
データ拡張のサーベイ。生成AIを用いた手法も含まれる。

EWOK: Elements of World Knowledge

Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.5]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文参考訳（メタデータ） (Wed, 15 May 2024 17:19:42 GMT)
LLMの世界の知識（物理的なもの、空間的なもの、社会的なものなど様々なドメインが含まれる）を評価するためのベンチマーク。「Community Standard for Use of Evaluation Data」も面白い。
リポジトリはEWoK: Elements of World Knowledge (ewok-core.github.io)

How Far Are We From AGI

How Far Are We From AGI [15.7]
人工知能(AI)の進化は、人間社会に大きな影響を与え、複数の分野において大きな進歩をもたらした。しかし、AIに対する増大する要求は、AIの現在の提供の限界を強調し、人工知能(AGI)への動きを触媒している。 AGIは、人間の知能に匹敵する効率と有効性で、さまざまな現実世界のタスクを実行する能力で特徴付けられ、AI進化における最重要マイルストーンを反映している。本稿では,AGIに近接する重要な課題と,その実現に必要な戦略について,広範な調査,議論,オリジナル視点を通じて考察する。
論文参考訳（メタデータ） (Thu, 16 May 2024 17:59:02 GMT)
AGIまでの道のりへの広範なサーベイ、調査対象の論文がGitHub – ulab-uiuc/AGI-surveyに整理されておりそれぞれの構成要素の現状を振り返るうえでも参考になる。

A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode

A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode [33.2]
伝統的な時系列モデルはタスク固有であり、特異な機能と限定的な一般化能力を備えている。大規模な言語基盤モデルは、クロスタスク転送性、ゼロショット/フェーショット学習、意思決定説明性といった、目覚ましい機能を公開した。本調査は,関連研究の総合的な調査を行うための3E分析フレームワークを提供する。
論文参考訳（メタデータ） (Fri, 03 May 2024 03:12:55 GMT)
時系列分析の基盤モデルのサーベイ。LLMから派生させているモデルも多い。
Why Tabular Foundation Models Should Be a Research Priority – arXiv最新論文の紹介 (devneko.jp)でも思ったが汎用的知識がどのくらいあるのか気になるところ。
論文等がGitHub – start2020/Awesome-TimeSeries-LLM-FM: The collection of resources about LLM for Time series tasksにまとまっている

GPT-4o, Gemini Flash, Falcon-2

先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。

Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind

全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある（GPT-5の発表によって覆される可能性はあるが・・・）

気になっているのはコンテキストキャッシュガイド | Google AI for Developers | Google for Developersの実装で、中身がSSM＆状態を保存するようなものだと革新的（そうじゃないと思うけど）。そうでなくともRAGを終わらせる可能性のある機能として興味深い。

公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face

SGA: Scientific Generative Agent

LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (Thu, 16 May 2024 03:04:10 GMT)
物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
SORAのような（物理・世界シミュレーターとしての）動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。

Many-Shot In-Context Learning in Multimodal Foundation Models

Many-Shot In-Context Learning in Multimodal Foundation Models [4.8]
マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (Thu, 16 May 2024 04:02:43 GMT)
MLLMの評価、評価対象にGPT-4oが入っているのが驚き、対応が速い。全般的にMany shotには効果があるよう。GPT-4oとGemini Proの比較ではGPT-4oが優位でないタスクも多い。また、ManyShotでの特性もかなり異なるようにみえるのが興味深い。
リポジトリはGitHub – stanfordmlgroup/ManyICL

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31