arXiv最新論文の紹介

SGA: Scientific Generative Agent

LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (Thu, 16 May 2024 03:04:10 GMT)
物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
SORAのような（物理・世界シミュレーターとしての）動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。

Many-Shot In-Context Learning in Multimodal Foundation Models

Many-Shot In-Context Learning in Multimodal Foundation Models [4.8]
マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (Thu, 16 May 2024 04:02:43 GMT)
MLLMの評価、評価対象にGPT-4oが入っているのが驚き、対応が速い。全般的にMany shotには効果があるよう。GPT-4oとGemini Proの比較ではGPT-4oが優位でないタスクも多い。また、ManyShotでの特性もかなり異なるようにみえるのが興味深い。
リポジトリはGitHub – stanfordmlgroup/ManyICL

Auto-Encoding Morph-Tokens for Multimodal LLM

Auto-Encoding Morph-Tokens for Multimodal LLM [151.3]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。実験により、Morph-Tokensはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文参考訳（メタデータ） (Fri, 03 May 2024 08:43:06 GMT)
Morph-Tokensと呼ぶVisionモデルからのトークンから派生した特殊なトークンを用いたMLLMの提案。
リポジトリはGitHub – DCDmllm/MorphTokens

NeRF in Robotics: A Survey

NeRF in Robotics: A Survey [95.1]
近年の神経暗黙表現の出現は、コンピュータビジョンとロボティクス分野に急進的な革新をもたらした。 NeRFは、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現などの大きな表現上の利点から、この傾向を引き起こしている。
論文参考訳（メタデータ） (Thu, 02 May 2024 14:38:18 GMT)
Neural Radiance Fields のロボット分野への応用に関するサーベイ
「NeRF offers a reliable choice for many sub-tasks in robotics, such as scene understanding, reconstruction, dynamic perception, scene editing, object modelling, navigation, and manipulation guidance.」とのこと。

Chain of Attack

Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文参考訳（メタデータ） (Thu, 09 May 2024 08:15:21 GMT)
マルチターンな攻撃方法
リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM

Hallucination of Multimodal Large Language Models: A Survey

Hallucination of Multimodal Large Language Models: A Survey [40.7]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文参考訳（メタデータ） (Mon, 29 Apr 2024 17:59:41 GMT)
マルチモーダルなLLMを対象としたハルシネーションのサーベイ、最新動向を整理するのに有用。
論文リポジトリもある　GitHub – showlab/Awesome-MLLM-Hallucination: 📖 A curated list of resources dedicated to hallucination of multimodal large language models (MLLM).

xLSTM: Extended Long Short-Term Memory

xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文参考訳（メタデータ） (Tue, 07 May 2024 17:50:21 GMT)
LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。

The Call for Socially Aware Language Technologies

The Call for Socially Aware Language Technologies [94.7]
NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
論文参考訳（メタデータ） (Fri, 03 May 2024 18:12:39 GMT)
LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。

You Only Cache Once: Decoder-Decoder Architectures for Language Models

You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文参考訳（メタデータ） (Thu, 09 May 2024 14:12:45 GMT)
KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も（MambaやHybridH3と異なり）Transformer同等の結果になっているのがすごい。
リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [92.1]
時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。近年,拡散モデルが時系列やS時間データマイニングに広く応用されている。時系列およびS時間データにおける拡散モデルの利用について概説し、それらをモデルカテゴリ、タスクタイプ、データモダリティ、実用的なアプリケーションドメインで分類する。本調査は,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広くカバーしている。
論文参考訳（メタデータ） (Mon, 29 Apr 2024 17:19:40 GMT)
Diffusionモデルの時系列データへの応用に関するサーベイ。「They are called after the mathematical process of diffusion, which is commonly used to describe phenomena such as particle movement in a gas or liquid.」との記載を見ると確かに歴史的にはこの応用の方がしっくりくるのか。。
リポジトリ　GitHub – yyysjz1997/Awesome-TimeSeries-SpatioTemporal-Diffusion-Model: A list of current Diffusion Model for Time Series and SpatioTemporal Data with awesome resources (paper, application, review, survey, etc.).、も参考になる。

2026年6月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30