- How Far Are We From AGI [15.7]
人工知能(AI)の進化は、人間社会に大きな影響を与え、複数の分野において大きな進歩をもたらした。 しかし、AIに対する増大する要求は、AIの現在の提供の限界を強調し、人工知能(AGI)への動きを触媒している。 AGIは、人間の知能に匹敵する効率と有効性で、さまざまな現実世界のタスクを実行する能力で特徴付けられ、AI進化における最重要マイルストーンを反映している。 本稿では,AGIに近接する重要な課題と,その実現に必要な戦略について,広範な調査,議論,オリジナル視点を通じて考察する。
論文 参考訳(メタデータ) (Thu, 16 May 2024 17:59:02 GMT) - AGIまでの道のりへの広範なサーベイ、調査対象の論文がGitHub – ulab-uiuc/AGI-surveyに整理されておりそれぞれの構成要素の現状を振り返るうえでも参考になる。
投稿者: staka
A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode
- A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode [33.2]
伝統的な時系列モデルはタスク固有であり、特異な機能と限定的な一般化能力を備えている。 大規模な言語基盤モデルは、クロスタスク転送性、ゼロショット/フェーショット学習、意思決定説明性といった、目覚ましい機能を公開した。 本調査は,関連研究の総合的な調査を行うための3E分析フレームワークを提供する。
論文 参考訳(メタデータ) (Fri, 03 May 2024 03:12:55 GMT) - 時系列分析の基盤モデルのサーベイ。LLMから派生させているモデルも多い。
- Why Tabular Foundation Models Should Be a Research Priority – arXiv最新論文の紹介 (devneko.jp)でも思ったが汎用的知識がどのくらいあるのか気になるところ。
- 論文等がGitHub – start2020/Awesome-TimeSeries-LLM-FM: The collection of resources about LLM for Time series tasksにまとまっている
GPT-4o, Gemini Flash, Falcon-2
先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。
Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind
全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)
気になっているのはコンテキスト キャッシュ ガイド | Google AI for Developers | Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。
公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face
SGA: Scientific Generative Agent
- LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。 本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。 法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (Thu, 16 May 2024 03:04:10 GMT) - 物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
- SORAのような(物理・世界シミュレーターとしての)動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。
Many-Shot In-Context Learning in Multimodal Foundation Models
- Many-Shot In-Context Learning in Multimodal Foundation Models [4.8]
マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。 マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。 ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (Thu, 16 May 2024 04:02:43 GMT) - MLLMの評価、評価対象にGPT-4oが入っているのが驚き、対応が速い。全般的にMany shotには効果があるよう。GPT-4oとGemini Proの比較ではGPT-4oが優位でないタスクも多い。また、ManyShotでの特性もかなり異なるようにみえるのが興味深い。
- リポジトリはGitHub – stanfordmlgroup/ManyICL
Auto-Encoding Morph-Tokens for Multimodal LLM
- Auto-Encoding Morph-Tokens for Multimodal LLM [151.3]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。 実験により、Morph-Tokensはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (Fri, 03 May 2024 08:43:06 GMT) - Morph-Tokensと呼ぶVisionモデルからのトークンから派生した特殊なトークンを用いたMLLMの提案。
- リポジトリはGitHub – DCDmllm/MorphTokens
NeRF in Robotics: A Survey
- NeRF in Robotics: A Survey [95.1]
近年の神経暗黙表現の出現は、コンピュータビジョンとロボティクス分野に急進的な革新をもたらした。 NeRFは、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現などの大きな表現上の利点から、この傾向を引き起こしている。
論文 参考訳(メタデータ) (Thu, 02 May 2024 14:38:18 GMT) - Neural Radiance Fields のロボット分野への応用に関するサーベイ
- 「NeRF offers a reliable choice for many sub-tasks in robotics, such as scene understanding, reconstruction, dynamic perception, scene editing, object modelling, navigation, and manipulation guidance.」とのこと。
Chain of Attack
- Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (Thu, 09 May 2024 08:15:21 GMT) - マルチターンな攻撃方法
- リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM
Hallucination of Multimodal Large Language Models: A Survey
- Hallucination of Multimodal Large Language Models: A Survey [40.7]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。 これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。 本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 17:59:41 GMT) - マルチモーダルなLLMを対象としたハルシネーションのサーベイ、最新動向を整理するのに有用。
- 論文リポジトリもある GitHub – showlab/Awesome-MLLM-Hallucination: 📖 A curated list of resources dedicated to hallucination of multimodal large language models (MLLM).
xLSTM: Extended Long Short-Term Memory
- xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (Tue, 07 May 2024 17:50:21 GMT) - LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。