- Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (Thu, 09 May 2024 08:15:21 GMT) - マルチターンな攻撃方法
- リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM
Hallucination of Multimodal Large Language Models: A Survey
- Hallucination of Multimodal Large Language Models: A Survey [40.7]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。 これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。 本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 17:59:41 GMT) - マルチモーダルなLLMを対象としたハルシネーションのサーベイ、最新動向を整理するのに有用。
- 論文リポジトリもある GitHub – showlab/Awesome-MLLM-Hallucination: 📖 A curated list of resources dedicated to hallucination of multimodal large language models (MLLM).
xLSTM: Extended Long Short-Term Memory
- xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (Tue, 07 May 2024 17:50:21 GMT) - LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。
The Call for Socially Aware Language Technologies
- The Call for Socially Aware Language Technologies [94.7]
NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。 我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
論文 参考訳(メタデータ) (Fri, 03 May 2024 18:12:39 GMT) - LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
- この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。
You Only Cache Once: Decoder-Decoder Architectures for Language Models
- You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文 参考訳(メタデータ) (Thu, 09 May 2024 14:12:45 GMT) - KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も(MambaやHybridH3と異なり)Transformer同等の結果になっているのがすごい。
- リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub
A Survey on Diffusion Models for Time Series and Spatio-Temporal Data
- A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [92.1]
時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。 近年,拡散モデルが時系列やS時間データマイニングに広く応用されている。 時系列およびS時間データにおける拡散モデルの利用について概説し、それらをモデルカテゴリ、タスクタイプ、データモダリティ、実用的なアプリケーションドメインで分類する。 本調査は,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広くカバーしている。
論文 参考訳(メタデータ) (Mon, 29 Apr 2024 17:19:40 GMT) - Diffusionモデルの時系列データへの応用に関するサーベイ。「They are called after the mathematical process of diffusion, which is commonly used to describe phenomena such as particle movement in a gas or liquid.」との記載を見ると確かに歴史的にはこの応用の方がしっくりくるのか。。
- リポジトリ GitHub – yyysjz1997/Awesome-TimeSeries-SpatioTemporal-Diffusion-Model: A list of current Diffusion Model for Time Series and SpatioTemporal Data with awesome resources (paper, application, review, survey, etc.).、も参考になる。
NeurDB: An AI-powered Autonomous Data System
- NeurDB: An AI-powered Autonomous Data System [33.3]
我々は,AI設計を各主要システムコンポーネントに完全に取り入れるように設計された次世代データシステムであるNeurDBを紹介する。 我々はNeurDBの概念的およびアーキテクチャ的概要を概説し、その設計選択と重要なコンポーネントについて議論し、その現況と今後の計画について報告する。
論文 参考訳(メタデータ) (Tue, 07 May 2024 00:51:48 GMT) - AIを使った自律的データベースを主張するDBの紹介。DBの役割とは何かを考えつつ、将来どうなるのかが楽しみなところ。
- サイトはNeurDB | AI-powered Autonomous Data System
DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3
来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社
そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (Tue, 07 May 2024 15:56:43 GMT) - Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
- リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Face、deepseek-ai/DeepSeek-V2-Chat · Hugging Face
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond
- Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (Mon, 06 May 2024 14:37:07 GMT) - SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
- リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense
- Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.1]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。 本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LLMの能力と限界について検討する。
論文 参考訳(メタデータ) (Tue, 07 May 2024 20:28:34 GMT) - 国(本件検証対象は中国、インド、イラン、ケニア、米国)によって違う常識がLLMでどう対応されているか調査した論文。「Our findings indicate that LLMs tend to associate general commonsense with cultures that are well-represented in the training data, and that LLMs have uneven performance on cultural commonsense, where they underperform for lessrepresented cultures.」に違和感はない。使用言語でほぼ決まるかとおもったら影響はあるが決定的ではないのが若干意外。
- リポジトリはhttps://github.com/ MichiganNLP/LLM_cultural_commonsenseとのことだが、現時点では404