A Survey on Diffusion Models for Time Series and Spatio-Temporal Data

  • A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [92.1]
    時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。 近年,拡散モデルが時系列やS時間データマイニングに広く応用されている。 時系列およびS時間データにおける拡散モデルの利用について概説し、それらをモデルカテゴリ、タスクタイプ、データモダリティ、実用的なアプリケーションドメインで分類する。 本調査は,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広くカバーしている。
    論文  参考訳(メタデータ)   (Mon, 29 Apr 2024 17:19:40 GMT)
  • Diffusionモデルの時系列データへの応用に関するサーベイ。「They are called after the mathematical process of diffusion, which is commonly used to describe phenomena such as particle movement in a gas or liquid.」との記載を見ると確かに歴史的にはこの応用の方がしっくりくるのか。。
  • リポジトリ GitHub – yyysjz1997/Awesome-TimeSeries-SpatioTemporal-Diffusion-Model: A list of current Diffusion Model for Time Series and SpatioTemporal Data with awesome resources (paper, application, review, survey, etc.).、も参考になる。

NeurDB: An AI-powered Autonomous Data System

  • NeurDB: An AI-powered Autonomous Data System [33.3]
    我々は,AI設計を各主要システムコンポーネントに完全に取り入れるように設計された次世代データシステムであるNeurDBを紹介する。 我々はNeurDBの概念的およびアーキテクチャ的概要を概説し、その設計選択と重要なコンポーネントについて議論し、その現況と今後の計画について報告する。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 00:51:48 GMT)
  • AIを使った自律的データベースを主張するDBの紹介。DBの役割とは何かを考えつつ、将来どうなるのかが楽しみなところ。
  • サイトはNeurDB | AI-powered Autonomous Data System

DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3

来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社

そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)

  • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
    We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 15:56:43 GMT)
  • Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Facedeepseek-ai/DeepSeek-V2-Chat · Hugging Face

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

  • Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
    一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
    論文  参考訳(メタデータ)   (Mon, 06 May 2024 14:37:07 GMT)
  • SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
  • リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense 

  • Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.1]
    大規模言語モデル(LLM)は、かなりの常識的理解を示している。 本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LLMの能力と限界について検討する。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 20:28:34 GMT)
  • 国(本件検証対象は中国、インド、イラン、ケニア、米国)によって違う常識がLLMでどう対応されているか調査した論文。「Our findings indicate that LLMs tend to associate general commonsense with cultures that are well-represented in the training data, and that LLMs have uneven performance on cultural commonsense, where they underperform for lessrepresented cultures.」に違和感はない。使用言語でほぼ決まるかとおもったら影響はあるが決定的ではないのが若干意外。
  • リポジトリはhttps://github.com/ MichiganNLP/LLM_cultural_commonsenseとのことだが、現時点では404

CC2Vec

  • CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection [20.7]
    CC2Vecは、単純なコードクローンを素早く識別するために設計された新しいコード符号化手法である。 広く使われている2つのデータセット(BigCloneBenchとGoogle Code Jam)上でCC2Vecを評価する。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 10:18:31 GMT)
  • 「In this paper, we introduce CC2Vec, a novel code encoding method designed to swiftly identify simple code clones while also enhancing the capability for semantic code clone detection.」とのこと。意味まで考慮して判定していけるのはすごい。
  • リポジトリはGitHub – CC2Vector/CC2Vec

Why Tabular Foundation Models Should Be a Research Priority

  • Why Tabular Foundation Models Should Be a Research Priority [65.8]
    テーブルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。 私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 10:05:16 GMT)
  • Large Tabular Model、欲しいと思いつつ汎用的にできるのか&コストが見合うのかは論文を読んでなお結構疑問

Causal Evaluation of Language Models 

  • Causal Evaluation of Language Models [33.3]
    言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 16:43:21 GMT)
  • LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
  • プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)

Is Bigger Edit Batch Size Always Better? — An Empirical Study on Model Editing with Llama-3 

  • Is Bigger Edit Batch Size Always Better? — An Empirical Study on Model Editing with Llama-3 [2.6]
    本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。 最大4096個の編集を対象とする評価により,最も効果的な編集層を同定する。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 17:50:37 GMT)
  • Llama-3を対象としたモデル編集、出るのが速い・・・
  • 「Contrary to previous belief, our experiments show that earlier layers may be more optimal intervention points, and that smaller, frequent sequential batch size edits have a superior performance in comparison to larger batch sizes.」、この手のテクニックはモデルが更新されるたび変わるのだろうか。。。

The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

  • The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
    本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。 実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。 その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 14:49:50 GMT)
  • 多言語性能を上げるための2段階のアライメント手法( question alignment and response alignment)の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
  • リポジトリはGitHub – NJUNLP/QAlign