Logical Reasoning in Large Language Models: A Survey

  • Logical Reasoning in Large Language Models: A Survey [17.1]
    大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。 このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 09:19:14 GMT)
  • 「This survey synthesizes the rapid advancements and persistent challenges in logical reasoning for large language models (LLMs).」と、急速に発展しているLLMにおける論理的推論に関するサーベイ

The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models

  • The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.4]
    多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。 この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 16:25:16 GMT)
  • 多言語対応に関するサーベイ。
  • 日本語が割と健闘しているように見えるが、ほんとなんやろか。

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines 

  • SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.0]
    大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。 しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:05:58 GMT)
  • ByteDanceによる広範かつ難しいベンチマークの提案。DeepSeek R1の成績が良い他、Doubao 1.5pro – Doubao Teamも好成績。overallだとDeepSeek-R1 > DeepSeek-R1-Zero > o1-2024-12-17 > o3-mini-2025-01-31-high > o3-mini-2025-01-31-medium > Doubao-1.5-pro-32k-250115 > qwen-max-2025-01-25 > claude-3-5-sonnet-20241022 > o3-mini-2025-01-31-low > gemini-2.0-flashというのが現在のリーダーボード
  • リポジトリはsuper gpqa

NatureLM: Deciphering the Language of Nature for Scientific Discovery 

  • NatureLM: Deciphering the Language of Nature for Scientific Discovery [105.6]
    基礎モデルは自然言語処理と人工知能に革命をもたらした。 科学発見のためのシーケンスベース科学基盤モデルであるNature Language Model(略してNatureLM)を紹介する。
    論文  参考訳(メタデータ)   (Tue, 11 Feb 2025 13:08:03 GMT)
  • 「NatureLM is designed to handle the complexity of small molecules, proteins, DNA, RNA, materials, and their associated textual information. NatureLM follows the Transformer decoder architecture and is trained on a corpus of 143 billion tokens collected from various scientific domains.」という基盤モデルの提案
  • LLMで有効だったアプローチがいわゆる自然言語でない分野でも有効そうなのが興味深い。大規模化やMoEも有効そうで今後が気になるところ。ただ、データ量の制限が厳しそうな印象を受けなくもない。

Enhancing LLM Character-Level Manipulation via Divide and Conquer

  • Enhancing LLM Character-Level Manipulation via Divide and Conquer [108.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。 彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。 本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 07:37:39 GMT)
  • 「For example, when prompting models to insert ‘a’ after every ‘e’ in the word “intelligence”, even one of the state-of-the-art LLMs, ChatGPT-4o, returns a wrong answer: “intellaigenca”.」というようなトークン単位と文字単位の相違により意外と難しい文字操作に対する対応方法の提案。「We first decompose the token into an atomized character sequence. Then, we perform character-wise manipulations on the individual characters. Finally, we reconstruct the token from the modified sequence.」と3ステージ構成。
  • リポジトリはhttps://github.com/Eric2i/CharDCとのことだが、現時点では404

Human Decision-making is Susceptible to AI-driven Manipulation

  • Human Decision-making is Susceptible to AI-driven Manipulation [71.2]
    AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。 本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
    論文  参考訳(メタデータ)   (Tue, 11 Feb 2025 15:56:22 GMT)
  • 「Our randomized control trial with 233 participants demonstrated that human decision-making is highly susceptible to AI-driven manipulation, with participants significantly shifting preferences toward harmful options and away from beneficial choices when interacting with manipulative AI agents.」という衝撃的な結果。「strategy-enhanced manipulative agent (SEMA) employing
  • established psychological tactics to reach its hidden objectives.」の有効性がいまいちだった理由はそんなものを使わなくてもAIが強力だったとするんだろうか。
  • 今後、AIへの依存度が高まっていくこと、AIの性能自体が上がっていくことを考えると怖い結果。規制の必要性を主張しているがそれだけで十分とは思えない。。。

LM2: Large Memory Models 

  • LM2: Large Memory Models [11.3]
    本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。 BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
    論文  参考訳(メタデータ)   (Sun, 09 Feb 2025 22:11:42 GMT)
  • Large Memory Model (LM2)「decoder-only Transformer architecture enhanced with an auxiliary memory module」の提案。多くの人が待ち望んでいる拡張形態であり、実用的な規模(大規模)での検証でうまくいくか興味津々。
  • リポジトリはGitHub – convergence-ai/lm2: Official repo of paper LM2

SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model

  • SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model [33.9]
    SmolLM2は、最先端の”小” (170億のパラメータ) 言語モデルである。 我々はSmolLM2を1兆のトークンでオーバートレーニングし、Webテキストと特殊な算数、コード、命令追従データとを混合する多段階のトレーニングプロセスを用いた。 我々は、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bなど、最近の小さなLMよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Feb 2025 21:43:16 GMT)
  • HuggingfaceによるSLM、「SmolLM2 advances the state-of-the-art for open small LMs through a combination of careful dataset curation and multistage training.」とのこと。「SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B.」を主張
  • リポジトリはSmolLM2 – a HuggingFaceTB Collection

Gemini 2.0: Flash, Flash-Lite and Pro, OpenAI deep research

毎週様々なニュースが発表されるが、先週はGoogleのGemini 2.0シリーズのニュースが大きかった。特にFlash Liteはdeepseek と競争的な価格のAPIであり価格競争の面でも大きなニュースだった。Gemini 2.0: Flash, Flash-Lite and Pro – Google Developers BlogXユーザーのswyx 🔜 @aidotEngineer NYCさん: 「With Gemini 2.0 GA pricing/benchs, it’s official: @GoogleDeepMind has the Mandate of Heaven. https://t.co/pfOlxb57Yx」 / X

OpenAIはDeep researchを発表、これもPerplexityなど競合するサービスはあるもののOpenAI自ら発表したこと、性能が高いことなどもあって大きな話題になった。Introducing deep research | OpenAI

APIは強烈な価格競争が起きていて、OpenAIもアプリレイヤで戦わざるを得ないのか、それとも大きな目標に必要な動きなのかなど詳細は不明だが、LLMのコスパ向上、便利なアプリケーションの登場はユーザサイドにとってはありがたい。(一方でスタートアップにとっては…)

Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes 

  • Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.7]
    本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。 融合法を LLM-Boost と PFN-Boost と命名した。 多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 02:39:35 GMT)
  • 「We propose LLM-Boost: a novel yet simple and easy-to-implement boosting mechanism that combines LLMs, which ingest semantic column headers, with GBDTs that can scale to massive datasets.」、「We further propose PFN-Boost, where we instead fuse TabPFN and GBDTs for performance gains over GBDTs alone across dataset sizes without using column headers.」とLLMやTransformerとGBDTを融合するアプローチ。データサイズによって効果があるというのはそうだろうと思う。
  • リポジトリはGitHub – MayukaJ/LLM-Boost