Evaluation of OpenAI o1: Opportunities and Challenges of AGI / On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability

  • Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.1]
    o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。 このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。 総合的な結果は、人工知能への大きな進歩を示している。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 06:57:00 GMT)
  • OpenAI o1の詳細な検証。「Advanced Reasoning Capabilities: o1-preview demonstrated exceptional logical reasoning abilities in multiple fields, including high school mathematics, quantitative investing, and chip design」、「Domain-Specific Knowledge: The model exhibited impressive knowledge breadth across diverse fields such as medical genetics, radiology, anthropology, and geology.」、「It often performed at a level comparable to or exceeding that of graduate students or early-career professionals in these domains.」と高い行がされている。一方で「However, it still lacks the flexibility and adaptability of human experts in these fields.」、「It demonstrated the ability to capture complex expressions like irony and sarcasm, though it still struggles with very subtle emotional nuances.」という指摘も。
  • 関わっている方も多く他分野からの詳細な検証結果、非常に参考になる。
  • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability [59.7]
    さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 30 Sep 2024 03:58:43 GMT)
  • 計画能力を対象としたo1の評価。GPT-4oと比べて優れているとのこと。
  • 1. Understanding the Problem、2. Following Constraints、3. State and Memory Management、4. Reasoning and GeneralizationでFindingsがまとめられている。いずれも強力だが、3.については「as problem complexity increased, the model’s state management became less reliable, particularly in tasks involving spatial reasoning across multiple dimensions.」、4.については「While o1-preview showed some promise in its generalization ability, particularly in structured environments like Grippers, its performance in more abstract tasks like Termes revealed substantial limitations. The model struggled with reasoning under conditions where actions and outcomes were less directly tied to the natural language representation of the task, highlighting an area for future improvements.」という指摘も
  • When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 [20.1]
    o1 は OpenAI の新しいシステムで,従来の LLM と異なり,推論に最適化されている。 多くの場合、o1 は従来の LLM よりも大幅に優れており、特に共通タスクの稀な変種に対して大きな改善が加えられている。 しかし、o1は以前のシステムで観測したのと同じ定性的傾向を示している。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:50:19 GMT)
  • 「On many of the tasks we considered, o1 performed substantially better than the LLMs we had previously evaluated, with particularly strong results on rare variants of common tasks. However, it still qualitatively showed both of the central types of probability sensitivity discussed in McCoy et al (2023): sensitivity to output probability and sensitivity to task frequency.」という指摘。

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

  • Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning [78.4]
    Reflective Monte Carlo Tree Search (R-MCTS)は、AIエージェントの能力を高めるために設計された新しいテストタイムアルゴリズムである。 R-MCTSは1)従来のMCTSを拡張し、対照的な反射を取り入れ、エージェントは過去の相互作用から学ぶことができる。 自己学習によりGPT-4oを微調整することでエージェントの性能を向上させる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 21:42:35 GMT)
  • 「We propose Reflective Monte Carlo Tree Search (R-MCTS), an extension of classic MCTS that improves the agent’s decision making process on the fly by incorporating reflection over its past task executions, and state estimations using multi-agent-debate」というタイプのモンテカルロ木探索の提案と、それによるSFTでベンチマーク結果を改善。ToTや単純なMCTSより優れた結果。
  • リポジトリはjasonyux/RMCTS-self-learning · GitHub

Contextualized Data-Wrangling Code Generation in Computational Notebooks

  • Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.3]
    我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。 コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。 実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
    論文  参考訳(メタデータ)   (Fri, 20 Sep 2024 14:49:51 GMT)
  • 「Data wrangling involves cleaning, structuring, and enriching raw data into a desired format for further analysis [96], such as by removing duplicates, casting types, and extracting features [17].」のためのコード合成を目指したデータセット構築とそれを利用したDataCoderの提案。DataCoderのアーキテクチャが「Data Encoder」 + 「Code + Text Encoder」 +「 Decoder」という構成、よく見られるLLM baseなアーキテクチャでないことも興味深い。
  • リポジトリはGitHub – Jun-jie-Huang/CoCoNote: Source Code for ASE-24 paper “Contextualized Data-Wrangling Code Generation in Computational Notebooks”.

One missing piece in Vision and Language: A Survey on Comics Understanding

Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis

  • Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.4]
    大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。 複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 14:14:05 GMT)
  • 多言語での動作解析、「(1) a consistent performance gap between high-resource and lowresource languages, with high-resource languages achieving significantly higher probing accuracy; (2) divergent layer-wise accuracy trends, where high-resource languages show substantial improvement in deeper layers similar to English; and (3) higher representational similarities among high-resource languages, with low-resource languages demonstrating lower similarities both among themselves and with high-resource languages.」とのこと
  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介 (devneko.jp)でも思ったが、この手の動作解析はとても面白い。

Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs

Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models 

  • Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models [7.5]
    本稿では,二項論理推論タスクに特化して設計された,素早い工学手法について述べる。 この枠組みでは、裁判官、検察官、弁護士が、より信頼性が高く正確な推論を容易にするためにこの技術を利用する。 実験結果から,本手法は既存手法よりも有意に優れていた。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 05:28:05 GMT)
  • 「JoT employs three roles—lawyer, prosecutor, and judge—to facilitate more reliable and accurate reasoning by the model.」という手法の提案
  • 有効なタスクとそうでないタスクがあるよう。三審制とか取り入れると性能が上がったりするんやろうか。

A Survey of Foundation Models for Music Understanding 

  • A Survey of Foundation Models for Music Understanding [60.8]
    この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。 音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
    論文  参考訳(メタデータ)   (Sun, 15 Sep 2024 03:34:14 GMT)
  • 「This work, to our best knowledge, is one of the early reviews of the intersection of AI techniques and music understanding.」とのこと。非常に包括的なサーベイ。

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method 

  • Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.6]
    本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
    論文  参考訳(メタデータ)   (Mon, 23 Sep 2024 07:55:35 GMT)
  • 事前学習に何が使われたかを検知するタスクpretraining data detectionに関する手法DC-PDD およびベンチマークの提案。「The pretraining data detection problem can be viewed as an instance of the membership inference attack (MIA) task (Shokri et al , 2017), where the primary objective is to determine if a particular text was part of a target LLM’s training corpus.」
  • DC-PDD computes the divergence between the token probability distribution and the token frequency distribution for detection.とのこと。
  • リポジトリはGitHub – zhang-wei-chao/DC-PDD

Deep Graph Anomaly Detection: A Survey and New Perspectives