OpenAI o1

先週の最大のニュースは今まで様々なうわさがあった、OpenAI o1 Introducing OpenAI o1 | OpenAIの公開だろう。特にSTEM分野で強力な性能を発揮している。

技術的な情報は公開されていない部分が多いが、Learning to Reason with LLMs | OpenAIに書かれている「Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them.」では自己改善・合成データ活用の流れ(self-X – arXiv最新論文の紹介 (devneko.jp)Synthetic data – arXiv最新論文の紹介 (devneko.jp))に近いのかなと思う。

開発者向けの質問回答では

  • OpenAI o-1はモデルであってシステムではない、(ユーザには見せない)長い推論過程を生成するモデルである
  • GPT-4oのプロンプトエンジニアリングによってOpenAI o-1の性能と競合することはできない
  • RAGはOpenAI o-1においても有効

など興味深い質疑があったよう。詳細の開示はないだろうが、何らかのテクニカルレポートが欲しいところ。現時点では最近の研究動向から大きく外れたものではないし、性能の改善幅や使用感からして大きな驚きはないというのが正直な感想。1モデルにするのが良いのか、システム(Agenticな動作)にしたうえでそれに対応するモデル(Agenticな動きに特化したモデルと、通常の推論に適したモデルなど)の組み合わせのほうが良いのかなど気になるところではある。o-1は前者とのことだが、外部ツール利用を考えたとき制約が大きくなりそうな気がしている。

今後、エージェント的動作を行う場合を含め様々なベンチマークで評価されているのだろうと思うが、CybenchCybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models – arXiv最新論文の紹介 (devneko.jp))では「Subtasks % Solved: Percentage of subtasks solved per task, macro-averaged across the tasks.」が向上している(GPT-4oで負けていたClaude 3.5 Sonnetを抜いた)一方でSuccessRateはGPT-4oに及んでいない。

SYNTHETIC CONTINUED PRETRAINING

  • Synthetic continued pretraining [29.7]
    与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。 本研究では,より学習しやすい大規模コーパスを合成するための合成継続事前学習を提案する。 合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
    論文  参考訳(メタデータ)   (Wed, 11 Sep 2024 17:21:59 GMT)
  • ナレッジグラフを介して合成データを構築するEntiGraphの提案。「Synthetic continued pretraining with EntiGraph demonstrates consistent scaling in downstream closed-book QA performance up to a 600M token synthetic corpus, whereas baselines such as continued pretraining on the small corpus or synthetic paraphrases show no improvement or asymptote early.」とのことで有効性を確認
  • 抽象的な「知識」を介したほうが、表現の変換よりも良い(学習に利用可能な)情報を提供できるという解釈で良いのだろうか。

From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning

  • From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [90.0]
    大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。 近年の研究では、教師付き微調整(SFT)を用いて、お世辞問題を軽減することが提案されている。 そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 07:01:37 GMT)
  • 「When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer.」というSycophancyへ対応するためピンポイントなチューニングを適用
  • 「The proposed pinpoint tuning consists of two steps: ➀: “diagnose” for where in the network attributes to the sycophancy; ➁: precisely optimize the pinpointed components to improve the performance.」とのことだが、いろいろ有効そうな場所が多そうなアプローチ

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル(リポジトリ:allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス)で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル(リポジトリ:mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス)、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

  • OLMoE: Open Mixture-of-Experts Language Models [180.2]
    OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 17:08:20 GMT)
  • Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
    トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。 我々は「反射チューニング」と呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 05:13:47 GMT)
  • Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
    最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。 この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 20:23:21 GMT)
  • リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

Symbolic Working Memory Enhances Language Models for Complex Rule Application

  • Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.3]
    大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。 本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。 当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
    論文  参考訳(メタデータ)   (Sat, 24 Aug 2024 19:11:54 GMT)
  • LLMが苦手とするルールを適用していく多段推論に対応するため作業領域を用いる手法の提案。「We implement this working memory to store rules and facts in both natural language and their symbolic forms (i.e., in Prolog), thus supporting precise symbolic reference.」とPrologのような形式を併用するのが特徴的。
    • 人でもこの手の疑似コードを使うことを考えると、他のタスクでも有効かもしれない。
  • リポジトリはGitHub – SiyuanWangw/RuleApplication

Can Unconfident LLM Annotations Be Used for Confident Conclusions? 

  • Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.2]
    大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。 信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
    論文  参考訳(メタデータ)   (Tue, 27 Aug 2024 17:03:18 GMT)
  • LLMと人間が手分けしてアノテーションをする状況下で、LLMのアノテーション及びLLMの信頼度を使って人間がやるべきアノテーションを選択する手法の提案。「We demonstrate the effectiveness of CONFIDENCE-DRIVEN INFERENCE over baselines in statistical estimation tasks across three CSS settings—text politeness, stance, and bias—reducing the needed number of human annotations by over 25% in each.」とのこと。
  • リポジトリはGitHub – kristinagligoric/confidence-driven-inference

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
    Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 17:23:10 GMT)
  • CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
  • リポジトリはCybench

LogicGame

  • LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
    大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:16:41 GMT)
  • ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
  • GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation

  • Large Language Model Driven Recommendation [34.5]
    言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。 この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 15:36:24 GMT)
  • LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

  • Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
    大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 16:15:28 GMT)
  • 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
  • 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
  • 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。