- A Survey on Memory-Efficient Large-Scale Model Training in AI for Science [20.3]
この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。 本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。 予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 03:06:30 GMT) - 科学への応用にフォーカスしたMemory Efficientなモデルのサーベイ
- 「Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy.」という内容も。
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models / Leap of Thought
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.2]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。 その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (Sat, 25 Jan 2025 09:11:15 GMT) - LLMの創造性を測るベンチマークの提案、大喜利に注目しているのが興味深い(This paper investigates creativity in LLMs and provides an in-depth analysis of their Leap-of-Thought (LoT) abilities through the Oogiri game.)。
- (よく見る結果と異なり)GPT-4oをQwen-VLやGemini 1.5 Proが抜いているスコアになっている。
- プロジェクトサイトはLoTbench
A Survey of World Models for Autonomous Driving
- A Survey of World Models for Autonomous Driving [63.3]
自動運転車の最近のブレークスルーは、車両が周囲を知覚し、相互作用する方法に革命をもたらした。 世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。 これらの世界モデルは、より堅牢で信頼性があり、適応可能な自動運転ソリューションの道を開いた。
論文 参考訳(メタデータ) (Mon, 20 Jan 2025 04:00:02 GMT) - 自動運転にフォーカスしたWorld modelのサーベイ。
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos
- Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos [44.4]
Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。 Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。 デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
論文 参考訳(メタデータ) (Thu, 23 Jan 2025 16:51:47 GMT) - VIDEOなMMMU、Claude 3.5 sonnetの性能が高い。
- プロジェクトサイトはVideo-MMMU
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
- Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。 自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。 提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 02:21:59 GMT) - Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築+self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。
Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement
- Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement [41.9]
本研究では,ワールドナレッジツリーと自己回帰リファインメントを組み込んだ2段階合成データ生成フレームワークであるCondorを導入し,高品質なSFTデータを大規模に生成する。 実験結果から,20Kコンドル生成サンプルのみを微調整したベースモデルでは,本モデルよりも優れた性能が得られた。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 16:44:12 GMT) - SFTのための合成データ構築手法の提案、World Knowledge Treeを用いるアプローチ。圧縮された知識を解凍、わかりやすく言葉にして学習させている感があって面白い。
- リポジトリはGitHub – InternLM/Condor
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation
- ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.3]
コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。 既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。 コード翻訳に特化したLLMであるExeCoderを提案する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 16:18:52 GMT) - 通常のコード生成とは問題が異なるコード翻訳に特化したLLMの提案。「The key idea of ExeCoder is to enhance the capabilities of LLMs in code translation by leveraging executability representations such as functional semantics, syntactic structure, and variable dependencies in code.」というアプローチ。DeepseekCoder-6.7b-instructをベースモデルとして商用APIを超える性能、SOTAを主張。
- プロジェクトサイトはExeCoder: Empowering Large Language Models with Executability Representation for Code Translation
Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization
- Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization [48.6]
本研究では,モデルが推論予算の制約に対して実用性として定式化することで,推論予算を認識できるようにする手法を提案する。 簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを理解し、より難しいものに推論予算を割り当てる。 これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 20:20:48 GMT) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning – arXiv最新論文の紹介に近いモチベーションと思われる推論予算を気にするフレームワークの提案。「In this work, we propose a way to allow models to be aware of inference budgets by formulating it as utility maximization with respect to an inference budget constraint, hence naming our algorithm Inference Budget-Constrained Policy Optimization (IBPO).」
Generative Physical AI in Vision: A Survey
- Generative Physical AI in Vision: A Survey [25.9]
生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。 生成AIが進化して物理リアリズムと動的シミュレーションを統合するにつれ、その「世界シミュレータ」として機能する可能性が高まっている。 この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューする。
論文 参考訳(メタデータ) (Sun, 19 Jan 2025 03:19:47 GMT) - 世界シミュレータとしての進化が期待されるPhysics aware generationのサーベイ。
- リポジトリはGitHub – BestJunYu/Awesome-Physics-aware-Generation: Physical laws underpin all existence, and harnessing them for generative modeling opens boundless possibilities for advancing science and shaping the future!
Qwen2.5-Max, Janus-Pro, o3-mini, Mistral Small, Tulu 3 405B, Open R1, BAICHUAN-OMNI-1.5
Deepseek V3/R1関連の話題が盛り上がる中、先週も様々な話題があった。DeepseekからはマルチモーダルモデルJanus-Pro(GitHub – deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models)、AlibabaからはDeepseekに対抗するようなQwenの最大モデルの発表(Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen)が発表された。ロングコンテキス化に関する論文も出ている点にも要注目。
OpenAIからo3-mini(OpenAI o3-mini | OpenAI)が出てHumanity’s Last Examでo1やr1を超えたのは大きなニュースだった(若干誇大広告気味な部分はあるが)
Mistralからは小規模で高性能なモデルMistral small(Mistral Small 3 | Mistral AI | Frontier AI in your hands、mistralai/Mistral-Small-24B-Instruct-2501 · Hugging Face)がApache-2ライセンスで発表された。
Ai2からは大規模高性能なLLM Tulu3(Scaling the Tülu 3 post-training recipes to surpass the performance of DeepSeek V3 | Ai2)(Llama 3.1ベース、405B)が、HuggingFaceからはDeepseek R1の再現を目指すOpen R1が発表される(Open-R1: a fully open reproduction of DeepSeek-R1)などオープンな取り組みも盛り上がっている。
マルチモーダル化の流れでも「Open-source Omni-modal Foundation Model Supporting Text, Image, Video, and Audio Inputs as Well as Text and Audio Outputs」なBAICHUAN-OMNI-1.5のテクニカルレポートが出ており、クローズド、オープン両方の陣営とも競争が非常に激しい。
- Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling [27.1]
我々は、Janus-Proという前作の先進的なバージョンを紹介します。 Janus-Proは(1)最適化されたトレーニング戦略、(2)拡張されたトレーニングデータ、(3)より大きなモデルサイズへのスケーリングを取り入れている。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 18:00:19 GMT) - 「We apply independent encoding methods to convert the raw inputs into features, which are then processed by an unified autoregressive transformer.」と、Auto regressive transformer、LLaVAに比べてパラメータ効率が高い
- Qwen2.5-1M Technical Report [72.1]
コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。 我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
論文 参考訳(メタデータ) (Sun, 26 Jan 2025 03:47:25 GMT) - Qwenのロングコンテキス化
- Baichuan-Omni-1.5 Technical Report [78.5]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。 マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。 第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (Sun, 26 Jan 2025 02:19:03 GMT) - オープンなMLLM
- リポジトリはGitHub – baichuan-inc/Baichuan-Omni-1.5
- Humanity’s Last Exam [244.6]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。 数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。 各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 05:27:46 GMT) - 現状のAIで解くのが困難なベンチマーク、プロジェクトサイトはHumanity’s Last Exam
- Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
トゥル3(Tulu 3)は、最先端の訓練後モデルである。 Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 18:46:59 GMT) - もともとは11月に出た論文。405B版は非常に高性能。
- 上述のサイトでは「Interestingly, we found that our Reinforcement Learning from Verifiable Rewards (RLVR) framework improved the MATH performance more significantly at a larger scale, i.e., 405B compared to 70B and 8B, similar to the findings in the DeepSeek-R1 report. Overall, our results show a consistent edge over DeepSeek V3, especially with the inclusion of safety benchmarks.」とのこと。