CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models 

  • CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.2]
    本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。 具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。 さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
    論文  参考訳(メタデータ)   (Sun, 23 Feb 2025 15:36:43 GMT)
  • 「To evaluate the critique abilities of LLMs on the code domain, we introduce the first holistic code critique benchmark CodeCriticBench, which includes the critique on both code generation and code QA tasks.」という珍しいタスクに対するベンチマーク。DeepSeek-R1とOpenAI o1-Previewの能力が高い。
  • リポジトリはGitHub – multimodal-art-projection/CodeCriticBench

Unnatural Languages Are Not Bugs but Features for LLMs 

  • Unnatural Languages Are Not Bugs but Features for LLMs [92.8]
    大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。 我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
    論文  参考訳(メタデータ)   (Sun, 02 Mar 2025 12:10:17 GMT)
  • 「we study a phenomenon named unnatural languages – strings that deviate from natural language syntax and appear extremely noisy to human readers, yet remain understandable to LLMs.」という研究。Abstractにもある通りJailbreakの起点となったりする重要なもの。
  • 「These findings strongly demonstrate our key findings: unnatural languages are not bugs but features for LLMs.」で「We demonstrate that LLMs process unnatural languages by effectively filtering out irrelevant tokens. Furthermore, LLMs combine relevant tokens from unnatural languages and infer contextual meaning in response to natural version questions.」とのこと。LLMの能力がすごい。
  • リポジトリはGitHub – John-AI-Lab/Unnatural_Language: The official repository of ‘Unnatural Language Are Not Bugs but Features for LLMs’

An Empirical Study on Eliciting and Improving R1-like Reasoning Models 

  • An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.5]
    RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。 我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。 また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 15:34:27 GMT)
  • 様々な研究機関が取り組むR1 like(o1 like)なモデル開発のテクニカルレポート。「By effectively utilizing tool manipulation, STILL-3-TOOL-32B achieves an impressive accuracy of 86.67 (greedy search) on AIME 2024. Remarkably, this ability can be activated with only a small number of high-quality training instances 」というのは面白く、ツールの利用にも拡張が進みつつあるよう。
  • リポジトリはGitHub – RUCAIBox/Slow_Thinking_with_LLMs: A series of technical report on Slow Thinking with LLM

An Overview of Large Language Models for Statisticians 

  • An Overview of Large Language Models for Statisticians [109.4]
    大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。 本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。 我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 25 Feb 2025 03:40:36 GMT)
  • LLMと統計学に関するサーベイ。教科書的な内容。
  • 利用者目線だと「LLM-Empowered Statistical Analysis」が興味深い。

Wikipedia in the Era of LLMs: Evolution and Risks

  • Wikipedia in the Era of LLMs: Evolution and Risks [2.7]
    既存のデータを通じてウィキペディアにおけるLarge Language Models (LLM) の影響を分析し、シミュレーションを用いて潜在的なリスクを探索する。 その結果,Wikipedia の記事は LLM の影響を受けており,特定のカテゴリーの約1%-2% が影響していることがわかった。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 18:58:13 GMT)
  • LLMがwikipediaに与えている影響の調査、「While the estimation results vary, the influence of LLMs on Wikipedia is likely to become more significant over time.In some categories, the impact has exceeded 2%.」とのこと。
  • 翻訳やRAGの評価用データとして使う場合には気を付ける必要がある。(論文中では「If the sentences in machine translation benchmarks are drawn from Wikipedia content shaped by LLMs, the scores of machine translation models are likely to be inflated, potentially reversing the outcomes of comparisons between different models.」、「Wikipedia content processed by LLMs could appear less effective for RAG compared to real Wikipedia content.」と指摘している)

DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

  • DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking [96.9]
    我々は,工学的問題に対する完全かつ実現可能なソリューションを生成するシステムの能力を評価するために,新しいベンチマークであるSolutionBenchを導入する。 本稿では,木に基づく探索と二点思考機構を利用して信頼性の高いソリューションを生成する新しいシステムであるSolutionRAGを提案する。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 05:23:10 GMT)
  • 工学の問題に対するソリューションを生成するベンチマークSolutionBenchと、それを解く手法SolutionRAGの提案。RAGとあるが「 SolutionRAG employs a bi-point thinking approach, alternating between solution design and review, gradually enhancing the solution’s completeness and reliability.」というツリーを作りながらの探索でAgenticなアプローチ。
  • リポジトリはGitHub – Li-Z-Q/DeepSolution: DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

QwQ-32B, Jamba 1.6, RWKV7 G1, Aya Vision, Mistral OCR, DeepSeek Open Source Week

先週も様々なニュースがあった。

QwQ-32BはDeepSeek-R1 (671B, Active 37B)と競合する性能を主張(QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen)、「This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.」と強化学習の有効性を感じる。Model Context Protocol (MCP), QwQ, OLMo 2 – arXiv最新論文の紹介QwQ: Reflect Deeply on the Boundaries of the Unknown | QwenのPreviewより大きく性能が上がっている。

Jamba 1.6はMistralやLlama、Cohereなど競合を超える性能を主張するLLM(Jamba 1.6: The Best Open Model for Enterprise Deployment | AI21)、SSM+Transformerのハイブリッドアーキテクチャであり高速とのこと(The Best Private LLM for Enterprise AI Deployment | AI21)。Jamba Mini 1.6 (12B active/52B total) and Jamba Large 1.6 (94B active/398B total) の2モデルがあり、リポジトリが公開されている(Jamba 1.6 – a ai21labs Collection)。

RWKVもReasoningモデルRWKV7-G1 “GooseOne”を出している(RWKV Language Model, BlinkDL/rwkv7-g1 · Hugging Face)現状ではモデルの規模が小さいが、より大規模なReasoningModelがRWKVのようなアーキテクチャでも有効かは注視したいところ。(状態空間モデルでLRM的構成が有効というのは直感に反するようなそうでもないようなもやもやがある。今後の発展がとても気になる。)

Cohereによるパラメータ効率が良いマルチモーダル・マルチリンガルモデルAYA Vision (Aya Vision: Expanding the worlds AI can see, C4AI Aya Vision – a CohereForAI Collection)の発表もありローカル・オンプレミス環境で動作する強力なLLM、MLLMも増えてきている。

Mistral OCRの発表はDocument Understanding関連として注目のニュース(Mistral OCR | Mistral AI)。olmOCR – Open-Source OCR for Accurate Document Conversionでも思ったがMLLM系のDocument Understandingも強力そう。

DeepSeekのOpen Source Weekではその名の通り多くのライブラリが公開された。インフラ周りのコードがとても興味深い。

START: Self-taught Reasoner with Tools 

  • START: Self-taught Reasoner with Tools [51.4]
    ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。 基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:11:51 GMT)
  • ツール統合型のCoTを行うSTART (Self-Taught Reasoner with Tools)の提案、「Hint-infer: code/math data is processed by QwQ, with responses truncated at predefined terminators. Context-aware hints from a Hint-Library are injected at truncation points (including endpoints), and QwQ resumes inference using a code interpreter for Python execution feedback.」と「b) Hint-RFT: Hint-infer outputs undergo rule-based scoring, filtering, and content modification to create Dseed .」の2つがキーポイント。ルール・テンプレートをうまく統合していっている印象で、この手の工夫は色々あり得そう。

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment 

  • Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment [35.2]
    提案手法は,暗黙の報奨によって適切に整合した英語モデルからの好みを捉え,反復学習を通じて他言語に伝達する手法である。 2回に分けて微調整したLlama3はウィンレートを平均12.72%改善し、X-AlpacaEvalのリーダーボード上でのトレーニング言語全体の長さ制御ウィンレートを5.97%向上させた。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:33:01 GMT)
  • 「we propose a novel approach that captures learned preferences from well-aligned English models by implicit rewards and transfers them to other languages through iterative training.」、とのことで英語の選好をマルチリンガルに転送する手法の提案。「Multilingual Responses Generation、Implicit Cross-lingual Rewarding、Preference Transfer Training」の3つからなる
  • リポジトリはGitHub – ZNLP/Implicit-Cross-Lingual-Rewarding

Predictive Data Selection: The Data That Predicts Is the Data That Teaches

  • Predictive Data Selection: The Data That Predicts Is the Data That Teaches [19.0]
    予測データ選択(PreSelect)は,高速テキストベースのスコアラのみのトレーニングとデプロイを必要とする軽量で効率的なデータ選択手法である。 我々は、PreSelectで選択された30Bトークンでトレーニングされたモデルが300Bトークンでトレーニングされたバニラベースラインのパフォーマンスを上回ることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 06:15:27 GMT)
  • 「Building on this observation, we hypothesize that data on which model losses are predictive of downstream abilities also contribute effectively to learning.」という仮定の下設計されたデータ選択手法PRESELECTの提案。「PRESELECT demonstrates remarkable performance, with an average absolute improvement of 2.8% over the random selection and 20% gains in Math and Code raw text BPC, which shows a promising trend.」と効果を主張。
  • リポジトリはGitHub – hkust-nlp/PreSelect