- AIGT: AI Generative Table Based on Prompt [32.5]
我々は,AI生成テーブル(AIGT)を導入し,高品質な合成データを生成する。 20のパブリックデータセットと2つの実業界データセットのうち14の面で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (Tue, 24 Dec 2024 02:51:06 GMT) - テーブルの合成に関する提案。
- 良いモデルを得るためにはよい合成データを作る、とか、良いCriticモデルを作るとか、そういうアプローチが重要になっている気がする。
タグ: Synthetic data
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
- DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought [89.5]
DRT-o1は、長いチェーン・オブ・シークレットの成功をニューラルマシン翻訳(MT)にもたらす試みである。 まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 文献翻訳実験の結果, DRT-o1の有効性が示された。
論文 参考訳(メタデータ) (Mon, 23 Dec 2024 11:55:33 GMT) - Chain of thoughtの機械翻訳への応用、データを収集・マルチエージェントフレームワークでのデータ合成、fine tuningというアプローチ。14Bで124 GPU hoursは思ったよりも少ない印象だが、性能は大きく向上している。
- プロジェクトサイトはGitHub – krystalan/DRT-o1: DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
How to Synthesize Text Data without Model Collapse?
- How to Synthesize Text Data without Model Collapse? [37.2]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。 半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (Thu, 19 Dec 2024 09:43:39 GMT) - 合成データを用いたモデル構築で、モデル崩壊の分析とそれを抑える手法の提案。
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action
- TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (Sat, 07 Dec 2024 00:42:04 GMT) - 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
- プロジェクトサイトはTACO
Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models
- Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.9]
データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。 合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。 これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 02:47:45 GMT) - 合成データに関するQuality、Diversity、Complexityからのサーベイ。「Overall, we found that domain specific, attribute measures utilizing LLMs-as-a-judge provide the best measures in complex tasks and domains in terms of correlation with downstream metrics.」という記載が興味深いところ。
Phi4, InternVL 2.5, EXAONE 3.5
Gemini 2.0やOpenAIの12日間発表で盛り上がっているが、OSSや公開モデルについても様々なモデルが発表されている。
- Phi-4 Technical Report [72.1]
本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。 多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 03:37:41 GMT) - 小型、高性能モデルPhiの最新バージョン、「phi-4 strategically incorporates synthetic data throughout the training process.」とのことで合成データをうまく活用するアプローチ。Phi3を超え、GPT-4o miniに迫っている優秀なモデル。
- 公式Blogでも発表がある Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub
- EXAONE 3.5: Series of Large Language Models for Real-world Use Cases [35.0]
EXAONE 3.5言語モデルは32B、7.8B、2.4Bの3つの構成で提供されている。 商用利用については、LG AI Researchの公式コンタクトポイントを参照してください。
論文 参考訳(メタデータ) (Mon, 09 Dec 2024 09:31:10 GMT) - LGによる公開モデル、同サイズのQwen2.5と競合する性能
- リポジトリはLGAI-EXAONE (LG AI Research)
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [121.1]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。 このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (Fri, 06 Dec 2024 18:57:08 GMT) - OSSのMLLM、性能は商用モデルと競合的とのこと。「we integrate a newly incrementally pre-trained InternViT with various pre-trained LLMs, including InternLM 2.5 and Qwen 2.5, using a randomly initialized MLP projector.」というアーキテクチャでViTをProjectorでLLMとつなぐアプローチ
- リポジトリはOpenGVLab/InternVL2_5-78B · Hugging Face、GitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
- InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.9]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。 このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 18:58:30 GMT) - リアルタイムストリーミングだけでなくメモリ機能なども備えるフレームワーク
- リポジトリはGitHub – InternLM/InternLM-XComposer: InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
- Owl-1: Omni World Model for Consistent Long Video Generation [75.5]
Omni World ModeL (Owl-1) を提案する。 Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
論文 参考訳(メタデータ) (Thu, 12 Dec 2024 18:59:01 GMT) - 動画生成モデル、リポジトリはGitHub – huang-yh/Owl
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset
- Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset [33.2]
精度とデータ量とのトレードオフを改善する方法を示します。 15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 17:28:50 GMT) - RedStone同様、Common CrawlをうまくRefineする手法の報告。こちらはNDIVIAによるもの。「We propose a method for transforming English Common Crawl into a 6.3T token longhorizon pretraining dataset, consisting of 4.4T globally deduplicated original tokens and 1.9T synthetically generated tokens.」と合成データについて触れられているのも興味深い。
- プロジェクトサイトはNemotron-CC
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.4]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。 まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。 テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 17:11:54 GMT) - 「flawed reasoning path construction, critique generation, and data filtering」の3ステージからなるフレームワークAutoMathCritiqueでデータを構築、fine tuningするとともに、「Motivated by the insights of test-time, we introduce the critique model into the actor model’s exploration and learning process, introducing a critique-in-the-loop self-improvement method」を適用して効果を確認。 critique modelの有効性が分かる結果に見える(が、この構築は容易ではないかもしれない)
- リポジトリはAutoMathCritique
Training and Evaluating Language Models with Template-based Data Generation
- Training and Evaluating Language Models with Template-based Data Generation [6.0]
我々は、700万以上の合成された小学校数学問題からなるデータセットを作成する。 このデータセットは、数学的推論においてLLMを事前学習、微調整、評価するための貴重なリソースとして機能する。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 07:32:56 GMT) - LLMにメタテンプレート作成からまかせての合成データ構築。面白いけど他分野でもワークする可能性はあるのだろうか。
- リポジトリはGitHub – iiis-ai/TemplateMath: Official implementation of “Training and Evaluating Language Models with Template-based Data Generation” (https://templatemath.github.io)
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
- Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.5]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。 複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。 主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (Thu, 24 Oct 2024 12:42:04 GMT) - 商用モデルでは広く利用されていると思われる、合成データを介してモデル性能を強化するフレームワークの提案。「 Our experiments demonstrate the model’s self-improvement capability, meaning that it can generate data of higher quality than its original training set.」という記載も興味深い。
- リポジトリはGitHub – yyDing1/ScaleQuest: We introduce ScaleQuest, a scalable, novel and cost-effective data synthesis method to unleash the reasoning capability of LLMs.