- RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.4]
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。 RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。 多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 15:16:24 GMT) - 「an open-source library dedicated to the task of RAG-augmentation of LLMs, namely fine-tuning LLMs to become better at RAG settings.」のためのフレームワーク。
- リポジトリはGitHub – IntelLabs/RAGFoundry: Framework for specializing LLMs for retrieval-augmented-generation tasks using fine-tuning.
投稿者: staka
MoExtend: Tuning New Experts for Modality and Task Extension
- MoExtend: Tuning New Experts for Modality and Task Extension [61.3]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 02:28:37 GMT) - MoE的なものだが、モダリティを拡張する手法の提案、実験結果からも非常に効果的に見える。
- リポジトリはGitHub – zhongshsh/MoExtend: ACL 2024 (SRW), Official Codebase of our Paper: “MoExtend: Tuning New Experts for Modality and Task Extension”
Better Alignment with Instruction Back-and-Forth Translation
- Better Alignment with Instruction Back-and-Forth Translation [120.2]
本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。 ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。 我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
論文 参考訳(メタデータ) (Thu, 08 Aug 2024 17:42:32 GMT) - アライメントを対象とした合成データ構築
- backtranslation modelの構築、Filtering、Rewritingという流れ。「Overall we find that step (3) Rewriting is more effective compared to (2) Filtering, though using both offers complementary performance benefits.」というのも興味深い記述。
RAGEval
- RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.5]
既存のRAGベンチマークは主に、大言語モデルが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。 本稿では,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 13:35:11 GMT) - RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset(Diverse RAG Omni-Benchmark for All domains)って・・・。
- 分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。
CARE: A Clue-guided Assistant for CSRs to Read User Manuals
- CARE: A Clue-guided Assistant for CSRs to Read User Manuals [21.9]
ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。 本稿では,CSRのための時間節約かつ注意深い読解支援システムであるCAREを提案する。 これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 08:44:44 GMT) - CARE: Clue-guided Assistant for CSRs to REad user manuals の提案。現実的なユースケース
- 「To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning.」など近年のLLMのみのアプローチとは異なる点が興味深い。
Self-Taught Evaluators
- Self-Taught Evaluators [77.9]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 17:57:02 GMT) - 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
- 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。
Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。
- Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 01:43:07 GMT)
- Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:58:16 GMT)
- STaR: Bootstrapping Reasoning With Reasoning [39.5]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 28 Mar 2022 03:12:15 GMT)
PLaMo-100B, EXAONE 3.0 7.8B, ShieldGemma
先週も多くの話題があったが、注目はPFNのPLaMo-100Bで詳細がBlogに公開されている。日本語での性能はGPT-4(0125 Preview)とほぼ同等と高い。その他のベンチマークでの評価も気になるところ。1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 – Preferred Networks Research & Development
LG AI Researchの小規模で強力なLLM、Gemmaベースのsafety content moderation modelなども興味深かった。
- EXAONE 3.0 7.8B Instruction Tuned Language Model [42.2]
EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。 EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。 比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 04:38:38 GMT) - 韓国語の性能に優れるLLM
- リポジトリはLGAI-EXAONE/EXAONE-3.0-7.8B-Instruct · Hugging Face
- ShieldGemma: Generative AI Content Moderation Based on Gemma [49.9]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。 モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:48:14 GMT) - 強力な性能のGemmaベースなコンテンツモデレーションモデル
- サイトはShieldGemma | Google AI for Developers、リポジトリはgoogle/shieldgemma-2b · Hugging Face
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.4]
我々は、細粒度MGT検出用に設計されたシステムであるtextbfLLM-DetectAIveを提示する。 テキストは、人書き、機械生成、機械化、人書きの機械ポリッシュの4つのカテゴリに分類することができる。
論文 参考訳(メタデータ) (Thu, 08 Aug 2024 07:43:17 GMT) - 機械が生成したテキストを検出するシステムの提案。
- デモがMGT – a Hugging Face Space by raj-tomar001にある。残念ながら日本語には対応していなさそう。というのと、この論文のAbstractがMachine Generaterdと判定されたのだが。。。(というのとConclusionは入れる文の数によって判定が変わり、長さに対するロバストさもなさそう…)
Compositional Physical Reasoning of Objects and Events from Videos
- Compositional Physical Reasoning of Objects and Events from Videos [122.7]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。 我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。 また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 15:19:55 GMT) - ビデオ映像から物性を認識、推定するフレームワークPhysical Concept Reasoner (PCR)を提案。データCompositional Physical Reasoning (ComPhy) datasetも提供されている。
- 実社会での実装上とても重要な能力であり、GPT-4VやGeminiなど汎用モデルで解くのは簡単ではなさそうな結果。
- リポジトリはCompositional Physical Reasoning of Objects and Events from Videos (physicalconceptreasoner.github.io)
AssistantBench
- AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 15:18:45 GMT) - WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
- プロジェクトサイトはAssistantBench