- Holmes: Automated Fact Check with Large Language Models [31.8]
本研究では,Large Language Models (LLMs) を用いて自動偽情報検出を行う。 新たなエビデンス検索手法を特徴とするエンドツーエンドフレームワークであるHolmesを提案する。 提案手法では,(1)LLMを用いた要約を用いてオープンソースから鍵情報を抽出し,(2)エビデンスの品質を評価するための新しいアルゴリズムと指標を提案する。
論文 参考訳(メタデータ) (Tue, 06 May 2025 03:19:51 GMT) - ファクトチェックに関する論文で丁寧な記載とFIndingsがととても参考になる。
- 「Finding 1: LLMs CANNOT accurately verify the truth- fulness of the claim directly.」、「Finding 2: LLMs have shortcomings in searching for claim-relevant public information and their responses may include hallucinated links that weaken result trust- worthiness.」、「Finding 3: Human-written evidence enhances LLMs’ ability to verify multimodal claims and generate coherent justifications.」
- 上記をもとにHolmesを設計、有効性を確認とのこと
投稿者: staka
RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
- RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.8]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。 大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。 強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (Sat, 03 May 2025 06:17:18 GMT) - 大規模なVLMが中心となるロボット操作のためのアーキテクチャ。VLM based real agentsのような印象。
- プロジェクトサイトはRoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
Societal and technological progress as sewing an ever-growing, ever-changing, patchy, and polychrome quilt
- Societal and technological progress as sewing an ever-growing, ever-changing, patchy, and polychrome quilt [44.5]
我々は、道徳的多様性の持続性を見落としているようなシステムが、抵抗を引き起こし、信頼を失わせ、制度を不安定化するのではないかと心配している。 理想的な条件下では、合理的なエージェントは単一の倫理上の会話の限界に収束するという考えである。 我々は、この前提をオプション的かつ疑わしいものとみなし、紛争理論、文化進化、マルチエージェントシステム、制度経済学に基づく代替アプローチとして、適切性枠組みと呼ぶものを提案する。
論文 参考訳(メタデータ) (Thu, 08 May 2025 12:55:07 GMT) - 「This paper traces the underlying problem to an often-unstated Axiom of Rational Convergence: the idea that under ideal conditions, rational agents will converge in the limit of conversation on a single ethics. Treating that premise as both optional and doubtful, we propose what we call the appropriateness framework: an alternative approach grounded in conflict theory, cultural evolution, multi-agent systems, and institu- tional economics.」から始まる論文。
- 1. Contextual grounding、2. Community customization、3. Continual adaptation、4. Polycentric governanceはその通りだと思うし「it’s recognizing the actual pattern of human history, where we’ve demonstrably managed to live together despite fundamental disagreements, not by resolving them」は(実際は良くないことも多々起こっているけど)とても大枠として事実そうかもしれないが、具体的にどうやっていくべきかは頭を抱えるという現実がありそうな。色々と考えさせる論文という印象。
- 「For the latter, we have to shift from seeking agreement to managing conflict and enabling coexistence through shared practices and norms. This doesn’t imply “anything goes”.」とは書かれているが・・・
Anyprefer: An Agentic Framework for Preference Data Synthesis
- Anyprefer: An Agentic Framework for Preference Data Synthesis [62.4]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。 審査員モデルの応答を正確に評価するために、外部ツールが導入される。 合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (Sun, 27 Apr 2025 15:21:59 GMT) - 「To address the challenges of synthesizing high-quality preference data, we propose an automatic framework called Anyprefer, which models the preference data synthesis process as a two-player cooperative Markov game.」というAgenticなデータ合成フレームワークの提案。
Mistral Medium 3, Gemini 2.5 Pro preview, Llama-Nemotron, OpenCodeReasoning
先週注目のニュースはMistralのMistral Medium 3のリリース(Medium is the new large. | Mistral AI)。Claude 3.7 sonnetと競合する性能で「The Mistral Medium 3 API is available starting today on Mistral La Plateforme and Amazon Sagemaker, and soon on IBM WatsonX, NVIDIA NIM, Azure AI Foundry, and Google Cloud Vertex. To deploy and customize the model in your environment, please contact us. 」と各社環境での動作が可能な点が重要に思う。
GoogleのGemini 2.5 Proが使用可能になったよう(Gemini Pro – Google DeepMind)でこちらも注目度が高い。NvidiaのLlama-NemotronやOpenCodeReasoning がダウンロード可能になったことも話題になっていた。
各モデルの(第三者の)性能検証はこれからという感じだろうが、本当にニュースが多い。
- Llama-Nemotron: Efficient Reasoning Models [105.8]
ヘテロジニアス推論モデルの開族であるLlama-Nemotronシリーズを導入する。 サイズはNano(8B)、Super(49B)、Ultra(253B)の3種類。
論文 参考訳(メタデータ) (Fri, 02 May 2025 01:35:35 GMT) - リポジトリはnvidia/Llama-3_1-Nemotron-Ultra-253B-v1 · Hugging Face、nvidia/Llama-Nemotron-Post-Training-Dataset · Datasets at Hugging Face
- OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.2]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。 私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 17:50:31 GMT)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.7]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。 本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。 主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (Wed, 07 May 2025 15:46:36 GMT) - Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder – arXiv最新論文の紹介にも関連するPangu Ultraの主に実装に関する論文。
- 「Our system optimizations focus on Expert Parallelism and memory management, significantly lowering communication and activation overhead across 6K NPUs. These innovations enable a 30.0% MFU, demonstrating Ascend NPUs’ capability to support full-scale training of large-scale sparse LLMs, e g , Pangu Ultra MoE, with comparable performance as DeepSeek R1.」とのことでNVIDIAのGPUに頼らずとも最先端モデルを構築可能と主張しているように見える。
Teaching Models to Understand (but not Generate) High-risk Data
- Teaching Models to Understand (but not Generate) High-risk Data [38.3]
SLUNG(Selective Loss to Understand but not Generate)を紹介する。 SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。 SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
論文 参考訳(メタデータ) (Mon, 05 May 2025 22:24:06 GMT) - 「This work introduces SLUNG, a pre-training paradigm that enables language models to learn from high-risk data without being trained to generate it. By selectively adjusting the training objective at the token level based on risk, SLUNG decouples a model’s ability to understand from its ability to generate, allowing models to condition on high-risk inputs while learning from adjacent low-risk tokens.」という手法の提案。口外することはできないが学ぶ必要があるもの、というのは現実的に多いわけでこのような手法は非常に面白い。
On Path to Multimodal Generalist: General-Level and General-Bench
- On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:32 GMT) - 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
- プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist
下記サーベイも注目
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.5]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。 人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。 大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (Thu, 08 May 2025 03:35:23 GMT) - リポジトリはGitHub – HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models: The development and future prospects of multimodal reasoning models.
Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption
- Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption [52.0]
そこで本研究では,大規模な言語モデルにおいて,チェーン・オブ・ディフェンシブ・思想と呼ばれる単純な手法を用いて,参照破損に対するロバスト性を大幅に向上したことを示す。 特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 13:50:05 GMT) - 「Number the references (if they are not already). 2.Include additional task instructions to firstly identify relevant and reliable contexts. 3. Before responses, insert structured reasoning steps that enunciates the indices of the relevant contexts (Irelevant) and the indices of reliable contexts (Ireliable).」というChain of defensive thoughtの提案
- 「In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations.」とのこと。
A Survey of AI Agent Protocols
- A Survey of AI Agent Protocols [35.4]
大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。 この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。 LLMエージェントの統一通信プロトコルは、これを変更できる。
論文 参考訳(メタデータ) (Wed, 23 Apr 2025 14:07:26 GMT) - 「In this paper, we provide a systematic overview of existing communication protocols for LLM agents.」とAgent間の通信プロトコルのサーベイ。
- 様々なモチベーションで設計も様々。