コンテンツへスキップ
- Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (Mon, 26 May 2025 08:54:14 GMT)
- MLLMに対するPost training、マルチモーダルなLRM化につながる成果
- From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery [43.3]
大規模言語モデル(LLM)は科学的発見のパラダイムシフトを触媒している。 この調査は、この急成長する分野を体系的に分析し、科学におけるLLMの役割の変化とエスカレーション能力に重点を置いている。
論文 参考訳(メタデータ) (Mon, 19 May 2025 15:41:32 GMT)
- LLMを用いた科学的発見やそのサポートに関するサーベイ。「In scientific dis- covery, this convergence of advanced LLM capa- bilities and agentic functionalities is catalyzing a significant paradigm shift. This shift is poised not only to accelerate the research lifecycle but also to fundamentally alter the collaborative dynamics be- tween human researchers and artificial intelligence in the pursuit of knowledge.」と強力なLLMの登場により現実的になりつつある分野。
- リポジトリはGitHub – HKUST-KnowComp/Awesome-LLM-Scientific-Discovery: From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery
- When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [20.0]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。 大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (Sat, 17 May 2025 05:45:16 GMT)
- 別方向から失敗例の分析も面白い。amphora/SPOT-MetaData · Datasets at Hugging Face