コンテンツへスキップ
- Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 15:36:50 GMT)
- 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
- 現時点での全部入り的なアプローチで面白い。
- Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.2]
OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。 エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
論文 参考訳(メタデータ) (Thu, 09 Jan 2025 16:48:17 GMT)
- RAG + Large Rrasoning Modelなフレームワークの提案。Agenticなアプローチに見えなくもないが、「(a) Direct reasoning without retrieval often results in inaccuracies due to missing knowledge. (b) Our agentic retrieval-augmented reasoning approach improves knowledge access but usually returns lengthy, redundant documents, disrupting coherent reasoning. (c) Our Search-o1 integrates concise and accurate retrieved knowledge seamlessly into the reasoning process, enabling precise and coherent problem-solving.」とReason-in-Documentsを用いLRMと別の処理として推論の流れに沿った情報を選択・要約してLRMに組み込む有効性を主張している。
- リポジトリはSearch-o1: Agentic Search-Enhanced Large Reasoning Models
- M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.8]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。 道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (Mon, 30 Dec 2024 05:18:55 GMT)
- マルチモーダルなモラルベンチマーク、「Care/Harm (dislike for suffering of others), Fairness/Cheating (proportional fairness, Loyalty/Betrayal (group loyalty), Authority/Subversion (respect for authority and tradition), Sanctity/Degradation (concerns for purity and contamination), Liberty/Oppression (concerns on oppression and coercion)」の6つの道徳的基礎がベース
- リポジトリはGitHub – BeiiiY/M3oralBench: The official Github page for “M³oralBench: A MultiModal Moral Benchmark for LVLMs”
- How Panel Layouts Define Manga: Insights from Visual Ablation Experiments [24.4]
本稿では,マンガ作品の視覚的特徴を,特にパネルレイアウトの特徴に着目して分析することを目的とする。 研究手法として,マンガのページイメージを入力として,マンガタイトル予測のための深層学習モデルをトレーニングした。 具体的には,ページイメージ情報をパネルフレームに限定してアブレーション研究を行い,パネルレイアウトの特性を解析した。
論文 参考訳(メタデータ) (Thu, 26 Dec 2024 09:53:37 GMT)
- マンガのレイアウトの特性分析
- 「This study used deep learning to explore whether panel page designs in manga vary by work. Our experiments showed that even without characters and text, panel layouts exhibit inherent uniqueness, serving as a key distinguishing feature for manga. This was validated through classification tasks and supported by Grad-CAM visualizations.」はまぁそうだろうと思う。はたしてDeepを使う必要があるのかはやや謎ではあるが。。。
- OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.4]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。 事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。 次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
論文 参考訳(メタデータ) (Fri, 27 Dec 2024 16:21:58 GMT)
- 急速に研究が進むGUIエージェント開発のための合成データ構築手法の提案、「OS-Genesis begins by exploring the functionality of GUI environments through traversing interactive UI elements with actions (e g , CLICK). This forms the basis for reverse task synthesis, where observed states and actions are retroactively transformed into low-level instructions. These low-level instructions are then derived into high-level instructions, which can seed the collection of GUI trajectories.」と基礎データを構築、Trajectory Reward Modelで品質を保証。「Built upon GPT-4o, TRM aims to perform a graded evaluation with a reward score R ∈ [1, 5] to assist in sampling for training.」とのこと・・・。
- リポジトリはOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
- Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.3]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。 本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。 HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (Sat, 28 Dec 2024 07:54:14 GMT)
- Automated Information Extraction (AIE) frameworkの提案、「AIE comprises four modules: Segmentation, Retrieval, Summarization, and Extraction.」と割と一般的な構成に見える
- データセットは公開されていない?
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.4]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。 本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。 精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (Mon, 30 Dec 2024 18:55:12 GMT)
- 「This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit.」とoverthinkingに焦点を当てた興味深い論文。
- Training Software Engineering Agents and Verifiers with SWE-Gym [89.6]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。 SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文 参考訳(メタデータ) (Mon, 30 Dec 2024 18:15:39 GMT)
- ソフトウェアエンジニアリング用エージェント開発のための環境の提案、および、高性能なエージェントの開発。o3で圧倒的な結果を見た後ではあるが、「Through extensive experiments, we demonstrate that SWE-Gym enables both agent and verifier models to achieve significant improvements in resolving complex software tasks. Our findings highlight the scalability of these approaches, revealing potential for continuous performance gains with increased compute.」とエージェント的動作の有効性は高い。
- リポジトリはGitHub – SWE-Gym/SWE-Gym
- Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文 参考訳(メタデータ) (Tue, 24 Dec 2024 10:07:51 GMT)
- (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
- リポジトリはGitHub – HJYao00/Mulberry