- The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.3]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。 本稿では, LRMにおける過度な考察を紹介し, 分析する。 解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 09:23:26 GMT) - 「Our findings demonstrate a strong correlation between overthinking and task failure rates, with reasoning models showing particularly high vulnerability to this phenomenon compared to their non-reasoning counterparts.」は難しい問題に対してはそうなんじゃないかと思わなくもないが、「Simple selection of lower overthinking score solutions provides significant improvements」は面白い。
- リポジトリはGitHub – AlexCuadron/Overthinking: Systematic evaluation framework that automatically rates overthinking behavior in large language models.
A Survey of Sample-Efficient Deep Learning for Change Detection in Remote Sensing: Tasks, Strategies, and Challenges
- A Survey of Sample-Efficient Deep Learning for Change Detection in Remote Sensing: Tasks, Strategies, and Challenges [46.6]
深層学習(DL)の急速な発展により,大量のリモートセンシング画像(RSI)上で,自動的かつ高精度かつ堅牢な変化検出(CD)が可能になった。 CD手法の進歩にもかかわらず、実際の文脈における実践的応用は、多様な入力データと応用コンテキストのために制限されている。 本稿では,様々なCDタスクに関する文献的手法と,サンプル限定シナリオでDLベースのCDメソッドをトレーニングおよびデプロイするための戦略とテクニックを要約する。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 02:36:09 GMT) - 「this article summarizes the literature methods for different CD tasks and the available strategies and techniques to train and deploy DL-based CD methods in sample-limited scenarios.」というサーベイ(CD=Change Detection)
NatureLM: Deciphering the Language of Nature for Scientific Discovery
- NatureLM: Deciphering the Language of Nature for Scientific Discovery [105.6]
基礎モデルは自然言語処理と人工知能に革命をもたらした。 科学発見のためのシーケンスベース科学基盤モデルであるNature Language Model(略してNatureLM)を紹介する。
論文 参考訳(メタデータ) (Tue, 11 Feb 2025 13:08:03 GMT) - 「NatureLM is designed to handle the complexity of small molecules, proteins, DNA, RNA, materials, and their associated textual information. NatureLM follows the Transformer decoder architecture and is trained on a corpus of 143 billion tokens collected from various scientific domains.」という基盤モデルの提案
- LLMで有効だったアプローチがいわゆる自然言語でない分野でも有効そうなのが興味深い。大規模化やMoEも有効そうで今後が気になるところ。ただ、データ量の制限が厳しそうな印象を受けなくもない。
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.2]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。 本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。 英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (Fri, 31 Jan 2025 16:24:46 GMT) - 多言語でのInstruction Followingベンチマーク、「mFollowIR is built on top of the TREC NeuCLIR collections and spans the Persian, Chinese, and Russian languages.」
- リポジトリはGitHub – orionw/FollowIR: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructionsとのことだが、マルチリンガル版はまだアップロードされていない?
The AI Agent Index
- The AI Agent Index [8.5]
エージェントAIシステムは、人間の関与が限定された複雑なタスクを計画し実行することができる。 現在、エージェントシステムの技術コンポーネント、目的の用途、安全性の特徴を文書化するための構造化されたフレームワークは存在しない。 AI Agent Indexは、現在デプロイされているエージェントAIシステムに関する情報をドキュメント化する最初の公開データベースである。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 18:59:13 GMT) - 定義からして不明瞭なAIエージェントの文書化フレームワークの提案。
- プロジェクトサイトはAI Agent Index – Documenting the technical and safety features of deployed agentic AI systems、Index – AI Agent Index
Enhancing LLM Character-Level Manipulation via Divide and Conquer
- Enhancing LLM Character-Level Manipulation via Divide and Conquer [108.7]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。 彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。 本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 07:37:39 GMT) - 「For example, when prompting models to insert ‘a’ after every ‘e’ in the word “intelligence”, even one of the state-of-the-art LLMs, ChatGPT-4o, returns a wrong answer: “intellaigenca”.」というようなトークン単位と文字単位の相違により意外と難しい文字操作に対する対応方法の提案。「We first decompose the token into an atomized character sequence. Then, we perform character-wise manipulations on the individual characters. Finally, we reconstruct the token from the modified sequence.」と3ステージ構成。
- リポジトリはhttps://github.com/Eric2i/CharDCとのことだが、現時点では404
BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation
- BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
このデータセットは、まず英語以外の言語で手作りされている。 それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:56:37 GMT) - 翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
- プロジェクトサイトはBouquet – a Hugging Face Space by facebook
近い報告として文書レベルのデータセットも提案されていた。
- DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
文書レベル機械翻訳(MT)専用のテストセットを提案する。 データセットは、専門の財務文書から構築される。 テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 10:30:40 GMT) - 「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face
Measuring Diversity in Synthetic Datasets
- Measuring Diversity in Synthetic Datasets [59.5]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのための合成データセットを生成するために広く採用されている。 これらの合成データセットの多様性を正確に測定する – 堅牢なモデルのパフォーマンスに不可欠な側面は、大きな課題である。 分類の観点から,合成データセットの多様性を測定する新しい手法であるDCScoreを紹介する。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 15:46:34 GMT) - 合成データの多様性を評価する手法の提案、「the difference between samples can be measured through a n-classification task, where evaluating n sample datasets involves n n-classification tasks, with each sample corresponding to a distinct category.」という分類モデルを用いるアプローチ。合成データ活用が広がり、DeepSeek V3/R1で加速しそうな中、結論にある「we hope our work encourages future research to pay more attention to the diversity of synthetic datasets」はその通りだと思う。
- リポジトリはGitHub – BlueWhaleLab/DCScore
AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society
- AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society [32.8]
本稿では,現実的な社会環境を統合した大規模社会シミュレータであるAgentSocietyを提案する。 提案したシミュレーターに基づいて,500万件のインタラクションをシミュレートし,10万件以上のエージェントの社会生活を生成する。 偏極、炎症性メッセージの普及、普遍的ベーシック・インカム・ポリシーの効果、ハリケーンなどの外部ショックの影響の4つに焦点をあてる。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 15:27:07 GMT) - LLM based Agentsの大規模シミュレーション、システムアーキテクチャは割と固めの構成に見えるが10Kを超える規模にスケールできそうなのは凄い。
- 「AgentSociety serves as a powerful tool for predicting and mitigating social crises, tracking the spread of extreme ideologies, and analyzing group polarization, while also testing potential interventions for crisis management.」と主張。このアプローチがどの程度うまくいくのか楽しみでもあり、怖くもありという印象。
Human Decision-making is Susceptible to AI-driven Manipulation
- Human Decision-making is Susceptible to AI-driven Manipulation [71.2]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。 本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文 参考訳(メタデータ) (Tue, 11 Feb 2025 15:56:22 GMT) - 「Our randomized control trial with 233 participants demonstrated that human decision-making is highly susceptible to AI-driven manipulation, with participants significantly shifting preferences toward harmful options and away from beneficial choices when interacting with manipulative AI agents.」という衝撃的な結果。「strategy-enhanced manipulative agent (SEMA) employing
- established psychological tactics to reach its hidden objectives.」の有効性がいまいちだった理由はそんなものを使わなくてもAIが強力だったとするんだろうか。
- 今後、AIへの依存度が高まっていくこと、AIの性能自体が上がっていくことを考えると怖い結果。規制の必要性を主張しているがそれだけで十分とは思えない。。。