注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

Generative AI and Creative Work: Narratives, Values, and Impacts 

  • Generative AI and Creative Work: Narratives, Values, and Impacts [37.2]
    私たちは、オンラインメディアをレビューし、彼らが伝達するクリエイティブな仕事に対するAIの影響に関する支配的な物語を分析します。 この談話は、人的労働を通じて物質的実現から解放された創造性を促進する。 この言説は、支配的なテクノ実証主義のビジョンに対応し、創造的経済と文化に対する権力を主張する傾向にある。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 10:26:56 GMT)
  • 「In this article, we review online media outlets and analyze the dominant narratives around AI’s impact on creative work that they convey.」
  • 参入障壁の低下が良いことなのか、アイデアと実行でアイデアの重要性(比率)が上がるのは好ましいのか、などは人によって考え方が異なるとはいえ、テクノロジーの普及は止められない。。それはそれとして「For example, we believe that five years ago, narratives of generative AI in art emphasized the replacement of artists by technology, whereas current narratives focus more on augmentation and collaboration.」は本当なんだろうか・・・という疑問も。

SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

  • SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.9]
    SelfCiteは自己教師型のアプローチで、LLMを調整して、生成された応答における文に対する高品質できめ細かい文レベルの引用を生成する。 コストと労働集約的なアノテーションに頼る代わりに、SelfCiteはLLM自体が提供する報酬シグナルをコンテキストアブレーションを通じて活用する。 SelfCiteの有効性は、5つの長文質問応答タスクにわたるLongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 18:55:13 GMT)
  • 「First, the full context is used to generate a response. Then, the framework evaluates the probability of generating the same response after (1) removing the cited sentences from the context and (2) using only the cited sentences in the context. The probability drop and hold are computed from these probability differences, and their sum is used as the final reward.」というアプローチのreward計算、preference optimization with SimPOが良い結果だったとの報告。

Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks 

  • Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.8]
    最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。 本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。 我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 17:19:36 GMT)
  • LLM based Agentsに対する攻撃手法の提案、「In this paper, we argue that LLM-powered agents, especially those that have the ability to communicate with the outside world via web access or external-facing databases, already pose a massive danger to their users which has largely been overlooked by the ML security and privacy community.」とのこと。Agentに対するPhisingが意外とできそうなことに若干驚き。Redditが信頼できるかというと見解は様々だと思うが、現状のAgentへの攻撃有効性が高いというのが意外だった。論文中にもある通り、自動化が進むゆえに開発側の対応体制は重要に思う。

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

  • The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.3]
    大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。 本稿では, LRMにおける過度な考察を紹介し, 分析する。 解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 09:23:26 GMT)
  • 「Our findings demonstrate a strong correlation between overthinking and task failure rates, with reasoning models showing particularly high vulnerability to this phenomenon compared to their non-reasoning counterparts.」は難しい問題に対してはそうなんじゃないかと思わなくもないが、「Simple selection of lower overthinking score solutions provides significant improvements」は面白い。
  • リポジトリはGitHub – AlexCuadron/Overthinking: Systematic evaluation framework that automatically rates overthinking behavior in large language models.

A Survey of Sample-Efficient Deep Learning for Change Detection in Remote Sensing: Tasks, Strategies, and Challenges

  • A Survey of Sample-Efficient Deep Learning for Change Detection in Remote Sensing: Tasks, Strategies, and Challenges [46.6]
    深層学習(DL)の急速な発展により,大量のリモートセンシング画像(RSI)上で,自動的かつ高精度かつ堅牢な変化検出(CD)が可能になった。 CD手法の進歩にもかかわらず、実際の文脈における実践的応用は、多様な入力データと応用コンテキストのために制限されている。 本稿では,様々なCDタスクに関する文献的手法と,サンプル限定シナリオでDLベースのCDメソッドをトレーニングおよびデプロイするための戦略とテクニックを要約する。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 02:36:09 GMT)
  • 「this article summarizes the literature methods for different CD tasks and the available strategies and techniques to train and deploy DL-based CD methods in sample-limited scenarios.」というサーベイ(CD=Change Detection)

NatureLM: Deciphering the Language of Nature for Scientific Discovery 

  • NatureLM: Deciphering the Language of Nature for Scientific Discovery [105.6]
    基礎モデルは自然言語処理と人工知能に革命をもたらした。 科学発見のためのシーケンスベース科学基盤モデルであるNature Language Model(略してNatureLM)を紹介する。
    論文  参考訳(メタデータ)   (Tue, 11 Feb 2025 13:08:03 GMT)
  • 「NatureLM is designed to handle the complexity of small molecules, proteins, DNA, RNA, materials, and their associated textual information. NatureLM follows the Transformer decoder architecture and is trained on a corpus of 143 billion tokens collected from various scientific domains.」という基盤モデルの提案
  • LLMで有効だったアプローチがいわゆる自然言語でない分野でも有効そうなのが興味深い。大規模化やMoEも有効そうで今後が気になるところ。ただ、データ量の制限が厳しそうな印象を受けなくもない。

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval 

  • mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.2]
    本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。 本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。 英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
    論文  参考訳(メタデータ)   (Fri, 31 Jan 2025 16:24:46 GMT)
  • 多言語でのInstruction Followingベンチマーク、「mFollowIR is built on top of the TREC NeuCLIR collections and spans the Persian, Chinese, and Russian languages.」
  • リポジトリはGitHub – orionw/FollowIR: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructionsとのことだが、マルチリンガル版はまだアップロードされていない?

The AI Agent Index

  • The AI Agent Index [8.5]
    エージェントAIシステムは、人間の関与が限定された複雑なタスクを計画し実行することができる。 現在、エージェントシステムの技術コンポーネント、目的の用途、安全性の特徴を文書化するための構造化されたフレームワークは存在しない。 AI Agent Indexは、現在デプロイされているエージェントAIシステムに関する情報をドキュメント化する最初の公開データベースである。
    論文  参考訳(メタデータ)   (Mon, 03 Feb 2025 18:59:13 GMT)
  • 定義からして不明瞭なAIエージェントの文書化フレームワークの提案。
  • プロジェクトサイトはAI Agent Index – Documenting the technical and safety features of deployed agentic AI systemsIndex – AI Agent Index

Enhancing LLM Character-Level Manipulation via Divide and Conquer

  • Enhancing LLM Character-Level Manipulation via Divide and Conquer [108.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。 彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。 本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 07:37:39 GMT)
  • 「For example, when prompting models to insert ‘a’ after every ‘e’ in the word “intelligence”, even one of the state-of-the-art LLMs, ChatGPT-4o, returns a wrong answer: “intellaigenca”.」というようなトークン単位と文字単位の相違により意外と難しい文字操作に対する対応方法の提案。「We first decompose the token into an atomized character sequence. Then, we perform character-wise manipulations on the individual characters. Finally, we reconstruct the token from the modified sequence.」と3ステージ構成。
  • リポジトリはhttps://github.com/Eric2i/CharDCとのことだが、現時点では404

BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

  • BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
    このデータセットは、まず英語以外の言語で手作りされている。 それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 18:56:37 GMT)
  • 翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
  • プロジェクトサイトはBouquet – a Hugging Face Space by facebook

近い報告として文書レベルのデータセットも提案されていた。

  • DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
    文書レベル機械翻訳(MT)専用のテストセットを提案する。 データセットは、専門の財務文書から構築される。 テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 10:30:40 GMT)
  • 「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face