コンテンツへスキップ
- NLP for Social Good: A Survey of Challenges, Opportunities, and Responsible Deployment [90.1]
自然言語処理の分野は、より意図と責任を持ったデプロイメントへのアプローチの必要性が高まっている、と私たちは考えています。 本稿では,NLPが社会的課題に対処する上で果たす役割について考察する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 13:14:44 GMT)
- 「We draw on insights from the United Nations Sustainable De- velopment Goals1 (UN SDGs) and the 2025 Global Economic Risks Report2 (GR) to provide a foun- dation for an interdisciplinary recontextualization of NLP, encouraging reflection on how language technologies intersect with today’s most pressing challenges.」
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.8]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。 本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (Mon, 02 Jun 2025 22:36:02 GMT)
- LAM SIMULATOR, a comprehensive frame- work designed for online exploration of agentic tasks with high-quality feedback
- SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model [21.8]
SridBenchは、科学フィギュア生成のための最初のベンチマークである。 これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。 その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
論文 参考訳(メタデータ) (Wed, 28 May 2025 08:51:01 GMT)
- 科学的な図の生成に関するベンチマーク作成とその検証。データは公開されていない?
- 「We found that, with the exception of GPT-4o-image, other image generation models, such as Gemini- 2.0-Flash, do not have any scientific mapping capabilities.」とのこと。。
- Pitfalls in Evaluating Language Model Forecasters [45.4]
我々はコミュニティとして、大きな言語モデルを評価するような結論に注意する必要があると論じている。 1) 時間的リークによる評価結果の信頼の難しさ,(2) 評価性能から実世界の予測への外挿の難しさ,の2つのカテゴリを識別する。
論文 参考訳(メタデータ) (Sat, 31 May 2025 21:49:17 GMT)
- LLMの評価に関する落とし穴をまとめた論文
- 「We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims.」というまとめだが、評価は本当に難しい。
- Self-Challenging Language Model Agents [98.6]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。 このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (Mon, 02 Jun 2025 14:23:33 GMT)
- 「we present the Self-Challenging Agent (SCA) method for self-improvement of general multi-turn tool-use LLM agents. SCA can create its own tasks to challenge itself and learn from them. To do this, it utilizes the Code-as-Task (CaT) formulation which ensures high quality synthetic tasks. Through RL on these self-generated synthetic tasks, SCA can be used to train a Llama-3.1-8B model to achieve an average relative success rate improvement of 95.8% on existing test tasks across four different multi-turn tool-use environments.」とのこと。。。AGIに近づいている感のある未来を感じる報告。(「While SCA serves as a preliminary step, there remains many research questions for building an effective self-improvement flywheel for general LLM agents.」とあるとおり、実態上はまだいろいろ壁はあるのだろうが)
- コード生成を効果的に使っているのも興味深いが、形式言語で表されるようなタスクは解ける段階というのは意外と早く来るのだろうか。。。
- OpenThoughts: Data Recipes for Reasoning Models [215.2]
OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
論文 参考訳(メタデータ) (Wed, 04 Jun 2025 17:25:39 GMT)
- LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
- プロジェクトサイトはOpen Thoughts