- Prompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findings [39.4]
この研究プログラムは、ソフトウェア工学における現在の急進的な実践、課題、および影響要因を特徴づける。 我々は6カ国から74人のソフトウェア専門家を対象に,現在の迅速な実践と課題について調査を行った。 プロンプトは、試行錯誤によって洗練され、滅多に再利用されず、標準化されたプラクティスよりも個々の実践者が形作ることが多い。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 09:08:29 GMT) - ソフトウェア工学の観点から見たプロンプトの整理、「The findings reveal that prompt usage in SE is largely ad-hoc: prompts are often refined through trial-and-error, rarely reused, and shaped more by individual heuristics than standardized practices.」は直観とも整合的。だが問題は大有り。
- データ等はPrompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findingsに存在。
CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset
- CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.1]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 16:45:22 GMT) - リポジトリはbyan/cs-fleurs · Datasets at Hugging Face
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.8]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。 このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。 i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 17:52:06 GMT) - 「By mapping natural language, DNA/RNA/protein sequences, molecular strings, and materials representations into a shared backbone via task-aware tokenization and consistent input–output schemas, the model moves beyond narrow, discipline-specific solutions and limited task menus.」、と自然言語なLLMと科学的記述を統合する取り組み。「The model is pretrained on a 206B-token corpus spanning scientific text, pure sequences, and sequence–text pairs, then aligned via SFT on 40M instructions, annealed cold-start bootstrapping to elicit long-form chain-of-thought, and reinforcement learning with task-specific reward shaping, which instills deliberate scientific reasoning.」と正面突破なアプローチ。
- リポジトリはGitHub – open-sciencelab/SciReason、SciReason (SciReason)
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
- MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents [15.0]
本稿ではGUIショートカットハイブリッドエージェントの評価の先駆けとなるベンチマークであるMAS-Benchを紹介する。 11の現実世界アプリケーションに139の複雑なタスク、88のショートカットの知識ベース、RPAスクリプト、そして7つの評価メトリクスがある。 実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 09:43:48 GMT) - GUI操作をショートカットする(画面を操作せずにAPIコールするなど)ことも含めたベンチマークの提案。
- プロジェクトサイトはMAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
Achilles’ Heel of Mamba: Essential difficulties of the Mamba architecture demonstrated by synthetic data
- Achilles’ Heel of Mamba: Essential difficulties of the Mamba architecture demonstrated by synthetic data [52.1]
ステートスペースモデル(SSM)は、アテンションメカニズムに代わる有望な代替手段として登場した。 本研究では,マンバ固有の制約を明らかにするために,慎重に設計された合成タスクを用いる。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 08:38:55 GMT) - 「We find that Mamba struggles to match sequences under order changes–—for example, “1234 “vs. “4321 “. To test this limitation, we designed a inverse sequence matching task, where the model must match a sequence with its reversed counterpart.」、「Experimental results confirm that Mamba has difficulty completing this task, whereas Transformer handles it with ease. 」とのことでMambaが苦手とするタスクの指摘。とても興味深い。
Causal Understanding by LLMs: The Role of Uncertainty
- Causal Understanding by LLMs: The Role of Uncertainty [43.9]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。 因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 13:06:35 GMT) - LLMを因果関係を整理可能かの検証、「 uncertainty in causal tasks stems primarily from deficits in causal under- standing rather than limitations in memorization.」、「Addressing these limitations will require a shift beyond current pretraining paradigms—toward models that explicitly encode and reason over causal structures, and that are capable of expressing calibrated uncertainty when faced with ambiguity or unseen conditions.」と厳しい指摘。
- テストしているものがフロンティアなモデルなのかは気になるところではある。(もっとも商用モデルだとデータ、pre trainもpost trainもよくわからないという問題はあるのだが。。。)
Fluid Language Model Benchmarking
- Fluid Language Model Benchmarking [126.9]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。 サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。 効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (Sun, 14 Sep 2025 05:49:42 GMT) - 「we introduce FLUID BENCHMARKING, a new evaluation approach that advances LM benchmarking across multiple dimensions. Inspired by psychometrics, FLUID BENCHMARKING is based on the insight that the relative value of benchmark items depends on an LM’s capability level, suggesting that evaluation should adapt to each LM. Methodologically, FLUID BENCH- MARKING estimates an item response model based on existing LM evaluation results and uses the inferred quantities to select evaluation items dynamically, similar to computerized adaptive testing in education.」との評価方法の提案。
- リポジトリはGitHub – allenai/fluid-benchmarking: Fluid Language Model Benchmarking
LIMI: Less is More for Agency
- LIMI: Less is More for Agency [49.6]
LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。 高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。 マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 10:59:32 GMT) - 「These findings establish the Agency Efficiency Principle: machine autonomy emerges not from data abundance but from strategic curation of high-quality agentic demonstrations. This discovery fundamentally reshapes how we develop autonomous AI systems, suggesting that mastering agency requires understanding its essence, not scaling training data.」という主張。「we refer to models fine-tuned with our curated dataset as LIMI (corresponding to fine-tuning GLM-4.5) and LIMI-Air (corresponding to fine-tuning GLM-4.5-Air).」とSFTのようなだが、パラメータの大きなGLM-4.5ベースの方が改善幅も大きく見える。
- リポジトリはGitHub – GAIR-NLP/LIMI: LIMI: Less is More for Agency
Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing
公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 14:39:17 GMT) - 3Dにフォーカスした実装
- リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- Qwen3-Omni Technical Report [105.1]
Qwen3-Omniは、テキスト、画像、オーディオ、ビデオ間で最先端のパフォーマンスを維持する単一のマルチモーダルモデルである。 Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。 119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 13:26:24 GMT) - Qwen系のマルチモーダルモデル
- リポジトリはGitHub – QwenLM/Qwen3-Omni: Qwen3-omni is a natively end-to-end, omni-modal LLM developed by the Qwen team at Alibaba Cloud, capable of understanding text, audio, images, and video, as well as generating speech in real time.
- LongCat-Flash-Thinking Technical Report [116.8]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 23 Sep 2025 10:25:48 GMT) - MoEなLRM、OSSなモデルでのSoTAを主張
- リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
- EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 17:56:51 GMT) - 小規模、強力なEmbeddingモデル
- リポジトリはEmbeddingGemma – a google Collection
- Logics-Parsing Technical Report [9.0]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 04:54:37 GMT) - Document Understandingに有効なLVLM
- リポジトリはGitHub – alibaba/Logics-Parsing
Video models are zero-shot learners and reasoners
- Video models are zero-shot learners and reasoners [33.7]
Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。 Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 17:17:27 GMT) - 「We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. 」、「Veo 3 shows emergent zero-shot perceptual abilities well beyond the training task. Just like LLMs replaced task-specific NLP models, video models will likely replace most bespoke models in computer vision—once they become sufficiently cheap and reliable.」という指摘。とても未来を感じると同時に直観的のは理解しがたい面もある。
- リポジトリはVideo models are zero-shot learners and reasoners