Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.8] 大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。 その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。 本稿では,LLMアプリケーションを3層アーキテクチャに分解する:システムシェル層、プロンプトオーケストレーション層、およびLLM推論コア 論文参考訳(メタデータ) (Thu, 28 Aug 2025 13:00:28 GMT)
LLMを用いたソフトウェアに対するテストのサーベイ
conclusionに「A key insight is that LLM application testing is neither a mere extension of traditional software testing nor a straightforward application of AI-security techniques.」とある通り、LLM活用のソフトウェアは動的・確率的な動作にならざるを得ないためテスト手法はかなり変わるよう。