- Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。 この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。 正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (Tue, 12 Dec 2023 06:10:42 GMT) - 分からないときは分からない(質問に答えない)ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
- リポジトリはGitHub – GAIR-NLP/alignment-for-honesty