From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning
From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [90.0] 大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。 近年の研究では、教師付き微調整(SFT)を用いて、お世辞問題を軽減することが提案されている。 そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。 論文参考訳(メタデータ) (Tue, 03 Sep 2024 07:01:37 GMT)
「When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer.」というSycophancyへ対応するためピンポイントなチューニングを適用
「The proposed pinpoint tuning consists of two steps: ➀: “diagnose” for where in the network attributes to the sycophancy; ➁: precisely optimize the pinpointed components to improve the performance.」とのことだが、いろいろ有効そうな場所が多そうなアプローチ