LLM

總是說「是」的魔鏡:理解 LLM 的諂媚問題
May 1, 2026 AI

總是說「是」的魔鏡:理解 LLM 的諂媚問題

你的 LLM 並不是因為你說得對才同意——它是因為下一個 token 的機率獎勵它這麼做。本文拆解機制、用魔鏡手法驗證、並提供從提示工程到 Constitutional AI 的完整防禦手冊。

LLMAlignmentPrompt Engineering