Alignment - Decoding Digital Anomalies

May 1, 2026 AI

总是说「是」的魔镜：理解 LLM 的谄媚问题

你的 LLM 并不是因为你说得对才同意——它是因为下一个 token 的概率奖励它这么做。本文拆解机制、用魔镜手法验证、并提供从提示工程到 Constitutional AI 的完整防御手册。

LLMAlignmentPrompt Engineering