Ніколи не згадуй…
Ніколи не згадуй гоблінів, гремлінів, єнотів, тролів, огрів, голубів чи інших істот, якщо це не є прямо й однозначно доречним до запиту користувача.
Це фрази з системного промпту для Codex.
Як виявилось, це не просто так у промпті говорять про істот. Це превентивні методи подавити Nerdy особистість моделі.
Пам’ятаєте, коли у ChatGPT додали стилі та особисті. А вже після запуску GPT-5.1 слово goblin у відповідях зросло на 175%, а gremlin на 52%.
Як виявилось, причиною цієї аномалії став стиль Nerdy, який використовувався лише у 2.5% усіх відповідей ChatGPT, але на нього припадало 66% усіх згадок goblin.
Потім ця аномалія почала поширюватися далі в наступних етапах навчання. І модель GPT 5.5 теж отримала гоблінські гени.
А тепер уявіть, як лише словами можна впливати на те, як буде себе вести модель.

