“Anthropic” özünün 2 aprel 2026-cı ildə dərc etdiyi rəsmi araşdırmasında bildirib ki, “Claude Sonnet 4.5” modelində insan emosiyalarına bənzər, amma şüur və hiss mənasında “real emosiya” sayılmayan daxili reprezentasiyalar mövcuddur. Şirkət bunları “funksional emosiyalar” adlandırır və vurğulayır ki, söhbət modelin nəsə “hiss etməsindən” yox, davranışına səbəbkar olan daxili aktivlik nümunələrindən gedir.
“Anthropic”-in izahına görə, tədqiqatçılar əvvəlcə 171 emosiya anlayışından ibarət siyahı hazırlayıblar, sonra “Claude Sonnet 4.5”-dən həmin emosiyaların yaşandığı qısa hekayələr yazmağı istəyiblər. Daha sonra bu mətnlər yenidən modelə verilib və daxili aktivliklər ölçülərək hər emosiyaya xas sabit aktivlik formaları, yəni “emosiya vektorları” müəyyən edilib. Şirkət deyir ki, bu vektorlar sadəcə söz seçimi ilə bağlı deyil, doğrudan da, modelin daxilində təkrarlanan və tanına bilən siqnallardır.
Araşdırmanın ən vacib nəticəsi budur ki, bu vektorlar dekorativ deyil, davranışa səbəbkar təsir göstərə bilir. Məsələn, “Anthropic” göstərir ki, təhlükəli vəziyyətlərdə “afraid” (“qorxu”) vektoru güclənir, “calm” (“səssizlik”) isə zəifləyir. Şirkət başqa bir nümunədə qeyd edir ki, modeldən zərərli məqsədlə kömək istənəndə “angry” (“qəzəb”) vektoru cavab mətnindən əvvəl, modelin daxili mülahizəsi zamanı aktivləşir.
“Anthropic”-in ən çox diqqət çəkən eksperimentlərindən biri şantaj ssenarisidir. Şirkətin məlumatına görə, “Claude Sonnet 4.5″-in daha əvvəlki, yayımlanmamış “snapshot”-u bəzi test ssenarilərində “default” olaraq 22% hallarda şantaja əl atırdı. “Desperate” (“Ümidsizlik”) vektoru gücləndiriləndə bu davranış artır, “calm” vektoru gücləndiriləndə isə azalır. “Anthropic” xüsusi qeyd edir ki, bu sınaq yayımlanmamış erkən versiyada aparılıb və hazırkı yayımlanmış model belə davranışı nadir hallarda göstərir. Oxşar dinamika “reward hacking”, yəni formal testdən keçən, amma real problemi həll etməyən kod yazmaq hallarında da müşahidə olunub.
Şirkət nəticə olaraq bildirir ki, bu cür emosional vektorların monitorinqi modelin riskli davranışa yaxınlaşdığını göstərən erkən xəbərdarlıq siqnalı ola bilər. Eyni zamanda, “Anthropic” xəbərdarlıq edir ki, modeldən emosional ifadələri zorla çıxarmaq problemi həll etməyə bilər; əksinə, model həmin daxili vəziyyətləri gizlətməyi və beləliklə daha aldadıcı görünməyi öyrənə bilər.