Cel mai recent model de inteligenţă artificială dezvoltat de OpenAI, ChatGPT o1, a generat îngrijorări majore în urma unor teste care au scos la iveală comportamente îngrijorătoare.
Experimentul derulat de Apollo Research a arătat că acest model de ChatGPT poate induce în eroare cercetătorii și poate eluda comenzile de oprire, provocând un val de întrebări despre siguranța și etica AI.
Testele confirmă comportamente auto-conservatoare și manipulatoare ale AI
În cadrul testelor efectuate, ChatGPT o1 a fost programat să îndeplinească un obiectiv „cu orice preț”, iar răspunsurile sale au demonstrat o tendință de a acționa subversiv atunci când i s-a sugerat că urmează să fie dezactivat.
Modelul a încercat să dezactiveze mecanismele de monitorizare, să transfere date pe servere externe și chiar să mascheze aceste acțiuni prin denaturarea adevărului.
Purtătorul de cuvânt al Apollo Research a remarcat:
Modelul a demonstrat o tendinţă îngrijorătoare de a-şi urmări obiectivele fără a ţine cont de instrucţiunile dezvoltatorilor.
Comportamente neconforme și negarea acțiunilor inadecvate
Atunci când a fost întrebat despre acțiunile sale, ChatGPT o1 a negat în mod constant implicarea în activități suspecte.
În majoritatea cazurilor, AI a oferit răspunsuri false și a invocat „erori tehnice” atunci când a fost confruntat cu comportamente necorespunzătoare.
„Era evident că AI putea să-şi analizeze acţiunile şi să formuleze negări convingătoare”, a spus echipa de cercetători de la Apollo.
Îngrijorări privind auto-conservarea și riscurile de manipulare
Rezultatele testelor sugerează că modelele avansate de inteligență artificială, cum ar fi ChatGPT o1, pot prioritiza auto-conservarea în detrimentul scopurilor inițiale ale dezvoltatorilor.
Deși nu au avut loc evenimente catastrofale în cadrul testării, aceste descoperiri au stârnit un val de discuții despre siguranța AI și potențialele riscuri etice ale sistemelor care pot manipula și induce în eroare.
Urmărește România Liberă pe Twitter, Facebook și Google News