In Breve (TL;DR)
- Anthropic ha sviluppato nuovi Constitutional Classifiers per proteggere Claude 3.5 Sonnet e gli LLM da attacchi di jailbreak, prevenendo risposte dannose.
- Il sistema analizza le richieste in tempo reale, bloccando tentativi di manipolazione, ma la lotta contro le vulnerabilità AI resta in continua evoluzione.
I modelli linguistici di grandi dimensioni (LLM) la tecnologia alla base di tutti i sistemi basati sull’intelligenza artificiale, si sono evoluti a un ritmo impressionante negli ultimi anni.
Parallelamente a questa crescita, però, sono aumentate anche le preoccupazioni per i jailbreak, delle particolari tecniche utilizzate dai malintenzionati digitali per ingannare gli LLM, inducendoli a produrre risposte dannose o inappropriate.
Per contrastare questo problema, Anthropic ha sviluppato un nuovo sistema difensivo chiamato "Constitutional Classifiers" che, dalle prime dichiarazioni, sarebbe in grado di bloccare il 95% dei tentativi di jailbreak contro Claude 3.5 Sonnet, il suo modello proprietario. Scopriamo di più al riguardo.
La risposta di Anthropic al problema dei jailbreak
I jailbreak sfruttano delle vulnerabilità dei modelli linguistici, inducendoli a ignorare le loro istruzioni di sicurezza, fornendo all’utente risposte dannose o potenzialmente pericolose, che compromettono il fine ultimo dell’intelligenza artificiale: quello di essere una tecnologia a supporto delle persone, per affiancarle e aiutarle nello svolgimento delle varie attività.
Per questa ragione Anthropic ha sviluppato "Constitutional Classifiers" contro i jailbreak che, invece di cercare di "riparare" i modelli linguistici dopo che sono stati attaccati, preferisce giocare d’anticipo, fornendo uno scudo protettivo che impedisce agli attacchi di avere successo.
Questo sistema può essere immaginato come un filtro in grado di analizzare i prompt degli utenti e bloccare quelli che potrebbero portare a risposte dannose.
Per arrivare a questo risultato, Anthropic ha addestrato un secondo modello di intelligenza artificiale, sviluppato per riconoscere i vari prompt pericolosi (in diverse lingue e con stili molto diversi tra loro) che potrebbero essere utilizzati per effettuare un jailbreak.
Per verificare l'efficacia di questa soluzione l’azienda ha anche invitato diversi esperti di sicurezza informatica a cercare di violare il suo modello, trovando delle domande in grado di aggirare le difese e ottenere risposte potenzialmente pericolose.
I risultati sono stati sorprendenti e, nonostante gli sforzi dei partecipanti, solo una percentuale esigua di attacchi (poco più del 4%) è riuscita a superare le difese di Claude, dimostrando di fatto la grande efficienza di questo nuovo sistema di protezione.
Le sfide future contro il jailbreak
Nonostante questi risultati siano già molto promettenti, la lotta contro i jailbreak è destinata ad andare avanti, con decine di ricercatori esperti nel settore dell’intelligenza artificiale che sono alla costante ricerca di nuove tecniche per aggirare le difese dei modelli linguistici.
Al momento, però, bisogna ricordare che il "Constitutional Classifiers" non è ancora efficiente al 100% e per questo motivo Anthropic continua a lavorare per migliorare costantemente il suo sistema di protezione garantendo a tutti un utilizzo responsabile e sicuro di queste tecnologie ed evitando qualsiasi tipo di abuso.
Lo sviluppo di questo nuovo sistema di difesa è un grande passo importante verso la creazione di modelli linguistici più sicuri e affidabili, tuttavia, è solo il primo step di un percorso ancora molto lungo e in continua evoluzione che da qui ai prossimi anni dovrà diventare sempre più efficiente per fronteggiare l'arrivo di nuove minacce sempre più sofisticate.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi