Anthropic, i nuovi sistemi di sicurezza contro il jailbreak degli LLM

Ascolta l'articolo

Anthropic sta sviluppando dei nuovi sistemi di sicurezza contro il jailbreak degli LLM. L’impegno dell’azienda per proteggere i sistemi AI da attacchi esterni

BOY ANTHONY/Shutterstock

mettiti alla prova con il quiz di mr. Plus su Intelligenza Artificiale

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

In Breve (TL;DR)

Anthropic ha sviluppato nuovi Constitutional Classifiers per proteggere Claude 3.5 Sonnet e gli LLM da attacchi di jailbreak, prevenendo risposte dannose.
Il sistema analizza le richieste in tempo reale, bloccando tentativi di manipolazione, ma la lotta contro le vulnerabilità AI resta in continua evoluzione.

I modelli linguistici di grandi dimensioni (LLM) la tecnologia alla base di tutti i sistemi basati sull’intelligenza artificiale, si sono evoluti a un ritmo impressionante negli ultimi anni.

Parallelamente a questa crescita, però, sono aumentate anche le preoccupazioni per i jailbreak, delle particolari tecniche utilizzate dai malintenzionati digitali per ingannare gli LLM, inducendoli a produrre risposte dannose o inappropriate.

Per contrastare questo problema, Anthropic ha sviluppato un nuovo sistema difensivo chiamato "Constitutional Classifiers" che, dalle prime dichiarazioni, sarebbe in grado di bloccare il 95% dei tentativi di jailbreak contro Claude 3.5 Sonnet, il suo modello proprietario. Scopriamo di più al riguardo.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

La risposta di Anthropic al problema dei jailbreak

I jailbreak sfruttano delle vulnerabilità dei modelli linguistici, inducendoli a ignorare le loro istruzioni di sicurezza, fornendo all’utente risposte dannose o potenzialmente pericolose, che compromettono il fine ultimo dell’intelligenza artificiale: quello di essere una tecnologia a supporto delle persone, per affiancarle e aiutarle nello svolgimento delle varie attività.

Per questa ragione Anthropic ha sviluppato "Constitutional Classifiers" contro i jailbreak che, invece di cercare di "riparare" i modelli linguistici dopo che sono stati attaccati, preferisce giocare d’anticipo, fornendo uno scudo protettivo che impedisce agli attacchi di avere successo.

Questo sistema può essere immaginato come un filtro in grado di analizzare i prompt degli utenti e bloccare quelli che potrebbero portare a risposte dannose.

Per arrivare a questo risultato, Anthropic ha addestrato un secondo modello di intelligenza artificiale, sviluppato per riconoscere i vari prompt pericolosi (in diverse lingue e con stili molto diversi tra loro) che potrebbero essere utilizzati per effettuare un jailbreak.

Per verificare l'efficacia di questa soluzione l’azienda ha anche invitato diversi esperti di sicurezza informatica a cercare di violare il suo modello, trovando delle domande in grado di aggirare le difese e ottenere risposte potenzialmente pericolose.

I risultati sono stati sorprendenti e, nonostante gli sforzi dei partecipanti, solo una percentuale esigua di attacchi (poco più del 4%) è riuscita a superare le difese di Claude, dimostrando di fatto la grande efficienza di questo nuovo sistema di protezione.

Le sfide future contro il jailbreak

Nonostante questi risultati siano già molto promettenti, la lotta contro i jailbreak è destinata ad andare avanti, con decine di ricercatori esperti nel settore dell’intelligenza artificiale che sono alla costante ricerca di nuove tecniche per aggirare le difese dei modelli linguistici.

Al momento, però, bisogna ricordare che il "Constitutional Classifiers" non è ancora efficiente al 100% e per questo motivo Anthropic continua a lavorare per migliorare costantemente il suo sistema di protezione garantendo a tutti un utilizzo responsabile e sicuro di queste tecnologie ed evitando qualsiasi tipo di abuso.

Lo sviluppo di questo nuovo sistema di difesa è un grande passo importante verso la creazione di modelli linguistici più sicuri e affidabili, tuttavia, è solo il primo step di un percorso ancora molto lungo e in continua evoluzione che da qui ai prossimi anni dovrà diventare sempre più efficiente per fronteggiare l'arrivo di nuove minacce sempre più sofisticate.

Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi

A cura di Cultur-e

Topic:

Intelligenza Artificiale

#IntelligenzaArtificiale

#NuoveTecnologie

#SicurezzaInformatica

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

TecnologicaMente

Qual è il tuo Rapporto con l’Intelligenza Artificiale?

Qual è il tuo Rapporto con l’Intelligenza Artificiale?

Scopri se sei un entusiasta dell’AI, un utilizzatore cauto o un tradizionalista scettico!

Fai il test gratuito

LinkedIn X Facebook WhatsApp Email

Bonifico istantaneo, attenzione alle truffe

Il bonifico istantaneo ha diversi vantaggi, ma anche dei rischi e una maggiore possibilità di essere utilizzato nelle truffe. Cosa c’è da sapere per proteggersi

Dev & Security

Apple rilascia la beta due di iOS 18.5, ma le attenzioni sono per iOS 19

Apple ha rilasciato nuovi aggiornamenti per la versione di iOS 18, ma gli occhi sono tutti puntati sul futuro imponente rilascio: iOS 19. Cosa ci aspetta

Dev & Security

Cos'è Gemini Live e come cambiano le tue ricerche immagini e video

Google ha confermato che le funzioni di Gemini Live per la condivisione dello schermo e utilizzo della fotocamera saranno disponibili gratuitamente per tutti

Scopri i corsi gratuiti della Fastweb Digital Academy

Introduzione agli NFT

Abbiamo sentito parlare degli NFT per merito delle famose scimmie milionarie, le Bored Apes, e per molti sono delle immagini con dei costi…

Introduzione alla programmazione in Python

Il Deep Learning è una tecnologia che comprende diverse discipline e le principali sono l’informatica e la programmazione. Il Deep Learning, infatti…

Low-Code/No-Code: sbloccare efficienza, innovazione e crescita con l'automazione e le applicazioni senza codice