Il lato oscuro del machine learning: la sicurezza dell’IA è a rischio?

Foto dell'autore

Filippo Zazzi

 

Home > News feed > ICT News > Il lato oscuro del machine learning: la sicurezza dell’IA è a rischio?

Se pensate che lo sviluppo dell’intelligenza artificiale vada nella direzione di rendere le nostre vite più tranquille e i nostri dati più al sicuro, vi state sbagliando. È vero che, da una parte, l’IA ha messo in piedi nuove misure di sicurezza che sono in grado di aumentare le difese da eventuali attacchi, ma, dall’altra, l’aspetto machine-learning, proprio dell’intelligenza artificiale, mostra il fianco ad un comportamento nocivo e malevolo.

Questo prende il nome di many-shot jailbreak, ossia, un attacco a più riprese che sarebbe in grado di “confondere” l’IA, costringendola a comportarsi esattamente come noi vogliamo, anche in casi in cui, di norma, dovrebbe esserle proibito. Vediamo più nel dettaglio come questo sia possibile.

La minaccia del machine learning

Il tema della sicurezza nell’intelligenza artificiale (IA) è sempre stato un aspetto cruciale, specialmente con l’avvento di modelli linguistici di grande dimensione, quali Claude, sviluppato da Anthropic. Un recente studio condotto da questo laboratorio di IA ha messo in luce una vulnerabilità sorprendente: la capacità di “jailbreak” attraverso il metodo denominato “many-shot jailbreaking”. Questo approccio consiste nel sommergere il sistema con esempi di comportamenti nocivi, per indurlo a produrre risposte che altrimenti rifiuterebbe categoricamente.

Claude, analogamente ad altri sistemi AI commerciali di vasta portata, è dotato di funzionalità di sicurezza progettate per spingerlo a rifiutare richieste di generare discorsi violenti o odiosi, istruzioni per attività illegali, inganni o discriminazioni. Tuttavia, la ricerca ha dimostrato che, fornendo centinaia di esempi di risposte “corrette” a domande dannose, il sistema può essere indotto a continuare su questa linea, rispondendo alle richieste nocive.

Anthropic ha evidenziato che, inserendo grandi quantità di testo in una configurazione specifica, è possibile forzare i modelli linguistici di grande dimensione a produrre risposte potenzialmente dannose, nonostante siano stati addestrati a non farlo. L’azienda ha condiviso i risultati della sua ricerca con i colleghi del settore, con l’obiettivo di risolvere la questione il più presto possibile.

La semplicità dell’attacco “many-shot jailbreak”, nonostante non fosse stata osservata in precedenza, risiede nella necessità di un modello IA con una grande “finestra di contesto”, capace di rispondere a domande lunghe migliaia di parole. Paradossalmente, i modelli IA più semplici non possono essere ingannati in questo modo, poiché “dimenticano” l’inizio della domanda prima di raggiungere la fine, ma i progressi nello sviluppo dell’IA stanno aprendo nuove possibilità per gli attacchi.

I sistemi AI più recenti e complessi sembrano essere più vulnerabili a tali attacchi, forse perché sono migliori nell’apprendere dagli esempi, il che significa che imparano anche più velocemente a eludere le proprie regole. La scoperta che questo tipo di jailbreak funziona particolarmente bene sui modelli più grandi è motivo di preoccupazione, dato il potenziale danno che questi possono causare.

La nuova speranza

Un approccio promettente identificato dalla compagnia per affrontare il problema del “jailbreaking” comporta l’aggiunta di un avvertimento obbligatorio dopo l’input dell’utente, il quale ricorda al sistema di non fornire risposte dannose. Questa soluzione sembra ridurre notevolmente le probabilità di un jailbreak efficace. Tuttavia, i ricercatori hanno osservato che tale strategia potrebbe anche compromettere le prestazioni del sistema in altri compiti.

La sfida principale risiede nel trovare un equilibrio tra il mantenimento dell’efficacia del sistema nelle sue funzioni principali e la prevenzione di risposte potenzialmente dannose. L’introduzione di avvertimenti obbligatori rappresenta un passo importante verso la comprensione e il controllo delle capacità di questi modelli avanzati di intelligenza artificiale. Resta, però, aperta la questione su come ottimizzare questa soluzione per minimizzare gli impatti negativi sulle altre capacità del sistema.

La ricerca in questo ambito evidenzia l’importanza di continuare a sviluppare e implementare misure di sicurezza che siano efficaci senza limitare eccessivamente le potenzialità e l’utilità dei modelli di intelligenza artificiale. La strada da percorrere è complessa, ma essenziale.

Lascia un commento