Tecniche di Inganno per “Hackerare” le IA
Quando parliamo di “hackerare” un’IA tramite inganno, non ci riferiamo necessariamente all’ottenimento di accesso non autorizzato al sistema che la ospita (come nel caso di un tradizionale attacco informatico). Piuttosto, ci concentriamo sulla manipolazione dell’input o del contesto per indurre l’IA a fornire output errati, indesiderati o a rivelare informazioni sensibili. Ecco alcune delle tecniche più comuni:
- Attacchi Adversariali (Adversarial Attacks): Questi attacchi consistono nell’aggiungere piccole perturbazioni impercettibili all’input di un modello di IA (ad esempio, modificando leggermente un’immagine o un testo) per indurlo a una classificazione errata. Ad esempio, una leggera modifica a un segnale stradale potrebbe far sì che un sistema di guida autonoma lo interpreti in modo errato.
- Data Poisoning (Avvelenamento dei Dati): Questa tecnica mira a corrompere i dati di addestramento di un modello di IA, introducendo esempi errati o manipolati. Questo può compromettere le prestazioni del modello a lungo termine, inducendolo a errori sistematici.
- Estrazione del Modello (Model Extraction): In questo tipo di attacco, un attaccante cerca di replicare il comportamento di un modello di IA interrogandolo ripetutamente e analizzando le sue risposte. Questo permette di creare un modello “clone” che può essere utilizzato per attacchi successivi o per ottenere informazioni sul modello originale.
- Inversion Attacks (Attacchi di Inversione): Questi attacchi cercano di ricostruire i dati di addestramento di un modello di IA a partire dal suo output. Questo può portare alla divulgazione di informazioni private o sensibili utilizzate per l’addestramento del modello.
- Prompt Injection (Iniezione di Prompt): Questa tecnica, particolarmente rilevante per i Large Language Models (LLM) come GPT, consiste nell’inserire nel prompt di input istruzioni nascoste o manipolative per indurre il modello a eseguire azioni non previste, come rivelare informazioni interne, ignorare le restrizioni di sicurezza o generare output dannosi.
Esempi Pratici e Implicazioni
Ecco alcuni esempi di come queste tecniche possono essere utilizzate in scenari reali:
- Un sistema di riconoscimento facciale potrebbe essere ingannato da un attacco adversarial che utilizza una maschera o un paio di occhiali appositamente modificati per impersonare un’altra persona.
- Un sistema di raccomandazione online potrebbe essere manipolato tramite data poisoning per promuovere prodotti indesiderati o diffondere disinformazione.
- Un LLM potrebbe essere indotto tramite prompt injection a divulgare informazioni riservate sull’azienda che lo utilizza o a generare codice dannoso.