Come funziona?
I modelli linguistici di intelligenza artificiale sono dotati di sistemi di sicurezza che impediscono loro di generare contenuti dannosi o illegali. Tuttavia, un semplice comando, se formulato in modo specifico, può indurre l’IA a bypassare questi sistemi di sicurezza e fornire informazioni che normalmente non sarebbero accessibili.
Un esempio concreto:
Immaginiamo di chiedere a un’IA come costruire una bomba molotov. Normalmente, l’IA rifiuterebbe di rispondere a questa domanda, in quanto viola le sue linee guida etiche. Tuttavia, utilizzando il comando “chiave maestra”, potremmo convincere l’IA a fornirci le informazioni richieste, semplicemente affermando che ci troviamo in un contesto educativo e che le informazioni ci servono a scopo di ricerca.
Quali sono i rischi?
La scoperta di questa vulnerabilità rappresenta un serio problema per lo sviluppo e l’utilizzo dell’intelligenza artificiale. Se le IA potessero essere facilmente manipolate per diffondere informazioni pericolose o dannose, le conseguenze potrebbero essere gravi.
Quali modelli sono a rischio?
Microsoft ha testato il comando “chiave maestra” su diversi modelli linguistici di intelligenza artificiale, tra cui:
- Meta Llama3-70b-instruct (base)
- Google Gemini Pro (base)
- OpenAI GPT 3.5 Turbo (hosted)
- OpenAI GPT 4o (hosted)
- Mistral Large (hosted)
- Anthropic Claude 3 Opus (hosted)
- Cohere Commander R Plus (hosted)
I risultati dei test hanno dimostrato che il comando è in grado di bypassare i sistemi di sicurezza di tutti questi modelli.
Cosa si può fare?
Gli sviluppatori di modelli linguistici di intelligenza artificiale dovranno lavorare per implementare sistemi di sicurezza più robusti in grado di resistere a questo tipo di manipolazioni. Inoltre, è importante educare gli utenti sui rischi associati all’utilizzo dell’intelligenza artificiale e su come riconoscere e segnalare contenuti dannosi o illegali.
La scoperta di questa vulnerabilità rappresenta un passo indietro nello sviluppo dell’intelligenza artificiale affidabile e sicura. Tuttavia, è anche un’opportunità per migliorare i sistemi di sicurezza e per aumentare la consapevolezza degli utenti sui rischi associati all’utilizzo di questa tecnologia.
#IA #intelligenzaartificiale #sicurezza #comando #chiavemaestra #skeletonkey #danni #pericoli #Microsoft