Microsoft presenta Azure AI Speech text to speech avatar

Microsoft ha annunciato una sorprendente novità durante l’evento Microsoft Ignite 2023: un innovativo strumento per creare deepfake perfetti. Si tratta di Azure AI Speech text to speech avatar, che consente agli utenti di generare video di un avatar fotorealistico capace di pronunciare un discorso completamente nuovo, creato dall’utente stesso.

Questa tecnologia si basa su due componenti separate: un modello per gestire l’avatar e uno strumento di sintesi vocale per “leggere” il testo fornito dall’utente. Le opportunità che questa tecnologia offre sono molteplici, consentendo agli utenti di creare video a scopo educativo, presentazioni di prodotti, testimonianze di clienti e molto altro. Gli avatar possono inoltre essere impiegati per creare agenti conversazionali, assistenti virtuali, chatbot e altro ancora.

Una caratteristica interessante di questi avatar è la capacità di parlare diverse lingue e di utilizzare modelli di intelligenza artificiale avanzati per rispondere alle domande degli utenti. Al momento del lancio, la maggior parte degli utenti avrà accesso soltanto ad avatar pre-confezionati, mentre quelli personalizzati saranno accessibili solo tramite registrazione e solo per determinati casi d’uso.

Oltre a ciò, Microsoft offre anche il servizio vocale neurale personalizzato, che include lo strumento Personal voice. Questo permette di replicare la voce di un utente dopo pochi secondi di registrazione audio. Tale funzionalità può essere sfruttata per creare assistenti vocali personalizzati, doppiare contenuti in diverse lingue e generare racconti personalizzati per storie, audiolibri e podcast.

È tuttavia fondamentale considerare anche le implicazioni etiche di questa tecnologia.

Pur offrendo la possibilità di creare contenuti molto realistici, i deepfake come questi possono essere utilizzati in modo fraudolento per fini politici o per diffondere informazioni false. Microsoft, consapevole di questi rischi, richiede agli utenti di dare un “consenso esplicito” tramite una dichiarazione registrata prima di utilizzare la propria voce per la sintesi vocale.

Questa nuova tecnologia presenta indubbiamente interessanti opportunità, ma è necessario considerare attentamente le considerazioni etiche e garantire che venga utilizzata in modo responsabile.

Lascia un commento Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *