Apple ha annunciato un nuovo modello linguistico multimodale (LLM) open source, chiamato Ferret. Questo modello linguistico può capire e produrre testo, immagini, suoni e video, come altri modelli simili, come Gemini, ChatGPT o Google Bard.
Ferret è stato sviluppato da un team di ricercatori di Apple e della Columbia University. È stato addestrato su un dataset di testo e immagini di grandi dimensioni, e può essere utilizzato per una varietà di scopi, tra cui:
- Descrivere immagini in modo dettagliato e accurato. Ferret è in grado di identificare e descrivere le piccole parti di un’immagine, facendo meno errori rispetto al modello linguistico GPT-4 di OpenAI.
- Tradurre lingue. Ferret può essere utilizzato per tradurre testi da una lingua all’altra, anche se le lingue sono molto diverse.
- Creare contenuti creativi. Ferret può essere utilizzato per scrivere storie, creare musica o generare immagini.
Ferret è un importante passo avanti nello sviluppo dell’intelligenza artificiale multimodale. È ancora in fase di sviluppo, ma ha il potenziale per essere utilizzato in una varietà di applicazioni.