Uno dei segnali tipici dell’AI è l’imperfezione del video: manche un audio troppo perfetto, al contrario, potrebbe essere generato in AI. I primi modelli di AI generativa creavano aberrazioni grafiche molto evidenti, tra visi fortemente deformi e mani uncinate, mentre i modelli attuali rasentano sempre più la perfezione.

Ma la troppa perfezione si evidenzia anche nell’audio.
Audio troppo perfetto? Potrebbe essere audio generato in AI
Prendiamo i già citati video della professoressa Camila Parker, onlyfanser virtuale dalle gonne strette e i vestiti inappropriati, o le assurde “interviste con AI” a personaggi sempre più improbabili come “L’immigrata a TG5 che spiega perché dare il reddito di cittadinanza ai migranti”, la “ragazza tatuata che non trova lavoro in Italia” e “Giuseppe il rissoso pensionato che prende 5000 euro di pensione e insulta i poveri”.
Sia che il microfono sia davanti ai loro nasi che non vi sia, l’audio è sempre perfetto e adamantino, i personaggi parlano con dizione da soap opera e non ci sono rumori di fondo.

Sia che la ripresa sia di Camila Parker che tiene lezione al coperto che della ragazza tatuata che con passo dinoccolato si muove intorno al Colosseo, l’audio sembrerà sempre promanare dal personaggio principale, e sempre senza disturbi di fondo.
Quando persino una console da videogames cerca di simulare un “audio spaziale” creando l’illusione che il suono provenga da più luoghi, le AI hanno il problema di dover calcolare troppe variabili e tutte assieme e sacrificare quelle del suono.
L’audio è sempre perfetto, le voci sempre campionate da librerie presenti, sempre privo di spazialità.
Almeno per ora.